CN112364757B

CN112364757B - 一种基于时空注意力机制的人体动作识别方法

Info

Publication number: CN112364757B
Application number: CN202011242807.8A
Authority: CN
Inventors: 张强; 于华; 候亚庆; 葛宏伟; 周东生
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-10-21
Anticipated expiration: 2040-11-09
Also published as: CN112364757A

Abstract

本发明属于计算机视觉领域，涉及视频中的人体动作识别，用于定位和分类视频中人体行为动作，具体为一种基于时空注意力机制的人体动作识别方法。本发明所提供的基于空间变换网络的注意力机制，获取与人体运动相关的区域，从而捕获动作之间的细节变化；本发明所提供的局部区域与全局特征进行融合的方法，加强了人体动作的表示；本发明所提供的全局特征描述符，将来自空间信息、时间信息以及时空交互信息进行聚合来区分人体行为动作，提高识别效果。

Description

一种基于时空注意力机制的人体动作识别方法

技术领域

本发明属于计算机视觉领域，涉及视频中的人体动作识别，用于定位和分类视频中人体行为动作，具体为一种基于时空注意力机制的人体动作识别方法。

背景技术

近年来，随着人工智时代的到来和计算机领域相关科技的日新月异，人机交互的研究越来越受到人们的关注，机器人的应用领域也变得越来越广泛。在人与机器人的交互系统中，机器人需要从获取的视频数据中识别人类的行为。因此实现人类与机器人高效、和谐的协作，需要精确的识别人类的行为动作。尽管近几年来对人体动作识别的研究取得了重要的进展，但人体动作识别的高度复杂性和环境的多变使得识别的精度并未满足相关行业的实际需求。本发明旨在从不同角度进一步提高人体动作识别的精度。接下来详细介绍这一领域中相关的背景技术。

(1)人体动作识别数据集介绍

人体动作识别任务中的公开数据集的数量较多，大致分为两种形式，分别为基于三维骨骼点特征和基于RGB视频的数据集。与三维骨骼点数据集相比，基于RGB视频数据集的视觉内容要复杂得多，例如光照强度、视角、背景和相机的抖动等条件下会呈现不同的动作场景，而在不同的动作场景中相同的人体行为在姿态上会产生差异。即使在恒定的动作场景中，人体动作也会有较大的自由度，对于同一种动作不同的人会在频率、幅度上差别很大。同时基于RGB视频数据集也包含了更多的视觉人体运动信息，因此基于该类型数据集的研究更具挑战性。

(2)传统的人体动作识别方法

对于传统的人体动作识别方法，如方向梯度直方图、光流直方图和运动边界直方图等，通常需要将图像的x和y方向的光流图像上计算方向梯度直方图与光流直方图特征，获取随光度变化的兴趣点。然而，这些方法中的特征描述子生成过程冗长，导致速度慢，方法的实时性较差；同时，这些方法需要人工提取特征，并且识别性能相对较差，方法的泛化能力不强；由于梯度的性质，该算法的特征描述子对视频帧中的噪点相当敏感。

(3)基于深度学习的人体动作识别方法

近几年，由于卷积神经网络(CNN)在图像分类中的广泛应用，特别是深度学习技术的迅速发展，基于视频的人体动作识别方法取得了长足的进步。其中，长短期记忆网络由于具有长期保存信息的能力，因此可以通过将卷积神经网络与长短期记忆网络模型相结合对视频级的人体动作进行识别，以此来捕捉关于人体动作的时间和空间的动态信息。此外，3D-CNN(C3D)是卷积神经网络在时间领域的扩展，传统的2D卷积没有考虑到时间维度的帧间运动信息，C3D是在2D卷积的基础上，增加了时间维度信息。使用3D CNN能更好的捕获视频中的时间和空间的特征信息，它利用3D卷积核来提取视频帧间的时间演化信息。与2D-CNN相比，它在提取时空特征方面表现出了更好的性能。然而，经大量的实验证明，现有的C3D方法存在可伸缩性差和计算成本高的问题，可扩展性较差。之后，双流CNN的提出在一定程度上解决了以上问题，双流CNN可以分别提取视频中的空间特征和时间特征。在空间方面，可以随着CNN基础网络结构的发展而利用新的CNN框架来获取视频人体动作的空间特征；在时间方面，可以利用光流方法来捕获人体的运动轨迹。双流CNN可以同时利用CNN框架和光流算法的优势对视频级的人体动作进行识别。

然而，现有的双流CNN方法仍然存在需要改进的地方。一方面，由于人体的不同区域在人体行为活动过程中具有不同程度的显著性，可以通过分别定位人体动作在空间的显著性区域，将提取到的区域特征与全局图像特征相结合。现有的方法未考虑到人体动作的感兴趣局部区域部分和全局区域特征之间的关系。另一方面，双流CNN在对提取的时空特征进行融合的时候，如何有效地捕捉两个流之间的交互信息，需要进一步改进和完善。

发明内容

为了获取人体动作的局部区域特征与全局特征之间的关系，以及捕捉时间和空间特征的交互作用，本发明提出了基于时空注意力机制及多阶段特征融合的人体动作识别方法。通过定位网络定位到人体运动显著的局部区域，分别对空间特征的局部区域以及全局图像进行特征融合，同时采用光流算法提取人体运动的时间特征；将时空特征进行特征融合获得人体运动的全局特征描述符，可以更加准确地识别人体动作的分类结果。

本发明的技术方案：

一种基于时空注意力机制的人体动作识别方法，步骤如下：

(1)人体动作视频数据的预处理

将数据集的人体动作视频中的片段S截取成n块S1，S2，...，Sn，从截取的每个人体动作视频片段中随机选取单帧以及堆叠的多个光流帧分别作为空间网络和时间网络的输入。

进一步地，所述步骤(1)的具体内容为：

为了对训练数据集的数量进行扩充，避免在训练过程中出现过拟合，对原始数据集的人体动作视频片段进行随机翻转和裁剪等操作获得人体动作视频片段。空间网络的输入为随机选取的单个视频帧；时间网络的输入为，预先计算人体运动的光流轨迹，并将提取到的光流特征存储为JPEG图像，堆叠光流帧图像作为时间网络的输入。

(2)空间特征提取以及特征融合

首先，将步骤(1)中预处理之后的视频帧输入到卷积网络进行全局的空间特征提取；其次，采用空间注意力机制对视频帧中人体部位的不同区域特征给予不同权重的关注，获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取；最后将学习到的区域特征与原始视频帧的全局特征进行融合。

进一步地，所述步骤(2)的具体内容为：

(2.1)全局空间特征提取。采用BN-Inception卷积网络对空间网络的输入进行特征提取，获得全局空间特征。

(2.2)局部区域空间特征提取。局部区域空间特征提取部分通过采用空间仿射变换模型来获取空间网络输入中人体部位的感兴趣的区域特征，并作为注意力机制。

针对空间网络的输入，采用空间仿射变换模型对人体部位的不同区域提取的视觉特征给予不同权重的关注，获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取。空间仿射变换模型可以在在训练的过程中自动选择感兴趣的区域特征，同时可以实现对各种形变的数据进行空间变换。由于空间变换网络能够自动提取局部区域特征，因此在网络的同一层插入多个并行的空间变换网络提取多个局部区域特征，从而可以结合多个局部区域特征进行分类。这个网络可以作为单独的模块，可以在CNN的任意层插入，所以空间仿射变换网络的输入不止是输入图像，可以是CNN中间的特征层。

空间变换网络结构由三部分组成，Localisation Net，Grid generator，Sampler。空间变换网络架构注意力机制的执行过程如下。

首先，Localisation Net生成空间仿射变换的参数矩阵。

其中，s_x、s_y、t_x和t_y表示用于注意裁剪、平移和各向同性尺度的变化参数。

其次，Grid Generator根据输出特征图V中的坐标点和变化参数θ，计算出输入特征图U中的坐标点，表示从输入feature map(U)到输出feature map(V)的映射矩阵。采用的空间变换的公式过程定义如下。

其中，

和

代表原坐标和目标坐标，T_θ(G)为仿射变换函数，A_θ为空间变换参数的矩阵，式子中的θ矩阵为空间变换参数矩阵。假设U和V的每个像素点的坐标分别为

和

得到U到V的点坐标变换。

最后，Sampler根据计算出的V中每个点对应到U的坐标点，直接根据V的坐标点取得对应到U中坐标点的像素值来进行填充，而不需要经过矩阵运算。需要注意的是，填充并不是直接填充，首先计算出来的坐标可能是小数，要处理一下，其次填充的时候往往要考虑周围的其它像素值。填充公式的具体表示为：

其中，n和m表示遍历原图U的所有坐标点，U_nm表示原图U中某个点的像素值，k()为取样核函数，φ为填充的参数，

表示V中第i个点要到U图中找的对应点的坐标，表示的坐标是U图上的；k表示使用不同的方法来填充，通常使用双线性插值，见公式(3)：

其中，U_nm表示原图U中某个点的像素值，n代表横坐标m代表纵坐标，x_i ^s、y_i ^s代表原坐标，i∈[1,HW]，c∈[1,3]，两个∑∑筛出四个邻近插值点，max()函数表示求最大值。

(2.3)空间特征融合

根据步骤(2.2)得到的人体动作的感兴趣区域部分，将学习到的局部区域特征与原始视频帧的全局特征进行融合。在对卷积网络进行训练过程中激活函数采用的是Relu函数，通过交叉熵损失函数和随机梯度下降算法优化网络。在进行特征图融合时，融合层的位置选取在BN-Inception架构的最后一个卷积层和全连接层之间。

特征融合时采用的是紧凑双线性池化方法，在本发明中用来解决特征融合后的特征维数过高的问题，来提高特征融合的效率同时捕获有用的特征信息。紧凑双线性池化能够计算不同空间位置的外积，并对不同空间位置计算平均池化以得到双线性特征。融合的位置在基础网络结构的最后一个卷积层和完全连接层之间，特征维度由高维空间映射到低维空间特征。找到一个映射函数<Φ(x),Φ(y)>≈k(x,y)使得两组双线性池化特征x和特征y的内积维度<B(x),B(y)>得以降低。具体的公式表示如下：

其中，x和y表示两种特征，

即为紧凑双线性池化的表示，<Φ(x),Φ(y)>≈k(x,y)代表映射函数。

(3)时空信息交互

首先提取人体动作视频片段的时间特征，然后将提取的时间特征与步骤(2)中空间特征进行时空信息交互。

进一步地，所述步骤(3)的具体内容为：

(3.1)时间特征提取

将步骤(1)预处理之后的人体动作视频片段的样本输入到时间卷积网络BN-Inception，通过卷积网络结构进行时空特征的提取，同时使用预处理之后的数据对卷积网络进行训练。

(3.2)时空信息交互

通过将步骤(3.1)提取的时间特征与步骤(2)中提取的空间特征进行时空特征融合，从而实现时空信息交互。特征融合方法采用的是步骤(2.3)中的紧凑双线性池化方法。

通过此方法来捕获时空特征不同通道的对应关系，进行信息交互。在此之后，继续对时空信息进行特征提取，设置两个卷积层来产生每个位置的权重，然后使用softmax生成输出时空信息的特征图。

(4)全局信息特征融合

原始视频数据经过步骤(1)～(3)的处理之后，将产生的空间、时间以及时空交互特征三个特征源进行特征融合，测试全局特征融合的结果，最后对人体动作分类，完成基于视频的人体动作识别。

进一步地，所述步骤(4)的具体内容为：

将空间、时间以及时空交互特征的三个特征源通过步骤(2.3)中的紧凑双线性池化方法进行融合得到全局特征，得到一个全局特征向量，然后将特征输入到softmax进行分类，通过输出得到的最大值对应的类别得出最后的人体动作的分类结果。

本发明是基于时空注意力机制及多阶段特征融合的人体动作识别方法，以双流CNN算法为基础，对人体动作进行识别，最终能够区分相似动作之间的细微差异还能够提升识别效率。

与现有技术相比，本发明还具有以下优点：本发明所提供的基于空间变换网络的注意力机制，获取与人体运动相关的区域，从而捕获动作之间的细节变化；本发明所提供的局部区域与全局特征进行融合的方法，加强了人体动作的表示；本发明所提供的全局特征描述符，将来自空间信息、时间信息以及时空交互信息进行聚合来区分人体行为动作，提高识别效果。

附图说明

图1为本发明所提供的基于时空注意力机制的人体动作识别方法的整体流程结构示意图。

图2为本发明所提供的基于深度学习的动作识别方法的特征融合示意图。

图3为本发明所提供的基于时空注意力机制的人体动作识别方法的详细网络结构原理图。

具体实施方式

为使本发明的技术方案以及细节原理表达的更加清楚和明确，以下参照附图并举实施例对本发明做进一步的说明。

本实施例公开了一种基于时空注意力机制的人体动作识别方法，其概括图如图1所示，详细网络结构原理图如图3所示。具体步骤如下：

1、将数据集中的人体动作视频片段划分为以20帧为单位得5个片段，并将视频帧统一调整为224*224像素。从截取的每个人体动作视频片段中随机选取单帧作为空间网络的输入，采用TVL1光流法提取视频帧数据得到水平和垂直方向上的光流图，并存储为JPEG图像作为时间网络的输入。

2、训练卷积网络并提取视频人体动作视频的空间特征。

首先将上一步中预处理样本中的数据首先在ImageNet大型数据集上进行预训练，然后用HMDB51和UCF101两个数据集在卷积网络BN-Inception上进行参数微调。Inception模型有四个基本组成结构，分别为1*1卷积，3*3卷积，5*5卷积，3*3最大池化，通过多个卷积核提取不同尺度的信息。在网络训练过程中，激活函数采用的是Relu函数，通过使用随机梯度下降算法不断最小化代价函数，学习率设定的是0.001，进而不断的优化网络。

其次利用训练好的BN-Inception模型提取全局空间特征，同时在输入层后用空间变换网络架构注意力机制获取感兴趣的区域特征，设置身体部分的注意力机制。空间变换网络结构由两个卷积层、两个池化层以及两个全连接层组成，在空间网络的输入并行放置了5个空间仿射变换网络获取不同身体部位的感兴趣区域部分。

最后对获取到的局部区域与全局图像特征采用紧凑双线性池化方法进行特征融合，得到2048维的特征向量的特征图。特征融合示意图如图2所示。

3、将提取的空间特征与时间特征进行融合。

首先采用卷积网络BN-Inception提取视频人体片段的时间特征，之后将上一步骤中空间特征融合的结果与提取的时间网络特征进行时空特征融合得到4096维的向量，为了继续进行特征提取获得时空交互信息，之后继续放置了两个卷积层以及池化层，特征维度降低到1024，然后使用softmax函数生成输出特征图；

4、原始视频数据经过前几步的处理之后，将产生的空间特征、时间特征以及时空交互特征三个特征源进行第三次特征融合输出4096维的全局特征向量，测试全局特征融合的结果，最后对人体动作分类，根据测试数据集的不同，输出的分类分别为101类和51类，通过选择得分最高对应的人体动作得出当前的人体动作类别。

Claims

1.一种基于时空注意力机制的人体动作识别方法，其特征在于，步骤如下：

(1)人体动作视频数据的预处理

将数据集的人体动作视频中的片段S进行随机翻转和裁剪预处理操作，截取成n块人体动作视频片段S1，S2，...，Sn，从截取的每个人体动作视频片段中随机选取单帧以及堆叠的多个光流帧分别作为空间网络和时间网络的输入；空间网络的输入为随机选取的单个视频帧；时间网络的输入为，预先计算人体运动的光流轨迹，并将提取到的光流特征存储为JPEG图像，堆叠光流帧图像作为时间网络的输入；

(2)空间特征提取以及特征融合

首先，将步骤(1)中预处理之后的视频帧输入到卷积网络进行全局的空间特征提取；其次，采用空间注意力机制对视频帧中人体部位的不同区域特征给予不同权重的关注，获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取；最后将学习到的区域特征与原始视频帧的全局特征进行融合；具体如下：

(2.1)全局空间特征提取；采用BN-Inception卷积网络对空间网络的输入进行特征提取，获得全局空间特征；

(2.2)局部区域空间特征提取；局部区域空间特征提取部分通过采用空间仿射变换模型来获取空间网络输入中人体部位的感兴趣的区域特征，并作为注意力机制；

针对空间网络的输入，采用空间仿射变换模型对人体部位的不同区域提取的视觉特征给予不同权重的关注，获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取；空间仿射变换模型可以在训练的过程中自动选择感兴趣的区域特征，同时实现对各种形变的数据进行空间变换；在空间变换网络的同一层插入多个并行的空间变换网络提取多个局部区域特征，从而结合多个局部区域特征进行分类；

空间变换网络结构由三部分组成，分别为Localisation Net，Grid generator，Sampler；空间变换网络架构注意力机制的执行过程如下；

首先，Localisation Net生成空间仿射变换的参数矩阵；

其中，s_x、s_y、t_x和t_y表示用于注意裁剪、平移和各向同性尺度的变化参数；

其次，Grid Generator根据输出特征图V中的坐标点和变化参数θ，计算出输入特征图U中的坐标点，表示从输入feature map(U)到输出feature map(V)的映射矩阵；采用的空间变换的公式过程定义如下；

其中，

和

代表原坐标和目标坐标，T_θ(G)为仿射变换函数，A_θ为空间变换参数的矩阵，式子中的θ矩阵为空间变换参数矩阵；假设U和V的每个像素点的坐标分别为

和

得到U到V的点坐标变换；

最后，Sampler根据计算出的V中每个点对应到U的坐标点，直接根据V的坐标点取得对应到U中坐标点的像素值来进行填充，填充公式表示为：

其中，U_nm表示原图U中某个点的像素值，n代表横坐标m代表纵坐标，x_i ^s、y_i ^s代表原坐标，i∈[1,HW]，c∈[1,3]，两个∑∑筛出四个邻近插值点，max()函数表示求最大值；

(2.3)空间特征融合

根据步骤(2.2)得到的人体动作的感兴趣区域部分，将学习到的局部区域特征与原始视频帧的全局特征进行融合；在对卷积网络进行训练过程中激活函数采用的是Relu函数，通过交叉熵损失函数和随机梯度下降算法优化网络；在进行特征图融合时，融合层的位置选取在BN-Inception架构的最后一个卷积层和全连接层之间；

特征融合时采用的是紧凑双线性池化方法，融合的位置在基础网络结构的最后一个卷积层和完全连接层之间，特征维度由高维空间映射到低维空间特征；找到一个映射函数<Φ(x),Φ(y)>≈k(x,y)使得两组双线性池化特征x和特征y的内积维度<B(x),B(y)>得以降低；具体的公式表示如下：

其中，x和y表示两种特征，

即为紧凑双线性池化的表示，<Φ(x),Φ(y)>≈k(x,y)代表映射函数；

(3)时空信息交互

首先提取人体动作视频片段的时间特征，然后将提取的时间特征与步骤(2)中空间特征进行时空信息交互；具体如下：

(3.1)时间特征提取

将步骤(1)预处理之后的人体动作视频片段的样本输入到时间卷积网络BN-Inception，通过卷积网络结构进行时空特征的提取，同时使用预处理之后的数据对卷积网络进行训练；

(3.2)时空信息交互

通过将步骤(3.1)提取的时间特征与步骤(2)中提取的空间特征进行时空特征融合，从而实现时空信息交互；特征融合方法采用的是步骤(2.3)中的紧凑双线性池化方法，来捕获时空特征不同通道的对应关系，进行信息交互；然后，继续对时空信息进行特征提取，设置两个卷积层来产生每个位置的权重，再使用softmax生成输出时空信息的特征图；

(4)全局信息特征融合

原始视频数据经过步骤(1)～(3)的处理之后，将产生的空间、时间以及时空交互特征三个特征源通过步骤(2.3)中的紧凑双线性池化方法进行融合得到全局特征，测试全局特征融合的结果，得到一个全局特征向量，然后将特征输入到softmax进行分类，通过输出得到的最大值对应的类别得出最后的人体动作的分类结果。