CN117315765A

CN117315765A - 一种增强时空特征的动作识别方法

Info

Publication number: CN117315765A
Application number: CN202210701392.9A
Authority: CN
Inventors: 孙玮; 徐超; 孟昭鹏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2023-12-29

Abstract

本发明公开了一种增强时空特征提取的动作识别方法，即提取多种信息流的时空特征，在后期将其加权相加以进行动作识别的任务，其主要模块包括自适应图卷积模块、时空通道级别的注意力模块和多模态数据融合模块。通过使用双流的时空图卷积网络进行动作识别，分别将关节和骨骼长作为信息输入，并在模型前期融合关节类型和帧索引信息以及学习关键帧、关键关节点的有效信息，增强了特征表示能力和自适应性，提高了识别准确率。此外，通过使用时空通道级别的注意力机制模块提取骨架数据的局部重要特征，分别在帧、空间、通道上匹配权重，增强有效的信息摒除冗余信息；将得到的关节流和骨骼长度流识别结果加权计算，进一步对结果进行提升和优化。

Description

一种增强时空特征的动作识别方法

技术领域

本发明主要涉及动作识别技术领域，具体的说是一种利用注意力机制对人体运动数据增强提取时空特征的动作识别方法。

背景技术

人体动作姿态分析与识别是计算机视觉领域的一个重点研究课题，在公共安防、视频监控、人机交互等方面都有广泛的应用场景。人类可以利用自身的视觉等生物本能对外在的环境和变化产生鲜明的感知从而采取相应的行动。如今随着时代的迅速发展，今天的计算机具有强大无比的数据分析以及计算存储能力，人体动作姿态分析与识别技术的前景巨大，是推进新一代人机交互发展技术的核心之一。此外，正在蓬勃发展的交叉学科“人因工程”的核心，也与人体动作识别领域联系密切。通过观察特定不同场景下人体的动作特征，如步态，速度，加速度等，有助于总结分析人体的行为模式，为后续在交互方面的研究提供数据支撑。

人体动作识别这一技术从本质上来讲，是对动作关键特征进行处理和判断。在这种认知和判断作为前提下，动作识别技术发展共分为三个阶段。首先，对数据进行收集，随之根据视频数据将不同的人体动作信息进行特征提取，最后对提取的人类动作特征进行判定。早期的动作识别方法将视频帧看成一个整体是全局特征，包括光流法，运动能量图法(MEI)和运动历史图法(MHI)等。全局特征提取的缺点是视频人体位置是否精确影响着特征提取结果的好坏，该方法在对噪声和遮挡等问题的处理上表现出的健壮性十分不理想。视频本质上是由多张图像在时间维度上堆叠而形成，使得视频与图像有着天然的联系。受人类3D骨骼数据自然是拓扑图而不是基于RNN或CNN的方法处理的序列向量或伪图像这一事实的启发。图卷积神经网络作为CNN的一种推广形式，可以应用于包括骨架图在内的任意结构。基于GCN的技术中的一个重要问题仍然与骨架数据的表示有关，即如何将原始数据组织成特定的图形。近年来，由于图形结构数据的有效表示，图卷积网络被频繁地应用于这项任务中。基于目前动作识别领域中主要算法的优缺点，本专利提出了一种增强时空特征的动作识别方法，有效地提取骨骼数据中的运动信息，提高骨骼中动作识别的准确率。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于双流时空图卷积网络的增强时空特征提取的动作识别方法，主要目标为有效地提取多种模态的骨骼数据的时空特征，即学习关键帧、关键关节点的有效信息，增强特征表示能力和自适应性。本发明分别将关节和骨骼长作为信息输入，并在模型前期融合关节类型和帧索引信息，减少训练次数，节约计算成本，解决了计算量过大的问题。

本发明的技术方案如下：

本发明提出了一种增强时空特征提取的动作识别方法。本方法将提取多种信息流的时空特征，在后期将其加权相加以进行识别任务。本方法的主要功能分为3个模块实现：

自适应图卷积模块。这一模块对不同类别的样本自适应地调整骨架图的计算邻接矩阵，通过对帧信息的分析，可以将自适应细化到帧级别。一般的骨架图是基于人体自然连通性启发式预定义的，不能保证对动作识别是最佳的。通过计算关节图进行帧序列间的并发信息和关节序列间的相关性，可以得到所有帧所有关节点的邻接矩阵。邻接矩阵由三部分构成，M_k是基础邻接矩阵，值只有0和1，只包含关节间原有的直接物理连接。N_k是权重邻接矩阵，初始化为0，由网络自动学习。P_k是注意力attention邻接矩阵，计算方式为embedded高斯函数。一层图卷积的输出和之后每一层的图卷积输出残差连接，实现了信息在关节间的传播。GCN学习到的是基于全局的信息，即根据从数据集中提取的知识通过学习图邻接矩阵获得，自适应地调整其在每个模型层中的重要性。学习过程使用基于任务的损失，可以更好地拟合神经网络的层次结构，捕获较远部位的依赖关系。

时空通道级别的注意力模块。通道注意力模块可以帮助模型根据输入样本来增强区分特征。特征图分别经过基于width和height的全局最大池化全局平均池化，得到两个1×1×C的特征图。接着，再将它们分别送入一个两层的MLP，第一层神经元个数为C/r(r为减少率)，激活函数为Relu，第二层神经元个数为C，这个两层的神经网络是共享的。而后，将MLP输出的特征进行基于element-wise的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征。时间注意模块就是为了给不同帧分配不同的重要度。空间注意力模块自动选择每一帧内的主要关节。一个动作虽然是由全身关节一起协同动作，但是也会有主要关节，不同动作重要关节不同。对输入特征图在所有帧上取平均值，再经过sigmoid生成空间注意力特征。

多模态数据融合模块。除了关节信息和骨骼长信息，还有运动信息流、速度差信息、关节类型、帧索引等信息可以辅助对人体骨骼运动特征的学习。其中，速度差信息流首先需要计算前T-1帧与后T-1帧的差值，接着通过填补0元素的方式扩充矩阵，弥补维度上的变化。运动信息流是通过计算相邻两个帧中相同关节点之间的差值得到的。基于速度差的骨长信息流是在速度差信息流的基础上通过计算相邻两个帧中相同骨骼之间的差值得到的。关节类型和帧索引属于语义信息，与动力学信息一样，语义信息也可以参与更好的关节水平建模，从而启用内容自适应图构造与有效消息传递。关节流与骨骼流学习到的特征最后经过gap(全局平均池化)层和softmax层进行动作分类，将类别分数加权融合，以实现更为精准的识别效果。

本发明具有以下有益效果：

1)本发明采用多模态数据融合的方式，将关节类型和帧索引的语义信息与关节流、骨骼长度流融合；通过自适应的图卷积自适应地学习关节权重，通过图卷积学习整体骨架的特征信息，获取关节间的依赖关系，采用深度学习的方式对人体骨骼数据集中的动作进行特征提取最终以达到对其精准分类的目的。

2)本发明使用时空通道级别的注意力机制模块提取骨架数据的局部重要特征，分别在帧、空间、通道上匹配权重，增强有效的信息摒除冗余信息；最后本文将得到的关节流和骨骼长度流识别结果加权计算，对单一流的结果进行提升和优化。

附图说明

图1为本发明所述的整体方法框架图

图2为本发明自适应图卷积模块结构示意图

图3为时空通道级别的注意力模块结构示意图

图4为多模态数据融合模块结构示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1展示了本发明的整体方法框架。本发明以双流时空图卷积网络作为基础骨干网络，将时空通道级别的注意力机制模块插入到每个GCN-Block中。

步骤一：确定数据集。动作识别的视频数据集主要分为这四种形式：RGB视频、3D关节信息、深度图以及红外序列。RGB数据集有UCF101，HMDB51，Spots-1M和Kinetics-400等，这类数据集的动作丰富，具备不同的场景特点，但也出现了严重依赖物体和场景的问题。深度学习很大程度上是由数据驱动的，这种带有背景的数据对于算法也带来了一些导向，使得算法就越来越偏向用物体和场景来识别，没有切入到“动作”这个东西本身。为了解决实际场景中可能出现的问题，本发明使用人体骨骼数据集NTU RGB+D 60，该数据集是目前最大、应用最广泛的门捕获动作识别数据集，包含60个动作类中的56000个动作片段。这些片段由40名志愿者在10至35岁的不同年龄组中表演。每个动作都由3台摄像机在同一高度从不同的水平角度拍摄。该数据集提供Kinect深度传感器检测到的每个帧的3D关节位置。骨架序列中每个主体有25个关节，对人体尺度、摄像机视点和背景干扰的影响是比较小，更加适用于探讨动作识别的本质问题，回归人的实质性动作。

步骤二：输入数据的获取。对于NTU-RGB+D 60数据集，每个数据集样本中最多有两个人。如果样本中的实体数小于2，用0填充第二个实体。每个样本中的最大帧数为300。对于少于300帧的样本，进行重复样本，直到达到300帧。具体来说每个样本由连续骨架帧构成，维度是(T，V，C)，T表示时间设置为300，V表示关节设置为25，C是空间位置(X，Y，Z)设置为3。将骨架帧进行数据预处理，得到关节点数据信息和骨骼长度数据信息。

步骤三：实现自适应图卷积模块，详细设计如图2所示。对于计算t帧关节点i与关节点j之间的相关性可以得到两个关节间的骨骼边权重。给定尺寸为C_in×T×N的输入特征图，首先使用两个嵌入函数，即p和q，将其嵌入到C_e×T×N。嵌入函数选择为1×1的卷积，经过嵌入的特征映射经过重排为矩阵并相乘得到N×N的关系数组，矩阵的值被归一化为0到1的值，作为关节点i和j之间的边的权重，计算公式为：

由于归一化的Gaussian计算与Soffmax函数等同，可以将输出进行Softmax计算。接着将每一层GCN输出与之后的GCN输出通过残差网络连接，加强特征在GCN图卷积网络中的传播。通过上述方法可以得到一对节点的相关性，进而得到一帧所有关节点的自适应矩阵，最后得到所有帧的特征图。接着经过时间流模块如图3所示，即可获得帧与帧之间的联系，加强特征的表现能力。为了合并一个帧中所有关节的信息，应用一个空间最大化池层来跨关节聚合它们。因此，该序列的特征维数为T×1×C3。接着通过映射到核大小为1的高维空间来增强学习特征的表示能力。之后，应用时间最大化层来聚合所有帧的信息，并获得C4维的序列级特征表示。

步骤四：实现时空通道级别模块，详细设计如图4所示。通过自适应图卷积模块获取了与数据相关的邻接矩阵后，本方法紧接着使用时空通道级别模块，达到有效提取空间、时间、通道局部特征的目的。空间注意力模块帮助选择关键关节点，大小为C×T×N的特征图在时间维度进行全局平均池化其计算公式如下：

A_s＝δ(g_s(SP(x))

其中，x表示输入特征图，SP表示空间全局池化，g_s表示池化结果要通过一维空间卷积，δ表示使用Sigmoid函数处理卷积后的结果，最后将函数后的输出以残差的方式点乘到输入的特征图，以进行自适应特征细化。时间注意力模块提取关键的时间帧。与空间注意力类似，特征图经过空间全局池化和一维卷积后变成长度为T的一维向量，其计算公式如下：

A_c＝δ(g_c2(δ(g_c1(STP(χ)))))

其中STP表示分别在空间和时间维度上进行全局平均操作，gc1和gc2是两个沿着通道维度的线性函数。δ表示Relu激活函数。其输出为一维长度为C的向量。

步骤五：多模态数据融合模块。本发明对多模态的数据训练结果进行加权融合，其中最主要的两个数据流为关节流和骨骼流，其中骨骼流是相邻两关节的插值，计算公式下：

B_i，j，t＝(x_j，t-x_i，t，y_i，t-y_i，t，z_j，t-z_i，t)

其中(x_i，t，y_i，t，z_i，t)为源关节点i的坐标，(x_j，t，y_j，t，z_j，t)为目标节点的坐标，即骨骼长度为目标关节点的坐标减去源关节点的坐标。此外关于运动信息流，其计算公式为：

A_i，t，t+1＝(x_i，t+1-x_i，t，y_i，t+1-y_i，t，z_i，t+1-z_i，t)

即运动信息流为对于同一关节点i，在t时刻与t+1时刻位置的差值。除了以上运动信息，本发明还在训练初始阶段增加关节类型和帧索引来进行数据增强。对于所有的关节点，可以看成一个集合其中/>表示在t时刻的关节类型k，因此对于一个给定的关节，既可以用其三维坐标的位置的运动信息表示，也可以用在时间t的类型k的关节的语义信息表示。给定一个帧内的J个关节，将其运动信息与语义信息结合，通过自适应的图卷积，获取全局特征，经过时空通道注意力机制模块，增强局部的特征，最后将多类型的数据流分数通过全连接层进行加权相加进行分类。

步骤六：设计模型训练细节。本发明使用双流图卷积网络对数据集进行训练，对骨架数据集进行数据预处理，得到关节数据和骨骼数据。本发明对网络共训练60个epoch，初始学习率设置为0.01，然后在第20、40将学习率更改为之前学习率的十分之一。本发明使用动量为0.9且权重衰减为1e-4的SGD在Nvidia V100 GPU上使用32的最小批处理量来训练该网络模型。本发明采用每训练完一个epoch就使用验证集验证一次的方式，最终实验结果中展示的的准确率为所有验证结果中的最高值。

显然，所描述的实施例仅仅是本发明的一种可能的实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种增强时空特征提取的动作识别方法，提取多种信息流的时空特征，在后期将其加权相加以进行识别任务，主要功能由自适应图卷积模块、时空通道级别的注意力模块、多模态数据融合模块三个模块实现；

所述自适应图卷积模块通过计算关节图的相关性，可以得到所有帧、所有关节点的邻接矩阵；邻接矩阵由三部分构成，M_k是基础邻接矩阵，值只有0和1，只包含关节间原有的直接物理连接；N_k是权重邻接矩阵，初始化为0，由网络自动学习；P_k是注意力attention邻接矩阵，计算方式为embedded高斯函数；

所述时空通道级别的注意力模块可以帮助模型根据输入样本来增强区分特征；特征图依次经过基于width和height的全局最大池化和全局平均池化，得到两个1×1×C的特征图；接着，再将它们分别送入一个两层的MLP，第一层神经元个数为C/r(r为减少率)，激活函数为Relu，第二层神经元个数为C，这个两层的神经网络是共享的；

所述多模态数据融合模块，数据信息流包括关节信息、骨骼长信息、运动信息流、速度差信息；

具体步骤包括：

首先需要搭建双流时空图卷积网络，再将预先训练好的权重载入网络；同时，分别将关节和骨骼长作为信息输入，并在模型前期融合关节类型和帧索引信息；

通过自适应图卷积模块，可以得到两个关节间的骨骼边权重，进而得到一帧所有关节点的自适应矩阵，最后得到所有帧的特征图；接着经过时间流模块，即可获得骨骼帧之间的联系，加强特征的表现能力；之后，应用一个空间最大池化层来跨关节合并一个帧中所有关节的信息；因此，该序列的特征维数为T×1×C₃；接着通过映射到核大小为1的高维空间来增强学习特征的表示能力；之后，应用时间最大池化层来聚合所有帧的信息，并获得C₄维的序列级特征表示；通过自适应图卷积模块获取了与数据相关的邻接矩阵后，紧接着使用时空通道级别模块，有效提取空间、时间、通道局部特征；最后将多类型的数据流分数通过全连接层进行加权相加进行分类。

2.根据权利要求1所述基于多模态数据融合的方法，速度差信息流首先需要计算前T-1帧与后T-1帧的差值，接着通过填补0元素的方式扩充矩阵，弥补维度上的变化；运动信息流是通过计算相邻两个帧中相同关节点之间的差值得到的；基于速度差的骨长信息流是在速度差信息流的基础上通过计算相邻两个帧中相同骨骼之间的差值得到的；关节类型和帧索引属于语义信息，与动力学信息一样，语义信息也可以参与更好的关节水平建模，从而启用内容自适应图构造与有效消息传递；关节流与骨骼流学习到的特征最后经过gap层和softmax层进行动作分类，将类别分数加权融合，以实现更为精准的识别效果。