CN114463837A

CN114463837A - 基于自适应时空卷积网络的人体行为识别方法及系统

Info

Publication number: CN114463837A
Application number: CN202111628110.9A
Authority: CN
Inventors: 吕蕾; 耿佩; 李皓玮
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-10

Abstract

本发明属于计算机视觉方面人体行为识别技术领域，提供了基于自适应时空卷积网络的人体行为识别方法及系统，根据骨架数据和自适应时空卷积网络，执行分类操作，输出分类结果，根据分类结果得到人体行为识别结果；其中，所述自适应时空卷积网络的构建过程包括：构建多层时空卷积块，其中，第五层和第八层加入时间卷积的残差块，其余的每一层时空卷积块均包括两部分不同的空间卷积块和多尺度时间卷积块，通过两个不同的空间卷积块提取运动信息；根据运动信息和多尺度时间卷积块，对运动信息再提取聚合后得到时域信息。

Description

基于自适应时空卷积网络的人体行为识别方法及系统

技术领域

本发明属于计算机视觉方面人体行为识别技术领域，尤其涉及基于自适应时空卷积网络的人体行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

对于基于RGB视频的行为识别任务，最经典便是Convolution3D算法为代表，即3D卷积算法，此算法在CNN(卷积神经网络)的基础上，引入了时间维度，不仅仅是对于输入数据增加了维度，卷积过程中的卷积核，步长，填充等都增加一个另外的时间维度，该算法从空间和时间维度中提取特征，从而捕获多个相邻帧中编码的运动信息，进而对这些运动信息进行分类；

对于基于骨架数据集的行为识别任务，从一开始的图卷积网络，再到时空图卷积网络，以及最新的各种新型网络，都离不开基础的GCN(图卷积神经网络)模块，图卷积将卷积泛化到了非欧几里得结构，但是其实卷积的本质还是聚合周围邻居节点的信息，只不过图卷积面对的是非欧空间形式的数据，所以图卷积的核心就是矩阵之间的乘法，但是随着深度学习相关框架的不断发展，许多学者开始在图卷积模块中引入时间卷积，以聚合不同帧之间的运动信息，或者优化空间图卷积模块来提高行为识别的精度。

上述算法存在的问题是：

对于3D卷积算法而言，无法对非欧式空间下的图结构数据进行有效的信息聚合，也就是无法获得节点周围内的全部邻域信息，从而就会导致在卷积过程中无法提取到充分的空间特征，进而无法精确的识别出动作类别。

对于图卷积神经网络来说，普通的空间图卷积模块只能关注到关节点之间的局部物理连接，并且在卷积的过程中，邻接矩阵并不参与反向传播过程中的参数更新，没有卷积核作为共享参数，只是简单的对图结构数据进行特征聚合，故也不能达到较好的识别效果。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于自适应时空卷积网络的人体行为识别方法，其它由十层基本的时空卷积块组成，但是只在第五层和第八层加入时间卷积的残差块，其余的每一个时空卷积块，由两部分不同的空间卷积提取特征之后执行信息聚合操作，再送入一个多尺度时间卷积块中进行时域信息的提取，之后再经过激活函数送入下一层的基本时空卷积块。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于自适应时空卷积网络的人体行为识别方法，包括如下步骤：

获取骨架数据；

根据骨架数据和自适应时空卷积网络，执行分类操作，输出分类结果，根据分类结果得到人体行为识别结果；其中，所述自适应时空卷积网络的构建过程包括：构建多层时空卷积块，其中，第五层和第八层加入时间卷积的残差块，其余的每一层时空卷积块均包括两部分不同的空间卷积块和多尺度时间卷积块，通过两个不同的空间卷积块提取运动信息；根据运动信息和多尺度时间卷积块，对运动信息再提取聚合后得到时域信息。

本发明的第二个方面提供基于自适应时空卷积网络的人体行为识别系统，包括：

数据获取模块，被配置为：获取骨架数据；

人体行为识别模块，被配置为：根据骨架数据和自适应时空卷积网络，执行分类操作，输出分类结果，根据分类结果得到人体行为识别结果；其中，所述自适应时空卷积网络的构建过程包括：构建多层时空卷积块，其中，第五层和第八层加入时间卷积的残差块，其余的每一层时空卷积块均包括两部分不同的空间卷积块和多尺度时间卷积块，通过两个不同的空间卷积块提取运动信息；根据运动信息和多尺度时间卷积块，对运动信息再提取聚合后得到时域信息。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于自适应时空卷积网络的人体行为识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于自适应时空卷积网络的人体行为识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明的多层时空卷积块中，只在第五层和第八层加入时间卷积的残差块，其余的每一个时空卷积块，由两部分不同的空间卷积提取特征之后执行信息聚合操作，再送入一个多尺度时间卷积块中进行时域信息的提取，之后再经过激活函数送入下一层的基本时空卷积块。空间和时间注意力模块对每个关节的特征给予不同程度的关注，通道注意力模块帮助模型根据输入样本增强判别特征，用这两部分的空间卷积块来提取更多的特征信息并进行特征融合，进而可以弥补普通空间图卷积模型提取特征不充分的缺点，并且在网络参数更新的过程中，拓扑结构的邻接矩阵参与更新，这就保证了提取的特征信息的多样性，并且不同模块间提取到的信息不同，可以达到对空间特征下信息的充分利用，进而才能有较好的识别效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是基于行为识别的自适应时空卷积网络的流程图；

图2是基于行为识别的自适应时空卷积网络的架构图；

图3是基于行为识别的自适应时空卷积网络的空间卷积块的架构图；

图4是基于行为识别的自适应时空卷积网络的多尺度时间卷积的架构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

行为识别任务是指通过特定的算法，识别出视频中人物具体动作的识别性任务。由于其在虚拟现实、智能监控、智能安防和运动员辅助训练等方面有巨大的应用价值，近几年来引起了学术的广泛关注。行为识别任务一般有如下的基本过程：数据图像的预处理、运动中的人体检测、运动特征提取、特征的训练与分类、行为识别。目前的行为识别任务，按照数据集格式，可以分为基于RGB视频的行为识别任务和基于骨架数据集的行为识别任务，本文中提到的方法是基于骨架数据集的。

实施例一

如图1-图4所示，本实施例提供了基于自适应时空卷积网络的人体行为识别方法，包括如下步骤：

步骤1：获取骨架数据；

本实施例中，采用的数据集为NTU-RGBD60/120数据集，该数据集由许多文本文件构成，每个文件中包含骨架数据的帧数、执行动作的人数、每个关节点的三维坐标(xyz坐标)等。

步骤2：对骨架数据进行预处理和构图；

所述对骨架数据进行预处理包括：

把文本数据封装成(N，C，T，V，W)的5维矩阵格式，使其可以输入自适应时空卷积网络，其中N代表每次送入网络训练的数据量，C代表节点信息的通道数，T代表每个视频的帧数，V代表骨骼图中的节点数，W代表每一帧中正在运动的人数。

骨架数据的预处理部分是为了从视频中提取出网络训练所需的骨骼点坐标、帧长度、关节点数等具体的信息，最后用Pytorch所带的Dataset和Dataloader模块封装成可以输入进网络的格式，也就是(N，C，T，V，W)五维向量，其中字母分别代表一次训练的批次、通道数、帧数、节点数、一帧中的运动人数。

构图部分主要是为了根据人体骨骼关节点的连接，构造出关节点的邻接矩阵A，该矩阵大小为(3,V,V)，其中V代表节点数，其中的3个维度分别表示关节点的自连接矩阵、关节点的入度矩阵、关节点的出度矩阵。

构图部分依据关节点的自连接、出度、入度，构造出相应的矩阵，并堆叠成三维向量的格式，此矩阵是节点的邻接矩阵A，下面公式即为利用矩阵A更新节点v周围邻居节点的信息，a_ij表示在节点i和j之间的连接强度，X是节点的特征，W为进行特征变换的权重矩阵。

步骤3：根据骨架数据和自适应时空卷积网络，执行分类操作，输出分类矩阵，选择分类矩阵中每行最大的数的下标作为动作种类的标签，将该标签和真实的标签进行比对，如果相同，那么命中数加一，且命中数越高，识别效果越好，得到人体识别结果。

其中，所述自适应时空卷积网络的构建过程包括：

其中分类矩阵的数据格式为(N，class)，N为每次训练的数据量，class为动作种类数，例如，N＝8，class＝60。

构建多层时空卷积块，其中，第五层和第八层加入时间卷积的残差块，其余的每一层时空卷积块，均包括两部分不同的空间卷积块和多尺度时间卷积块，通过两个不同的空间卷积块提取运动信息；根据运动信息和多尺度时间卷积块，对运动信息再提取聚合后得到时域信息；

步骤3中，通过两个不同的空间卷积块提取运动信息包括：

其中，第一个卷积块包括3个不同的拓扑细化图卷积，其输入均为(N*W，C，T，V)，每一个卷积块以细化的方式学习通道拓扑，同时学习共享拓扑和特定通道的相关性，最后对得到的结果进行累加操作得到输出(N*W，C′,T′,V′)。

第二个空间卷积块包括空间注意力模块、时间注意力模块以及通道注意力模块和一个残差连接，其中空间注意力模块用于对每个关节点给予不同程度的关注，时间注意力模块用于对不同帧中的相同关节点给予不同程度的关注，通道注意力模块用于根据输入样本增强判别特征，以及补充卷积过程中的时域信息，其中这三个注意力模块分别根据输入特征提出到输出特征，再对输出特征进行累加操作，同时还有一个残差连接提取到的特征，最后把这两个特征执行聚合操作得到输出(N*W，C′,T′,V′)。

最后对两个空间卷积块提取的信息进行聚合并送入下一层。

公式如下：

unit_gcn_i＝Relu(f_c)+Softmax(f_a) (2)

第一个空间卷积块中，3个不同的拓扑细化图卷积包含三个通道式细化拓扑卷积块，其中拓扑卷积块包括特征变换、通道拓扑建模以及由聚合函数完成的特征聚合操作，用邻接矩阵A作为所有通道的共享拓扑，并通过反向传播来更新矩阵A，第二个空间卷积块包含空间、时间、通道注意力块，空间和时间注意力模块对每个关节的特征给予不同程度的关注，通道注意力模块帮助模型根据输入样本增强判别特征，用这两部分的空间卷积块来提取更多的特征信息并进行特征融合。

步骤3中，根据运动信息和多尺度时间卷积块，所述多尺度时间卷积块包括多个卷积块，分别对运动信息再提取聚合后得到时域信息；

为了对具有不同持续时间的动作进行建模，在模型中加入多尺度时间卷积块，用来处理来自空间卷积块的时域信息，它包含4个时间卷积块，其输入为来自空间卷积块的(N*W，C′,T′,V′)，我们使用较少的分支以提高处理速度，前两个分支包含时间卷积的残差块以减少训练误差。在经过层层网络的训练之后，再经过全局平均池化防止过拟合，最后经过全连接层并进行分类操作，得到输出(N，class)。

其中，所述多尺度时间卷积块为4个封装好的卷积块，前两个卷积块均包括普通卷积、归一化、激活函数以及一个时间卷积的残差块，后两个卷积块包括普通卷积、归一化、激活函数以及池化等操作。

这四个卷积块分别对上一层的信息进行时域信息的提取再聚，并送入下一个基本的时空卷积块，表示公式如下：

聚合时间卷积的残差块：第五层和第八层加入时间卷积的残差块，所述残差块由一个普通的Conv2d卷积和一个归一化层组成，输入直接来自上一个时空卷积块的输出的数据，聚合时间卷积的残差块输出的数据和多尺度时间卷积块输出的数据进行聚合操作得到R_i，经由激活函数，再送入下一个时空卷积块，公式如下：

其中，所述执行分类操作的过程包括：

到经过全部层时空卷积块操作后的结果数据，数据的格式为(N*M，C，T，V，)，其中N，M，C，T，V分别代表的含义为数据的batch_size，N表示视频中的运动人数，M表示通道数，帧数，节点数，对此数据进行全局平均池化，对每一个通道图中所有的像素值求平均值，得到新的通道图，以达到对数据降维的效果，再经过dropout层使网络中的部分神经元失活，得到输出为(输出通道数，分类数)，最后经过全连接层进行分类。

实施例二

本实施例提供基于自适应时空卷积网络的人体行为识别系统，包括：

数据获取模块，被配置为：获取骨架数据；

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于自适应时空卷积网络的人体行为识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于自适应时空卷积网络的人体行为识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自适应时空卷积网络的人体行为识别方法，其特征在于，包括如下步骤：

获取骨架数据；

2.如权利要求1所述的基于自适应时空卷积网络的人体行为识别方法，其特征在于，所述通过两个不同的空间卷积块提取运动信息包括：

第一个卷积块包括多个不同的拓扑细化图卷积，每一个卷积块以细化的方式学习通道拓扑，同时学习共享拓扑和特定通道的相关性，最后对得到的结果进行累加操作；

第二个空间卷积块包括空间注意力模块、时间注意力模块以及通道注意力模块，通过各注意力模块进行特征的细化操作；

最后对两个空间卷积块提取的运动信息进行聚合。

3.如权利要求2所述的基于自适应时空卷积网络的人体行为识别方法，其特征在于，所述多个不同的拓扑细化图卷积包含三个通道式细化拓扑卷积块，其中拓扑卷积块包括特征变换、通道拓扑建模以及由聚合函数完成的特征聚合操作，用邻接矩阵作为所有通道的共享拓扑，并通过反向传播进行更新邻接矩阵。

4.如权利要求1所述的基于自适应时空卷积网络的人体行为识别方法，其特征在于，所述多尺度时间卷积块包括多个卷积块，每个卷积块分别对运动信息再提取聚合后得到时域信息；其中，所述多尺度时间卷积块为4个封装好的卷积块，前两个卷积块均包括普通卷积、归一化、激活函数以及一个时间卷积的残差块，后两个卷积块包括普通卷积、归一化、激活函数以及池化操作。

5.如权利要求1所述的基于自适应时空卷积网络的人体行为识别方法，其特征在于，所述残差块由一个普通的Conv2d卷积和一个归一化层组成。

6.如权利要求1所述的基于自适应时空卷积网络的人体行为识别方法，其特征在于，所述执行分类操作的过程包括：对每一个通道图中所有的像素值求平均值，得到新的通道图，再经过dropout层使网络中的部分神经元失活，得到出通道数和分类数，最后经过全连接层进行分类。

7.如权利要求1所述的基于自适应时空卷积网络的人体行为识别方法，其特征在于，所述骨架数据在输入自适应时空卷积网络之前进行了预处理以及构图。

8.基于自适应时空卷积网络的人体行为识别系统，其特征在于，包括：

数据获取模块，被配置为：获取骨架数据；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于自适应时空卷积网络的人体行为识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于自适应时空卷积网络的人体行为识别方法中的步骤。