CN116959094A

CN116959094A - 一种基于时空图卷积网络的人体行为识别方法

Info

Publication number: CN116959094A
Application number: CN202310365065.5A
Authority: CN
Inventors: 黄倩; 朱萧伟; 胡鹤轩; 李畅; 巫义锐; 袁驰
Original assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Current assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-10-27

Abstract

本发明公开一种基于时空图卷积网络的人体行为识别方法，该方法基于部位级时空图卷积网络模型，对人体行为进行了识别，其包括如下步骤：构建原始骨骼序列数据集并对原始骨骼序列数据集进行预处理；构建部位级时空图卷积网络模型，包括空间建模网络、时间建模网络和分类器；将预处理后的原始骨骼序列数据集划分为训练集和测试集，输入部位级时空图卷积网络模型中进行训练；将待识别的数据输入训练后的部位级时空图卷积网络模型中，得到识别结果。本发明能够推动建立更精确的关节拓扑，能够更充分学习人体各部分的动作频率和趋势，实现了一种高效的，准确率更高的人体行为识别方法。

Description

一种基于时空图卷积网络的人体行为识别方法

技术领域

本发明属于行为识别领域，特别涉及一种基于时空图卷积网络的人体行为识别方法。

背景技术

随着互联网技术的快速发展，人工智能理论被不断深入研究，计算机视觉技术也随之迅速发展，在图像分类、目标检测和行为识别等领域起着至关重要的作用。伴随着人工智能和行为识别技术的不断进步，行为识别在运动健身、智慧医疗、智能家居等领域有着广泛的应用，因此对行为识别技术的研究有着重要的学术价值和社会意义。目前主流的提取人体行为动作的方式包括传感器监测、视频监测等，对于传感器监测，需要被监测人员佩戴配套的传感器，因此实用性受到一定局限。

在视频监测获取人体行为特征的方法中，目前主流的行为识别数据的模态特征包括RGB视频、深度视频和骨骼序列。基于RGB视频数据的识别方法的缺点是易受光照、复杂背景的影响，准确率会大大降低；虽然深度学习的方法一定程度上提高了识别准确率，但是受限于机器性能和训练时间长的问题，很难实际应用于实时交互的场景。基于深度视频数据的识别方法较RGB图像不易受光照、复杂背景等外界因素的影响。近年来基于深度信息的动作识别模型取得了较好的性能。但深度信息也有明显的缺点，过于依赖于深度传感器，价格昂贵；数据量相对较大，训练成本高，实时性一般。

基于骨架的动作识别的传统方法通常采用手工制作的特征来建模人体，它们主要依赖于利用关节之间的相对3D旋转和平移，因此存在复杂的特征设计和次优性能。随着深度学习技术的发展，深度学习方法逐渐代替了传统手工特征方法，其主流方法根据网络架构可分为三类：卷积神经网络(CNNs)、循环神经网络(RNNs)和图卷积网络(GCN)。

基于CNN的方法通常根据手工设计的转换规则将骨架数据转换成伪图像，然后使用各种CNN网络对图像进行预测，得到动作类别。基于RNN的方法通常先提取帧级骨架特征，将骨架数据表示为具有预定义遍历规则的序列数据，然后使用RNN模型对顺序依赖关系进行建模。然而，骨架自然是一种图结构，而不是2D网格或向量序列的形式，RNN和CNN都难以捕捉骨架拓扑，由于忽略了这个空间配置，导致了在骨架行为识别中的缺陷。为了捕捉人体骨架拓扑，人们开始用图的方式对骨骼之间的相关性进行建模，现有众多基于GCN的方法也都取得了优秀的性能。然而，现有的基于GCN的模型方法大多通过手动改变人体关节连接关系或通过自注意力机制学习人体关节连接关系，并且没有对不同类别的动作做出清晰的区分，导致对骨骼数据的学习不充分，没有达到预期的训练效果。

发明内容

本发明的目的，在于提供一种基于时空图卷积网络的人体行为识别方法，通过构建空间建模网络和时间建模网络，在关节拓扑图的学习中加入人体部位信息，实现一种高效的，准确率更高的人体行为识别方法，只需输入人体动作视频，就可得到动作预测结果。

为了达成上述目的，本发明的解决方案是：

一种基于时空图卷积网络的人体行为识别方法，包括如下步骤：

步骤1，构建原始骨骼序列数据集并对原始骨骼序列数据集进行预处理；

步骤2，构建部位级时空图卷积网络模型，包括空间建模网络、时间建模网络和分类器；

步骤3，将步骤1预处理后的原始骨骼序列数据集划分为训练集和测试集，输入步骤2部位级时空图卷积网络模型中进行训练；

步骤4，将待识别的数据输入步骤3训练后的部位级时空图卷积网络模型中，得到识别结果。

上述步骤1的具体内容是：通过摄像头采集不同环境中不同个体的动作视频，然后将采集的视频通过局域网传输至上位机中，获取人体骨骼动作序列，并结合与之对应的动作标签，得到原始骨骼序列数据集；对原始骨骼序列数据集进行数据填充操作，将缺失的骨骼点填充为0，再对填充后的原始骨骼序列数据集进行帧下采样至64帧。

上述动作视频包括但不限于跑步、跳跃、站立、坐下、鼓掌的动作；所述动作标签通过上位机进行标记；所述人体骨骼动作序列是通过上位机将采集的动作视频输入到人体姿态估计模型中进行处理，由人体姿态估计模型输出得到，其中，人体姿态估计模型包括但不限于Alphapose模型和Openpose模型。

上述步骤2中，空间建模网络由全局关节拓扑图和局部关节拓扑图构成，其中全局关节拓扑图以人体骨骼自然连接为初始化，依靠网络自适应学习得到，设定全局关节相关性为模型可学习参数；其中局部关节拓扑图由1个全局平均池化层和4个卷积层组成，将人体分为6个部位，包括头颈、身体、左臂、右臂、左腿和右腿。

上述空间建模网络还加入可学习的门控机制α来控制不同采样区域中部位内部关节的差异。

上述步骤2中，时间建模网络将短期运动细节的动作定义为快动作，将长期运动趋势的动作定义为慢动作，设置不同卷积核大小的二维时间卷积；将完整的人体骨骼动作序列划分成整个身体、手部和腿部三部分作为该网络的输入，在对时间建模网络进行输入前，对输入特征用卷积核大小为1的卷积层进行降维处理，对快动作和慢动作流的输出部分进行通道维度的级联，作为整个时间建模网络的输出特征。

上述时间建模网络还设置可学习的门控机制β，在捕捉长期运动趋势和短期运动细节之后，进行通道维度的级联的同时，通过加入人体手臂和腿部的自适应相关权重系数，来加强对人体手臂和腿部的模型训练。

上述部位级时空图卷积网络模型包括十层空间建模网络、十层时间建模网络和一个激活函数分类器；将最后一层时间建模网络的输出特征输入全局平均池化层以降低维度至1，最后连接激活函数分类器。

上述步骤3中按各个动作4:1的比例划分为训练集和测试集，将人体骨骼动作序列输入部位级时空图卷积网络模型前，对其张量进行转置、重塑操作，至张量维度与模型输入对应，以交叉熵损失函数作为模型的损失函数，用SGD优化器进行随机梯度下降和训练参数更新，将人体骨骼动作序列传入输入端，由输出端得到预测结果，根据损失函数将误差反向传播到网络的各个层之中，自动调整网络的权重和参数，每次训练迭代损失逐渐减小，至训练集损失和测试集损失均趋于稳定，当两次迭代之间损失变化小于所设定损失变化阈值时，模型收敛，完成模型的训练，得到模型的权重。

上述交叉熵损失函数的公式如下所示：

其中x是真实标签，是预测的类的分布；

训练参数的梯度下降过程的公式如下所示：

θ_t＝θ_t-1-ηm_t

m_t＝β₁m_t-1+(1-β₁)g_t-1

其中，θ_t表示第t次迭代时的训练参数，η表示学习率，m_t表示第t次迭代时的动量参数，g_t-1表示第t-1次迭代时的梯度变化率。

本发明提出一种基于时空图卷积网络的人体行为识别方法，在空间建模部分，通过在关节拓扑图的学习中加入人体部位信息，自适应学习部位的重要性和相关性，推动建立更精确的关节拓扑；在时间建模部分，通过对于人体的不同部位进行划分，以部位为基础，将整个人体、手部、腿部通过快慢时间卷积网络，使本发明能够更充分学习人体各部分的动作频率和趋势，实现一种高效的，准确率更高的人体行为识别方法。

附图说明

图1是本发明人体行为识别方法的流程图。

图2是本发明模型构建单层结构图。

图3是本发明空间建模网络的结构图。

图4是本发明时间建模网络的结构图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示，本实施例的人体姿态估计模型采用Alphapose模型获取人体骨骼动作序列，首先选择合适的视角放置普通彩色摄像头，并连接至上位机，硬件环境搭建完成后，测试人可做出跑步、跳跃、站立、坐下、鼓掌等需要采集的动作，摄像头对人体动作特征进行采集，传输至上位机；在上位机采集系统软件中根据人体动作，进行数据标签的标记和视频的保存；将采集的动作视频批量输入至Alphapose模型中，输出可获得连续的人体骨骼动作序列，结合对应动作标签即可构建原始骨骼序列数据集。

由于直接通过摄像头获取的人体动作视频可能存在遮挡、抖动等问题，姿态估计获取的人体骨骼动作序列会存在一定的噪声，甚至是部分人体骨骼点的缺失，会直接影响行为识别的结果，对于原始骨骼序列数据集X＝{x₁,x_2,...,x_t...,x_T}，每一帧的骨骼坐标x可能存在缺失情况，因此帧内的关节点可能不足17，对于缺失的关节点，以0填充，来避免模型前向传播出现的维度冲突；对于原始骨骼序列数据集X这个多维张量，每个动作的时间帧数并不一致，这会直接对模型训练产生负面影响，因此我们利用插值方法，对输入的张量数组进行下采样操作，将时间帧数下采样至64帧，在保证数据完整性的同时，很大程度减少模型训练和预测成本，经过数据预处理后的数据的关节数为17，帧数为64。

如图3所示，为本发明空间建模网络的结构图，所述空间建模网络由全局关节拓扑图和局部关节拓扑图构成，定义L是部位与关节之间的联系集合，P为划分的人体部位数，为划分部位后的骨骼序列张量：

L(p)∈L p＝1,2,...,P

全局关节拓扑图A_global以人体骨骼自然连接为初始化，依靠网络自适应学习得到，设定全局关节相关性为模型可学习参数局部关节拓扑图A_part将人体分为6个部位，用来获取部位之间的相关性和部位内部关节的相关性/>

空间建模网络由1个全局平均池化层和4个卷积层组成，另外还加入可学习的门控机制α来控制不同采样区域中部位内部关节的差异，公式如下所示：

X_spatial＝X·W·(A_global+αA_part)

如图4所示，本发明时间建模网络的结构图，其中将“鼓掌”和“双手合十”等需要短期运动细节的动作定义为快动作，“向上挥手”或“拥抱”等更注重长期运动趋势的动作定义为慢动作，为有效区分快动作和慢动作，设置不同卷积核大小的二维时间卷积，包括时间维度上卷积核长度为3、5、7和9，公式如下所示：

将完整的人体骨骼动作序列划分成整个身体X_body、手部X_hand和腿部X_leg三部分作为该网络的输入，并设置可学习的门控机制β在捕捉长期运动趋势和短期运动细节之后，进行通道维度的级联的同时，通过加入人体手臂和腿部的自适应相关权重系数，来加强对人体手臂和腿部的模型训练，公式如下所示：

在时间网络输入前，对输入特征用卷积核大小为1的卷积层进行降维处理，降维函数定义为来有效减少模型训练成本，并对快动作和慢动作流的输出部分进行通道维度的级联，作为整个时间建模网络的输出特征，公式如下所示：

构建部位级时空图卷积网络：完整的网络由十层部位级时空图卷积网络以及分类器组成，输入数据首先经过BN层进行归一化，中间每个区块的输出通道分别是64、64、64、64、128、128、128、256、256、256，区块之间连接残差网络，最后进行全局平均池化以及softmax分类以获得行为预测结果，本实施例中设置70个训练迭代次数，学习率设置为0.1，并在35epoch和55epoch时进行学习率的衰减，本模型训练是端到端的过程，将人体骨骼动作序列传入输入端，由输出端得到预测结果，根据损失函数将误差反向传播到网络的各个层之中，自动调整网络的权重和参数，每次训练迭代损失逐渐减小，至训练集损失和测试集损失均趋于稳定，当两次迭代之间损失变化小于所设定损失变化阈值时，表示达到了模型收敛条件，即可完成模型的训练，得到模型的权重，网络训练选用SGD优化器进行随机梯度下降，采用交叉熵损失作为模型的损失函数，来衡量预测值和实际值之间的差异，能够有效衡量模型效果和更容易前向传播的求导运算。输入骨骼特征序列为N×C×T×V的多维张量，N为训练设置的批量，C为特征通道数，T为帧数，V为关节数。特征通道数在训练时随着训练层数的迭代，会产生更高层的语义信息，因此在第一层输入转化为64维度，在第五层输入转化为128维度，在第八层输入转化为256维度，帧数在第五层和第八层下采样为原来的1/2，以减少模型训练成本；其中交叉熵损失，是分类任务中最常用的一个损失函数，公式如下所示：

其中x是真实标签，是预测的类的分布；

训练参数的梯度下降过程的公式如下所示：

θ_t＝θ_t-1-ηm_t

m_t＝β₁m_t-1+(1-β₁)g_t-1

在真实场景下采集的人体动作视频，输入至Alphapose姿态估计算法获取骨架序列，通过步骤2数据预处理后输入至训练好的模型中得到动作标签，即完成行为识别。

综合以上，本发明提出一种基于时空图卷积网络的人体行为识别方法，该方法基于部位级时空图卷积网络模型，对人体行为进行了识别，其包括如下步骤：构建原始骨骼序列数据集并对原始骨骼序列数据集进行预处理；构建部位级时空图卷积网络模型，包括空间建模网络、时间建模网络和分类器；将预处理后的原始骨骼序列数据集划分为训练集和测试集，输入部位级时空图卷积网络模型中进行训练；将待识别的数据输入训练后的部位级时空图卷积网络模型中，得到识别结果。本发明的人体行为识别方法在空间建模部分，通过在关节拓扑图的学习中加入人体部位信息，自适应学习部位的重要性和相关性，推动建立更精确的关节拓扑；在时间建模部分，通过对于人体的不同部位进行划分，以部位为基础，将整个人体、手部、腿部通过快慢时间卷积网络，使本发明能够更充分学习人体各部分的动作频率和趋势，实现一种高效的，准确率更高的人体行为识别方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于时空图卷积网络的人体行为识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的人体行为识别方法，其特征在于，所述步骤1的具体内容是：通过摄像头采集不同环境中不同个体的动作视频，然后将采集的视频通过局域网传输至上位机中，获取人体骨骼动作序列，并结合与之对应的动作标签，得到原始骨骼序列数据集；对原始骨骼序列数据集进行数据填充操作，将缺失的骨骼点填充为0，再对填充后的原始骨骼序列数据集进行帧下采样至64帧。

3.如权利要求2所述的人体行为识别方法，其特征在于：所述动作视频包括但不限于跑步、跳跃、站立、坐下、鼓掌的动作；所述动作标签通过上位机进行标记；所述人体骨骼动作序列是通过上位机将采集的动作视频输入到人体姿态估计模型中进行处理，由人体姿态估计模型输出得到，其中，人体姿态估计模型包括但不限于Alphapose模型和Openpose模型。

4.如权利要求1所述的人体行为识别方法，其特征在于，所述步骤2中，空间建模网络由全局关节拓扑图和局部关节拓扑图构成，其中全局关节拓扑图以人体骨骼自然连接为初始化，依靠网络自适应学习得到，设定全局关节相关性为模型可学习参数；其中局部关节拓扑图由1个全局平均池化层和4个卷积层组成，将人体分为6个部位，包括头颈、身体、左臂、右臂、左腿和右腿。

5.如权利要求4所述的人体行为识别方法，其特征在于，所述空间建模网络还加入可学习的门控机制α来控制不同采样区域中部位内部关节的差异。

6.如权利要求1所述的人体行为识别方法，其特征在于，所述步骤2中，时间建模网络将短期运动细节的动作定义为快动作，将长期运动趋势的动作定义为慢动作，设置不同卷积核大小的二维时间卷积；将完整的人体骨骼动作序列划分成整个身体、手部和腿部三部分作为该网络的输入，在对时间建模网络进行输入前，对输入特征用卷积核大小为1的卷积层进行降维处理，对快动作和慢动作流的输出部分进行通道维度的级联，作为整个时间建模网络的输出特征。

7.如权利要求6所述的人体行为识别方法，其特征在于，所述时间建模网络还设置可学习的门控机制β，在捕捉长期运动趋势和短期运动细节之后，进行通道维度的级联的同时，通过加入人体手臂和腿部的自适应相关权重系数，来加强对人体手臂和腿部的模型训练。

8.如权利要求1所述的人体行为识别方法，其特征在于，所述部位级时空图卷积网络模型包括十层空间建模网络、十层时间建模网络和一个激活函数分类器；将最后一层时间建模网络的输出特征输入全局平均池化层以降低维度至1，最后连接激活函数分类器。

9.如权利要求1所述的人体行为识别方法，其特征在于，所述步骤3中按各个动作4:1的比例划分为训练集和测试集，将人体骨骼动作序列输入部位级时空图卷积网络模型前，对其张量进行转置、重塑操作，至张量维度与模型输入对应，以交叉熵损失函数作为模型的损失函数，用SGD优化器进行随机梯度下降和训练参数更新，将人体骨骼动作序列传入输入端，由输出端得到预测结果，根据损失函数将误差反向传播到网络的各个层之中，自动调整网络的权重和参数，每次训练迭代损失逐渐减小，至训练集损失和测试集损失均趋于稳定，当两次迭代之间损失变化小于所设定损失变化阈值时，模型收敛，完成模型的训练，得到模型的权重。

10.如权利要求9所述的人体行为识别方法，其特征在于，所述交叉熵损失函数的公式如下所示：

其中x是真实标签，是预测的类的分布；

训练参数的梯度下降过程的公式如下所示：

θ_t＝θ_t-1-ηm_t

m_t＝β₁m_t-1+(1-β₁)g_t-1