CN113657349A

CN113657349A - 一种基于多尺度时空图卷积神经网络的人体行为识别方法

Info

Publication number: CN113657349A
Application number: CN202111020275.8A
Authority: CN
Inventors: 吕汪洋; 周应华
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-16
Anticipated expiration: 2041-09-01
Also published as: CN113657349B

Abstract

本发明涉及一种基于多尺度时空图卷积神经网络的人体行为识别方法，属于神经网络技术领域。该方法包括提取待识别的人体骨骼序列创建数据集并进行预处理；创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型，使模型更好的提取人体骨骼的空间特征和骨骼序列的时序特征；训练和测试所述深度神经网络，得到人体行为识别神经网络模型；利用训练好的模型对待识别的视频图像进行分类，输出分类结果。本发明提供的人体行为识别方法，能够使神经网络模型更好的提取骨骼序列的时空特征，实现人体行为的自动识别，提高人体行为识别准确率。

Description

一种基于多尺度时空图卷积神经网络的人体行为识别方法

技术领域

本发明属于神经网络技术领域，涉及一种基于多尺度时空图卷积神经网络的人体行为识别方法。

背景技术

计算机进行人体行为识别有着多种模态，例如RGB图像、深度图、光流和骨骼等。其中通过骨骼的人体行为识别方法具有背景适应性强、对光照变化鲁棒性强、计算量小等优点。基于循环神经网络(RNN)的方法，骨骼序列是关节坐标位置的自然时间序列，可以看作是序列向量，而RNN本身由于其独特的结构适合处理时间序列数据。但是基于RNN方法的空间建模能力弱，且随着网络层数加深其反向传播时梯度容易消失，变得难以训练，从而难以提取到具有语义丰富的深层特征。基于卷积神经网络(CNN)的方法可以高效的学习空间特征，然而基于CNN的方法是将骨骼数据构造成二维网格结构的图像，并不能直接有效的利用人体本身的拓扑结构信息。基于图卷积神经网络(GCN)的方法能够直接有效的利用骨骼本身的拓扑结构信息，但是骨骼序列之间存在长时间距离依赖问题。

明显的，当前人体行为识别技术还存在以下问题：(1)由于同一行为在不同视角以及不同对象下将表现出不同的形状，可能会导致算法在提取人体的底层特征时产生较大的差异；(2)对于相同的行为，在执行时不一定会表现出相同的处理方式。同时，对于不同的行为，可能存在两个行为在执行过程中子行为是相同的，两个行为中会产生很多相似的帧，导致识别过程中产生混淆。(3)一个完整的行为是由一系列子行为组成，不同的子行为对完整的行为具有不同权重，而传统的时间卷积通过固定的卷积核来提取时间特征，不能够充分利用骨骼序列的时间特征。

发明内容

有鉴于此，本发明的目的在于提供一种基于多尺度时空图卷积神经网络的人体行为识别方法。

为达到上述目的，本发明提供如下技术方案：

一种基于多尺度时空图卷积神经网络的人体行为识别方法，该方法包括以下步骤：

S1：提取人体骨骼序列并创建数据集；

S2：对数据集进行预处理；

S3：创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型；

S4：使用创建好的数据集来训练和测试深度神经网络模型；

S5：利用训练好的模型对待识别的视频图像进行分类。

可选的，所述S1具体为：

首先使用深度相机录制各类动作的视频，包括单人动作和双人交互动作，得到包含人体的关键关节点的特征信息的骨骼视频，并对视频中的动作类别进行标注，保证样例和标注一一对应，将标记后的数据按一定比例划分为训练集和测试集。

可选的，所述S2具体为：

将数据集中的关节的特征信息中的坐标信息作为第一特征，骨骼的方向和长度信息作为第二特征；将所有关节特征信息中的坐标信息的平均坐标设为骨骼重心，根据重心和各关节点之间的距离远近，定义靠近人体骨骼重心的关节为源关节，远离重心的关节为目标关节，每段骨骼表示为一个从源关节指向目标关节的向量；给定源关节坐标V₁＝(x₁，y₁，z₁)和目标关节坐标V₂＝(x₂，y₂，z₂)的一段骨骼，则其矢量计算为：

由于骨骼的图结构没有环状，每段骨骼分配一个唯一指定的目标关节，故关节数比骨骼数多1个，在人体骨骼重心处添加一个零向量代表一段骨骼，使关节数与骨骼数相等；最后将骨骼序列的第一特征和第二特征的两个特征张量在张量的通道维度上进行拼接，其中通道为人体关节的特征维度，拼接后的张量作为模型的输入。

可选的，所述S3具体为：

S31：确定所述的深度神经网络模型，以ST-GCN神经网络模型作为主干网络的基础结构，将ST-GCN中的图卷积网络模块变成多尺度图卷积网络模块，由此模块来提取待识别人体骨骼的空间特征，时间卷积网络模块变成多时长特征融合模块，由此模块来提取待识别骨骼序列的时序特征；

S32：所述网络的多尺度图卷积网络模块由四个并行的图卷积网络分支组成；根据数据集中骨骼帧给定的人体关节序列，构造人体关节连接关系图；其中，人体的关节对应图的节点，关节间的连通性对应图的边；将骨骼帧中的人体骨骼视为一个整体构造一个人体关节连接关系图G(x，A)，其中x为N个关节的特征信息，A为一个N×N的骨骼关节点连接矩阵；四个并行的图卷积网络支路对应的人体关节连接关系图的骨骼关节点连接矩阵分别为邻接矩阵的1、2、3、4次幂，且分别表示为A₁，A₂，A₃，A₄；各分支对人体关节连接关系图和人体关节的特征信息进行图卷积操作，方法为：

对各支路人体关节连接关系图的骨骼关节点连接矩阵加上单位矩阵，并进行归一化操作，各支路的归一化操作定义为：

其中，D表示顶点的度矩阵，

表示人体关节连接关系图的骨骼关节点连接矩阵加上单位矩阵，定义为：

其中A_i表示人体关节连接关系图的骨骼关节点连接矩阵，I表示单位矩阵；假设网络模型已经由H层构成，则第h+1层各分支的输入

为上一层的输出

且对于每个归一化操作的矩阵加上一个偏置矩阵，则各分支的图卷积操作定义为：

其中M^(h+1)∈R^N×N表示偏置矩阵，M^(h+1)初始化为全1的矩阵，W^(h+1)∈R^N×N表示权重矩阵，使用Kaiming初始化对W^(h+1)进行初始化；定义第一层的输入

最后将四个并行支路的输出特征图在通道维度上进行拼接，再经过一个1x1卷积、Batch Normalization批标准化层以及ReLU激活函数，得到第h+1层的多尺度图卷积网络模块的输出

S33：网络的多时长特征融合模块为四个时间卷积网络并行分支和一个注意力模块支路组成的一个模块，其中四个时间卷积网络分支采用不同感受野的卷积核，不同的感受野对应不同时长的特征；另外一个注意力模块支路使用了压缩和激励网络，支路由空间多尺度模块的输出经过全局平均池化后，通过全连接层，最后将Softmax函数输出的概率分别作用到四个时间卷积网络分支上，并将四个支路输出的特征图进行拼接，则拼接定义为：

其中x^(h+1)为输入特征图即第h+1层的多尺度图卷积网络模块的输出，w(x^(h+1))表示注意力模块的输出，且

M表示时间卷积网络的总支路数，Conv_m(x^(h ⁺¹⁾)表示时间卷积网络的输出；最后经过1x1卷积、Batch Normalization批标准化层以及ReLU激活函数，得到多时长特征融合模块的输出；

S34：根据所述的多尺度图卷积网络模块和多时长特征模块组成多尺度时空图卷积网络模块，且在该模块中添加残差网络结构，经过若干个多尺度时空图卷积网络模块提取骨骼序列的时空特征信息，再通过全连接层，最后通过Softmax函数进行输出类别的概率分布计算，然后按概率大小进行分类。

可选的，所述S4具体为：

根据S31、S32、S33和S34构建的深度神经网络，利用训练集训练深度神经网络，通过反向传播算法不断优化神经网络的参数，使网络达到最优，实现端到端的训练。

可选的，所述S5具体为：

用训练好的人体行为识别模型对待识别的视频图像进行分类，输出分类结果。

本发明的有益效果在于：

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明一种多尺度时空图神经网络的人体行为识别方法的流程图；

图2为本发明一实施例的微软Kinect v2深度相机采集的人体关键点的示意图；

图3为本发明一实施例的多尺度图卷积模块图；

图4为本发明一实施例的多时长特征融合模块图；

图5为本发明一实施例的深度神经网络模型流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，一种基于图神经网络的人体行为识别方法，包括以下步骤：

S1、提取人体骨骼序列并创建数据集。

首先使用深度相机录制各类动作的视频，可包括单人动作和双人交互动作，得到包含人体的关键关节点的特征信息的骨骼视频，并对视频中的动作类别进行标注，保证样例和标注一一对应，将标记后的数据按一定比例划分为训练集和测试集。介绍本发明验证算法的公共数据集NTU-RGB+D，该数据集包含60个种类的动作，共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作。该数据集由微软Kinectv2深度相机采集得到，并且使用了三个不同角度的摄像机，采集的数据形式包括深度信息、3D骨骼信息、RGB帧以及红外序列。本发明实施例中对NTU-RGB+D数据集在划分训练集和测试集采取两种不同的划分标准。第一种为交叉受试者(Cross Subject)，按照人物ID来划分训练集和测试集，训练集40320个样本，测试集16560个样本，其中将人物ID为1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38的20人作为训练集，剩余的作为测试集；第二种为交叉视角(Cross View)，按相机来划分训练集和测试集，相机1采集的样本作为测试集，相机2和3采集的样本作为训练集，样本数分别为18960和37920。数据集中人体骨骼关键点具体细节如图2所示。

S2、对数据集进行预处理。

本发明实例中采用的数据集进行预处理的步骤为将所述的数据集中的关节的特征信息中的坐标信息作为第一特征，骨骼的方向和长度信息作为第二特征。将所有关节特征信息中的坐标信息的平均坐标设为骨骼重心，根据重心和各关节点之间的距离远近，定义靠近人体骨骼重心的关节为源关节，远离重心的关节为目标关节，每段骨骼表示为一个从源关节指向目标关节的向量。由于骨骼的图结构没有环状，每段骨骼可以分配一个唯一指定的目标关节，故关节数比骨骼数多1个，在人体骨骼重心处添加一个零向量代表一段骨骼，使关节数与骨骼数相等。最后将骨骼序列的第一特征和第二特征的两个特征张量在张量的通道维度上进行拼接，其中通道为人体关节的特征维度，拼接后的张量作为模型的输入。

S3、创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型。

本发明实例中所采用的深度神经网络模型是以ST-GCN神经网络模型作为主干网络的基础结构，将ST-GCN中的图卷积网络变成多尺度图卷积网络模块，时间卷积网络变成多时长特征融合模块，由此网络来提取待识别骨骼序列的时空特征。具体细节参照图3多尺度图卷积模块和图4多时长特征融合模块。

本发明通过多尺度图卷积模块来提取人体骨骼序列的空间结构特征，该模块由四个并行的图卷积网络分支组成。根据数据集中骨骼帧给定的人体关节序列，可以构造人体关节连接关系图。其中，人体的关节对应图的节点，关节间的连通性对应图的边。因此将骨骼帧中的人体骨骼视为一个整体构造一个人体关节连接关系图G(x，A)，其中x为N个关节的特征信息，A为一个N×N的骨骼关节点连接矩阵。四个并行的图卷积网络支路对应的人体关节连接关系图的骨骼关节点连接矩阵分别为邻接矩阵的1、2、3、4次幂，且分别表示为A₁，A₂，A₃，A₄。本实施例中将骨骼关节划分为3个子集合，子集合划分的根据为关节点及其相邻关节点距离骨骼重心距离的远近划分，3个子集具体为：(1)关节点本身；(2)比关节点更接近骨骼重心的相邻关节点；(3)关节点剩余的相邻关节点。本实施例中的人体关节连接关系图的骨骼关节点连接矩阵划分为3个子矩阵，分别对应骨骼关节划分的3个集合。各分支对人体关节连接关系图和人体关节的特征信息进行图卷积操作，其方法为：

其中，D表示顶点的度矩阵，

其中A_i表示人体关节连接关系图的骨骼关节点连接矩阵，I表示单位矩阵。假设网络模型已经由H层构成，则第h+1层各分支的输入

为上一层的输出

其中M^(h+1)∈R^N×N表示偏置矩阵，M^(h+1)初始化为全1的矩阵，W^(h+1)∈R^N×N表示权重矩阵，使用Kaiming初始化对W^(h+1)进行初始化。定义第一层的输入

多时长特征融合模块用来提取人体骨骼序列的时序特征，四个不同卷积核大小的时间卷积网络并行分支和一个注意力模块支路组成的一个模块，其中四个时间卷积网络分支不同感受野的卷积核的大小分别为3x1、5x1、7x1、9x1，不同的感受野对应不同时长的特征。另外一个注意力模块支路使用了压缩和激励网络(Squeeze-and-ExcitationNetworks)，该支路由空间多尺度模块的输出经过全局平均池化后，通过全连接层，最后将Softmax函数输出的概率分别作用到四个时间卷积网络分支上，并将四个支路输出的特征图进行拼接，则拼接可以定义为：

M表示时间卷积网络的总支路数，Conv_m(x^(h ⁺¹⁾)表示时间卷积网络的输出。最后经过1x1卷积、Batch Normalization批标准化层以及ReLU激活函数，得到多时长特征融合模块的输出。

由多尺度图卷积网络模块和多时长特征模块组成多尺度时空图卷积网络模块，且在该模块中添加残差网络结构，将该模块作为深度神经网络中的一层，本实施例中经过若9个多尺度时空图卷积网络模块提取骨骼序列的时空特征信息，通过全连接层后经过Softmax函数输出分类结果，并直接与分类标签进行有监督学习，总体的网络模型结果参考图5。

S4、使用创建好的数据集来训练和测试深度卷积神经网络模型；

本发明选择的深度神经网络的训练策略为：所述神经网络中代价函数的选择为交叉熵函数，激活函数使用非线性的Relu。同时在训练中加入了Batch Normalization批标准化层，通过规范化手段把每层神经网络任意神经元的输入值的分布拉回到均值为0方差为1的标准正态分布，避免训练过程中产生梯度消失问题，加快学习收敛速度和训练速度。所述神经网络的优化方法采用随机梯度下降SGD，采用的深度学习框架为Pytorch，通过训练不断降低目标函数的函数值来学习和确定深度神经网络的参数。

S5、利用训练好的模型对待识别的视频图像进行分类。

对输出结果进行评估。根据S1所述的数据集的两种不同的划分标准，本发明对两种不同划分标准交叉受试者(Cross Subiect)和交叉视角(Cross View)都以行为分类准确率作为选取的评价指标：

准确率

其中N_current是该行为识别正确的样本总数，N_total是该行为样本总数。

本发明在NTU-RGB+D数据集上的实验情况如表1所示：

表1在NTU-RGB+D数据集实验结果准确率(％)对比表

模型指标	Cross Subject	Cross View
			ST-GCN	81.5	88.3
OURS	87.0	94.2

与未改进的ST-GCN基线模型相比，本发明的各项指标都有了改好的提升，证明了：

采用多尺度图卷积模块和多时长特征融合模块能更好的获取骨骼序列的空间结构特征和时序特征，能较好的提升模型的整体性能。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。