CN114882421A

CN114882421A - 一种基于时空特征增强图卷积网络的骨架行为识别方法

Info

Publication number: CN114882421A
Application number: CN202210613367.5A
Authority: CN
Inventors: 曹毅; 吴伟官; 李平; 夏雨; 高清源
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-08-09
Anticipated expiration: 2042-06-01
Also published as: CN114882421B

Abstract

本发明提供一种基于时空特征增强图卷积网络的骨架行为识别方法，其在图卷积过程中能充分提取丰富、有效的时空特征信息，提高了骨架行为识别的准确率。其结合空域特征增强模块、时域特征增强模块和通道注意力模块构建的时空特征增强图卷积模型，在多流网络下进行端到端的训练后得到的训练好的人体骨架行为识别支流模型，将每一个人体骨架行为识别支流模型的输出融合，得到最终的骨架行为识别结果；在对待识别时空图进行在图卷积过程中能充分提取丰富、有效的时空特征信息，使模型取得优异的识别准确率和良好的泛化性能。

Description

一种基于时空特征增强图卷积网络的骨架行为识别方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种基于时空特征增强图卷积网络的骨架行为识别方法。

背景技术

与使用RGB视频序列进行识别的传统过程相比，基于人体骨架的行为识别对光照、视角、颜色和遮挡等影响因素有很强的鲁棒性，更加简洁的数据包含了三维的时空信息，因此骨架行为识别研究能广泛的应用于视频监控、人机交互、视频理解等领域。早期深度学习的方法应用于人体骨架行为识别研究，通过卷积神经网络和循环神经网络分别对骨架数据的空域和时域建模，但这种输入方式对复杂的模型来说，其训练过程和推理过程会花费大量的精力。

也有技术人员基于图卷积网络进行骨架行为识别。图卷积网络以其优越的处理数据的能力，应用于骨架行为识别领域后取得了优异的成绩。然而，现有的基于图卷积网络的骨架行为识别技术在时空图卷积过程由于特征提取不充分和无关通道对模型性能影响等问题而不能充分挖掘时空特征，导致模型的识别准确率较低。

发明内容

为了解决现有技术中基于图卷积网络进行骨架行为识别，识别结果准确率较低的问题，本发明提供一种基于时空特征增强图卷积网络的骨架行为识别方法，其在图卷积过程中能充分提取丰富、有效的时空特征信息，提高了骨架行为识别的准确率。

本发明的技术方案是这样的：一种基于时空特征增强图卷积网络的骨架行为识别方法，其包括以下步骤：

S1：获取原始视频样本，对所述原始视频样本进行预处理，获取所述原始视频样本中骨架信息数据；

S2：构造表示所述骨架数据信息的时空图；

S3：构建时空特征增强图卷积网络模型；

S4：确定表示骨架行为的静态特征和动态特征的骨架行为特征数据的个数NM；

基于所述时空图获取训骨架模态特征训练数据，所述骨架模态特征训练数据包括NM个分支训练数据；其中，NM≥2；

基于多流网络的训练方式，分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型，得到 NM个训练好的人体骨架行为识别支流模型；

S5：获取待识别的视频数据，提取所述待识别视频数据组中的骨架信息数据，将骨架信息数据转化为待识别时空图；

S6：将所述待识别时空图分别输入到每一个训练好的所述人体骨架行为识别支流模型中，将每一个所述人体骨架行为识别支流模型的输出融合，得到最终的骨架行为识别结果。

其特征在于：步骤S3中，构建时空特征增强图卷积网络模型，包括以下步骤：

S3-1：将所述时空图中所有关节点的邻域，划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集，根据三个子集构建自适应的所述空域图卷积层；

S3-2：在所述空域图卷积层中采用空域上的图注意力机制，根据邻居节点的重要性程度分配不同的权重系数，生成注意力系数矩阵；通过非局部网络生成全局邻接矩阵；将所述注意力矩阵和所述全局邻接矩阵结合，生成空域自适应邻接矩阵参与图卷积，得到空域特征增强模块；

S3-3：基于所述时空图，采用9×1的卷积核提取时域特征，然后采用混合池化模型进行时域特征增强，构建时域图卷积层，记作：时域特征增强模块；

S3-4：通道采用ECA-Net网络进行注意力增强，得到通道注意力模块；

S3-5：将所述空域特征增强模块、所述时域特征增强模块和通道注意力相结合构建时空图卷积块；

所述时空图卷积块包括：依次连接的空域特征增强模块、BN层、RELU层、通道注意力模块和时域特征增强模块；

S3-6：所述时空特征增强图卷积网络模型，包括：依次连接的BN层、10个时空图卷积块、GAP层和softmax层。

其进一步特征在于：

步骤S1中，获取所述原始视频样本中所述骨架信息数据，详细包括以下步骤：

S1-1：对采集到的所述原始视频样本进行分帧处理，将连续视频片段分解为一个包括静态帧的图片序列；

S1-2：基于Openpose姿态估计算法进行计算；

设置Openpose算法的计算参数，将分解视频得到的所述静态帧的图片输入Openpose，得到所述静态帧中的对应关节数的人体骨架数据；

所述计算参数包括：人体关节数、人体个数；

S1-3：依据人体关节与Openpose算法中对于相应关节的编号，构建人体骨架数据的连接关系表示人体的形态特征，即获得所述骨架信息数据；

步骤S2中，构建表示骨架序列的时空图的步骤包括：

S2-1：记一个有N个关节点和T帧的骨骼序列的时空图为G＝(V,E)，其关节点集合为V＝{Vti|t＝ 1,…,T,i＝1,...,N}；

S2-2：将所述时空图G＝(V,E)中同一帧的每个关节点连接成边；

S2-3：将所述时空图G＝(V,E)中连续两帧相同的关节点连接成边；

步骤S3-2中，所述注意力系数矩阵的生成方法包括以下步骤：

S3201：对于当前节点i，计算它与它的邻居节点j∈N_i的注意力系数e_ij：

e_ij＝(Concat(h_iW,h_jW))a

式中：

h_i,h_j＝[1,in_channels]，W＝[in_channels,out_channels]，a＝[2*out_channels,1]；

h_i和h_j分别为节点i和节点j的特征向量，W、a是模型需要训练的参数，N_i为节点i及其邻居节点集， in_channels和out_channels分别代表卷积块的输入维度和输出维度；

S3202：对e_ij使用LeakyReLU函数进行非线性激活，得到最终的节点i对节点j的图注意力系数α_ij：

S3203：基于相关注意力系数，构建得到矩阵A：

式中，i和j代表空间任意两个节点，若邻接，则矩阵元素α_ij；若不邻接，则矩阵元素置为负无穷；

S3204：通过softmax函数对矩阵A进行归一化处理，得到所述的注意力系数矩阵A_attention：

式中，M为空域所有节点的个数；

步骤S3-2中，构建所述空域特征增强模块，包括以下步骤：

S3211：使用归一化的嵌入高斯函数来计算两个顶点的相似度w_ij：

其中：M为空间所有节点的个数，W_θx_i、W_φx_j为节点i和节点j采用的嵌入式操作，为两个并行的1×1 卷积运算；

S3212：利用softmax函数来归一化全局邻接矩阵，得到全局邻接矩阵C_k的计算公式：

其中，X_in代表输入特征，W_θ、W_φ为嵌入高斯函数；

S3213：结合非局部网络和图注意力机制生成空域自适应邻接矩阵，进行图卷积操作；

第n层自适应图卷积操作表示为：

其中，Xⁿ、Xⁿ⁺¹分别为第n层输入特征和输出特征，W_k为卷积核函数，K_max代表最大距离；

A_attention是通过图注意力机制生成的注意力系数矩阵，B_k是一种增强数据掩码矩阵，C_k是通过非局部网络生成的全局邻接矩阵；

步骤S3-3中，混合池化模型结构包括以下步骤：

a1：特征输入；

输入的时域特征的尺寸为：N×C×T×V；

其中，N代表批次，C代表通道数，T代表帧数，V代表关节数；

a2：时域卷积；

时域采用9×1卷积核进行特征提取，再进行批标准化；

a3：混合池化；

将时域维度和通道维度进行置换后，采用全局平均池化和最大池化并行的方式进行时域特征提取，则：

混合池化的过程表示为：

式中，F和F_T分别为混合池化前后的特征，MaxPool为最大池化操作，AvgPool为全局平均池化操作，Concat 为特征融合操作；

a4：时域特征增强，具体包括以下步骤：

a41：采用1×1的卷积来提取融合后的特征；

a42：通过softmax函数进行归一化处理；

a43：将处理后的特征利用expand函数扩展为混合池化前的特征尺寸；

a44：将通道和时域维度再次置换回来，并保证与输入维度相同，得到的特征记作：F₂；

a45：时域特征增强部分表示为：

式中，k，i和j分别代表第k个通道，时域中第i帧和空域第j个节点；F₁表示步骤a2中经过卷积和批标准化后的特征，F₂表示步骤a44中将通道和时域维度置换后得到的特征，F_g表示时域特征增强的输出，

表示矩阵相乘；

a5：构造残差连接，输出最终特征；

通过对特征F₁引出残差途径，并与时域特征增强的输出F_g相加，实现残差连接的构建后作为最终时域特征的输出；最终的输出特征表示为：

F_out＝Res(F₁,F_g)＝F₁+F_g

式中，F_out表示时域特征的输出，Res表示残差连接；

步骤S3-4中，通道采用ECA-Net网络进行注意力增强，具体包括以下步骤：

S3401：挤压阶段；

通过全局平均池化将特征的维度压缩到通道所表示的维度；挤压过程表示为：

式中，T代表帧数，V代表关节数，i和j表示时域中第i帧和空域第j个节点，X为输入的特征，l为通道挤压后的特征图；

S3402：跨通道交互阶段的计算包括：通过卷积核大小为h的一维卷积进行卷积操作后，通过sigmoid 函数激活，然后进行矩阵相乘得到输出特征；

则，输出表示为：

其中，δ代表ReLU激活函数，σ代表sigmoid激活函数，W代表一维卷积的权重参数，l代表通道挤压后的特征图，X和

分别代表特征的输入和输出，h表示当前通道有多少个邻居通道参与注意预测；

步骤S4中，NM取值为4；所述骨架模态特征训练数据包括4个分支训练数据，分别为：关节、骨骼、关节运动和骨骼运动；

步骤S4中，对所述骨架行为特征数据进行建模的方法，包括以下步骤：

S4-1：以关节点自身建模作为关节信息，假设t帧的关节信息表示为J^t；

S4-2：以靠近骨骼重心的关节点为源关节点

以远离骨骼重心的关节点为目标关节点

骨骼信息表示源关节点指向目标关节点的向量

S4-3：关节运动和骨骼运动的表示为各自相邻两帧之间的坐标差，

则：关节的运动信息表示为

骨骼的运动信息表示为

步骤S4中，基于多流网络的训练方式，分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型时，采用随机梯度下降法作为优化策略，选择交叉熵作为梯度反向传播的损失函数。

本发明提供的一种基于时空特征增强图卷积网络的骨架行为识别方法，其构建NM个人体骨架行为识别支流模型，基于多流网络模型，将每一个人体骨架行为识别支流模型的输出融合，得到最终的骨架行为识别结果；其中，人体骨架行为识别支流模型基于时空特征增强图卷积网络模型构建，在时空特征增强图卷积网络模型的空域上采用图注意力机制，根据邻居节点的重要性程度分配不同的权重系数，生成可充分挖掘空域结构特征的注意力系数矩阵，并结合非局部网络生成的全局邻接矩阵，提出一种新的空域自适应邻接矩阵参与空间图卷积，增强人体空域结构特征的提取，提高了识别结果的准确性；在时空特征增强图卷积网络模型的时域上，采用混合池化模型提取时域关键动作特征和全局上下文特征，并结合时域卷积提取的特征，实现了行为信息中时域特征的充分提取，提高了识别结果的准确性；在时空特征增强图卷积网络模型的通道中，采用ECA-Net网络进行注意力增强，从而更有利于模型提取样本的时空特征；结合空域特征增强模块、时域特征增强模块和通道注意力模块构建的时空特征增强图卷积模型，在多流网络下进行端到端的训练后得到的训练好的人体骨架行为识别支流模型，在对待识别时空图进行在图卷积过程中能充分提取丰富、有效的时空特征信息，使模型取得优异的识别准确率和良好的泛化性能。

附图说明

图1为本发明中基于时空特征增强图卷积网络的骨架行为识别方法流程示意图；

图2为本发明中空域图卷积层中图注意力机制示意图；

图3为本发明中提出的空域自适应邻接矩阵的结构示意图；

图4为本发明中时域采用的混合池化模型示意图；

图5为本发明中通道采用的ECA-Net模型示意图；

图6为本发明中时空图卷积块的结构示意图；

图7为本发明中基于多流网络的时空特征增强图卷积网络模型结构示意图。

具体实施方式

如图1所示，本发明提供一种基于时空特征增强图卷积网络的骨架行为识别方法，其包括以下步骤。

S1：获取原始视频样本，对原始视频样本进行预处理，获取原始视频样本中骨架信息数据。

详细包括以下步骤：

S1-1：对采集到的原始视频样本进行分帧处理，将连续视频片段分解为一个包括静态帧的图片序列；

S1-2：基于Openpose姿态估计算法进行计算；

设置Openpose算法的计算参数，将分解视频得到的静态帧的图片输入Openpose，得到静态帧中的对应关节数的人体骨架数据；

计算参数包括：人体关节数、人体个数；

S1-3：依据人体关节与Openpose算法中对于相应关节的编号，构建人体骨架数据的连接关系表示人体的形态特征，即获得骨架信息数据。

S2：构造表示骨架数据信息的时空图。

构建表示骨架序列的时空图的步骤包括：

S2-2：将时空图G＝(V,E)中同一帧的每个关节点连接成边；

S2-3：将时空图G＝(V,E)中连续两帧相同的关节点连接成边。

S3：构建时空特征增强图卷积网络模型；包括以下步骤。

S3-1：将时空图中所有关节点的邻域，划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集，根据三个子集构建自适应的空域图卷积层。

S3-2：在空域图卷积层中采用空域上的图注意力机制，根据邻居节点的重要性程度分配不同的权重系数，生成注意力系数矩阵，通过非局部网络生成全局邻接矩阵；将所述注意力矩阵和所述全局邻接矩阵结合，生成空域自适应邻接矩阵参与图卷积，得到空域特征增强模块；

本发明技术方案中，根据邻居节点的重要性程度分配不同的权重系数，以体现关节与关节之间的连接的相关性，确保能够充分挖掘空域结构特征，进而提高骨架行为识别结果的准确性；通过构建注意力系数矩阵，结合非局部网络生成的全局邻接矩阵，提出一种新的空域自适应邻接矩阵参与图卷积，得到空域特征增强模块，增强对人体空域结构特征的提取，实现空域特征增强，进一步提高骨架行为识别结果的准确性。

步骤S3-2中，注意力系数矩阵的生成方法包括以下步骤：

e_ij＝(Concat(h_iW,h_jW))a

式中：

如图2所示，为空域图卷积层中图注意力机制示意图；

基于节点i及其邻居节点的注意力系数α_ij实现节点i的特征更新：

式中，σ为sigmoid激活函数，h_i′为节点i更新后的特征向量；

S3203：基于相关注意力系数，构建矩阵A：

式中，i和j代表空间任意两个节点，若邻接，则矩阵元素置为α_ij，若不邻接，则矩阵元素置为负无穷；

式中，M为空域所有节点的个数。

步骤S3-2中，构建空域特征增强模块，包括以下步骤：

S3211：为了确定两个顶点之间是否存在连接以及连接的强度，本发明技术方中使用归一化的嵌入高斯函数来计算两个顶点的相似度w_ij：

其中：M为空间所有节点的个数，W_θx_i、W_φx_j为节点i和节点j采用的嵌入式操作，为两个并行的1×1 卷积运算；通过嵌入式操作实现表示节点间相似度的V×V矩阵计算。

其中，X_in代表输入特征，W_θ、W_φ为嵌入高斯函数；

第n层自适应图卷积操作表示为：

其中，Xⁿ、Xⁿ⁺¹分别为第n层输入特征和输出特征，W_k为卷积核函数，K_max代表最大距离；本实施例中，K_max设置为3；

A_attention是通过图注意力机制生成的注意力系数矩阵，用于建立节点与邻域的联系，增强节点对于邻域特征的提取，提高了模型的识别准确率；B_k是一种增强数据掩码矩阵，在训练过程中进行不断优化与更新，用于优化模型模型性能；C_k是通过非局部网络生成的全局邻接矩阵，用于建立节点与全局空域的联系，增强节点对于全局空域特征的提取，提高了模型的识别准确率。

如图3所示，为本发明技术方案中的空域自适应邻接矩阵，即

中的A_attention+B_k+C_k。图3中的输入为表示骨架序列的时空图，尺寸为N×C×T×V，分别代表批次、通道数、帧数和关节数；θ(x)和φ(x)数代表非局部网络的高斯嵌入函数，作用为计算单一节点与空域所有节点的相关性，实现表示节点间相似度矩阵C_k的生成，用于建立节点与全局空域的联系，增强节点对于全局空域特征的提取。A_k为表征人体拓扑结构的邻接矩阵，本发明技术方案中通过图注意力机制对A_k进行改进，并通过softmax函数归一化为注意力系数矩阵A_attention，用于建立节点与邻域的联系，增强节点对于邻域特征的提取，相较于采用非0即1连接的表征人体拓扑结构邻接矩阵A_k，其更能表达空域节点与其邻域节点之间的连接关系，故更能体现人体骨架中关节与关节之间连接的相关性，从而在图卷积过程中更能挖掘人体空域的结构特征，提高了模型的识别准确率。B_k是一种增强数据的掩码矩阵，其在训练过程中不断更新，优化模型性能。即，图注意力机制针对节点的邻域，非局部网络针对的是全局空域，所以本发明技术方案中空域自适应邻接矩阵能增强对节点的邻域特征和全局空域特征的提取。

S3-3：基于时空图，采用9×1的卷积核提取时域特征，然后采用混合池化模型进行时域特征增强，构建时域图卷积层，记作：时域特征增强模块。

步骤S3-3中，混合池化模型结构如图4所示，具体包括以下步骤：

a1：特征输入；

输入的时域特征的尺寸为：N×C×T×V；

其中，N代表批次，C代表通道数，T代表帧数，V代表关节数；

a2：时域卷积；

时域采用9×1卷积核进行特征提取，再进行批标准化；仅仅通过时域卷积进行特征提取，无法达到较高的准确率，本发明技术方中通过混合池化操作提取更多的特征信息；

a3：混合池化；

将时域维度和通道维度进行置换后，采用全局平均池化和最大池化并行的方式进行时域特征提取，

其中，通过全局平均池化提取全局上下文特征，采用最大池化提取时域关键动作特征。因此，采用并行的混合池化能够更好的提取时域关键动作特征和全局上下文特征。

则，混合池化的过程表示为：

a4：时域特征增强，具体包括以下步骤：

a41：采用1×1的卷积来提取融合后的特征；

a42：通过softmax函数进行归一化处理；

a45：时域特征增强部分表示为：

表示矩阵相乘；

a5：构造残差连接，输出最终特征；

F_out＝Res(F₁,F_g)＝F₁+F_g

式中，F_out表示时域特征的输出，Res表示残差连接。

S3-4：通道采用ECA-Net网络进行注意力增强，得到通道注意力模块。

步骤S3-4中，本发明技术方案中采用ECA-Net网络进行通道注意力增强，具体包括以下步骤：

S3401：通过全局平均池化将特征的维度压缩到通道所表示的维度；挤压过程表示为：

如图5所示，在挤压阶段，假设特征X的输入为C×T×V，通过全局平均池化将特征的维度压缩到通道所表示的维度，即C×1×1；

则，输出表示为：

其中，δ代表ReLU激活函数，σ代表sigmoid激活函数，W代表一维卷积的权重参数，X和

h表示当前通道有多少个邻居通道参与注意预测，为降低模型的复杂性，图5所示实施例中，采用h＝3 的卷积核进行卷积操作，输入的X对应的输出特征

也为C×T×V。

S3-5：将空域特征增强模块、时域特征增强模块和通道注意力相结合构建时空图卷积块；

时空图卷积块包括：依次连接的空域特征增强模块、BN层、RELU层、通道注意力模块和时域特征增强模块。

时空图卷积块具体如图6所示。在空域特征增强模块中，实线箭头代表当前节点通过图注意力机制与邻居节点建立联系来聚集邻域特征，虚线箭头代表通过非局部网络与全局空域节点建立联系来聚集全局空域特征，将两者结合起来构建空域自适应邻接矩阵，可聚集空域节点的局部邻域和全局空域特征，从而在图卷积过程中可增强对人体空间结构特征的提取；

经过ReLU激活函数激活和BatchNorm2d函数进行批标准化，将标准化后的特征通过ECA-Net网络进行通道注意力；

在时域特征增强模块中，将时域卷积后的特征通过混合池化模型达到时域特征增强的目的，增强了对行为信息中时域特征的提取，图中圆点代表在一段时序中对于判别动作行为相关性较大的节点给予特征增强；

最后，通过对输入进行Res选择性卷积，并将其与上述步骤的输出相加，实现了残差连接的构建。残差连接可增强模型的灵活性，而不会降低原始性能。

S3-6：时空特征增强图卷积网络模型，如图7所示，包括：依次连接的BN层、10个时空图卷积块、 GAP层和softmax层。

基于时空图获取训骨架模态特征训练数据，骨架模态特征训练数据包括NM个分支训练数据；其中， NM≥2；

如图7所示，基于多流网络的训练方式，分别使用分支训练数据训练时空特征增强图卷积网络模型，得到NM个训练好的人体骨架行为识别支流模型。

本实施例中，NM取值为4；骨架模态特征训练数据包括4个分支训练数据，分别为：关节、骨骼、关节运动和骨骼运动。

对骨架行为特征数据进行建模的方法，包括以下步骤：

S4-2：以靠近骨骼重心的关节点为源关节点

以远离骨骼重心的关节点为目标关节点

骨骼信息表示源关节点指向目标关节点的向量

则：关节的运动信息表示为

骨骼的运动信息表示为

S5：获取待识别的视频数据，提取待识别视频数据组中的骨架信息数据，将骨架信息数据转化为待识别时空图。

S6：将待识别时空图分别输入到每一个训练好的人体骨架行为识别支流模型中，将四支流输出进行融合，得到最终的骨架行为识别结果。

本发明技术方案中，对输入的时空图进行关节、骨骼、关节运动和骨骼运动四个信息支流分别训练，四个支流的输出进行融合作为多流图卷积网络的输出。基于多流网络方式训练时，分别使用分支训练数据训练时空特征增强图卷积网络模型时，采用随机梯度下降法作为优化策略，选择交叉熵作为梯度反向传播的损失函数。

模型训练具体实施时，基于pytorch深度学习框架下进行的。优化策略采用随机梯度下降(stochastic gradient descent，SGD)，Nesterov动量设为0.9，迭代周期设为50，初始学习率设置为0.1，为克服训练时过拟合的问题，选择交叉熵作为损失函数并将权重衰减设置为0.0001，衰减周期设在第30和40个周期， batch size设为10。

选择交叉熵作为梯度反向传播的损失函数：

其中，i代表第i个样本，c代表类别，p_ic表示对于第i个样本属于类别c的预测概率，y_ic表示指示变量(0或1)，如果该行为类别和训练集中样本i(即每一帧骨架序列)的类别相同就是1，否则是0；M表示行为类别的数量。

表1为时空特征增强图卷积网络模型结构的实施例，基于下面表1中的网络结构，将输入的数据，经过10个子网络结构块的处理之后，进入GAP层，在GAP层中将子网络结构块输出的3维数据转换成1 维数据，然后通过FC层将数据从480000降低维度到60(120)维，最后映射到60(120)维后进行预测。

表1：时空特征增强图卷积网络模型的结构

模型层	输入和输出通道数	步长(stride)	输出数据尺寸
				输入			[3,300,25]
1<sup>st</sup>	in_channels＝3,out_channels＝64	1	[64,300,25]
				2<sup>nd</sup>	in_channels＝64,out_channels＝64	1	[64,300,25]
3<sup>rd</sup>	in_channels＝64,out_channels＝64	1	[64,300,25]
				4<sup>th</sup>	in_channels＝64,out_channels＝64	1	[64,300,25]
5<sup>th</sup>	in_channels＝64,out_channels＝128	2	[128,150,25]
				6<sup>th</sup>	in_channels＝128,out_channels＝128	1	[128,150,25]
7<sup>th</sup>	in_channels＝128,out_channels＝128	1	[128,150,25]
				8<sup>th</sup>	in_channels＝128out_channels＝256	2	[256,7525]
9<sup>th</sup>	in_channels＝256,out_channels＝256	1	[256,75,25]
				10<sup>th</sup>	in_channels＝256,out_channels＝256	1	[256,75,25]
GAP			[480000]
				FC	[480000,60]或[480000,120]		[60]或[120]

为了验证本发明技术方案中的人体行为识别方法的有效性和实用性，选取NTU-RGB+D与 NTU-RGB+D120数据集作为实验数据集进行实验。

NTU-RGB+D用3个Microsoft Kinect v2传感器采集，这三个传感器分别放置的角度是-45°,0°,45°，一共包含60类动作。其中第1-49个动作是单人动作，第50-60个动作是双人交互动作。NTU-RGB+D数据集有两种评价方式:交叉对象(X-Sub)和交叉视角(X-View)。测试结果如表2所示。

表2：NTU-RGB+D数据集中X-View和X-Sub下的识别准确率(％)

情景	Joint	Bone	Joint-motion	Bone-motion	Joint+Bone	STFA-GCN
							X-View	94.4	94.3	92.8	93.0	95.6	96.0
X-Sub	87.7	87.4	85.7	85.6	89.3	89.8

表2中，Joint、Bone、Joint-motion、Bone-motion、Joint+Bone分别表示关节、骨骼、关节运动、骨骼运动、关节和骨骼特征；STFA-GCN表示本发明技术方中的基于时空特征增强图卷积网络模型，对应的准确率为将四支流输出进行融合，得到最终的骨架行为识别结果。因为本实验是基于数据集验证模型的准确率，所以四个支流的输出结果定义为准确率，实际应用本发明技术方案进行骨骼行为识别时根据具体的需求，定义四个支流的输出结果，如：将输出结果定义为骨骼行为的概率。

同时，基于NTU-RGB+D数据集，将本发明技术放方案中的基于时空特征增强图卷积网络模型与其他的骨骼行为识别模型进行对比，对比结果如下面表3所示：

表3：基于NTU-RGB+D数据集，不同模型的识别准确率对比(％)

模型	X-sub	X-view
			STA-LSTM	73.4	81.2
VA-LSTM	79.2	87.7
			TCN	74.3	83.1
ClipCNN+MTLN	79.6	84.8
			AS-GCN	86.8	94.2
ST-GCN	81.5	88.3
			2s-AGCN	88.5	95.1
AGC-LSTM	89.2	95.0
			STFE-GCN	89.8	96.0

从表3中的数据可以看出：在以X-View与X-Sub两种方式划分的NTU数据集上，本发明技术方案均取得最高的识别准确率，分别为96.0％与89.8％，本发明技术方案能够提高骨架行为的识别准确率。

NTU-RGB+D120相比于NTU-RGB+D数据集，有更多的样本由更多主体在更多不同的摄像机视图中执行。该数据集包含120个动作，由106个不同的主体执行。NTU-RGB+D120数据集提供了两个基准来评估，即交叉对象(X-Sub)和交叉设置(X-Set)。基于NTU-RGB+D120数据集，将本发明技术放方案中的基于时空特征增强图卷积网络模型与其他的骨骼行为识别模型进行对比，对比结果如表4所示。

表4：基于NTU-RGB+D120数据集，不同模型的识别准确率对比(％)

模型	X-sub	X-setup
			Soft RNN	36.3	44.9
Dynamic Skeleton	50.8	54.7
			Spatio-Temporal LSTM	55.7	57.9
GCA-LSTM	58.3	59.2
			SGN	79.2	81.5
SkeleMotion	67.7	66.9
			2s-AGCN	82.9	84.9
STFE-GCN(Bone)	81.2	83.7
			STFE-GCN(Joint+Bone)	83.1	85.5
STFE-GCN	84.1	86.3

从表4中的数据可以看出，在以X-sub与X-setup两种方式划分的NTU-RGB+D120数据集上，我们的发明技术方案取得最高的识别准确率，分别为84.1％与86.3％，进一步验证了模型良好的识别准确率和泛化性能。

Claims

1.一种基于时空特征增强图卷积网络的骨架行为识别方法，其包括以下步骤：

S2：构造表示所述骨架数据信息的时空图；

S3：构建时空特征增强图卷积网络模型；

基于多流网络的训练方式，分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型，得到NM个训练好的人体骨架行为识别支流模型；

2.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S1中，获取所述原始视频样本中所述骨架信息数据，详细包括以下步骤：

S1-2：基于Openpose姿态估计算法进行计算；

所述计算参数包括：人体关节数、人体个数；

S1-3：依据人体关节与Openpose算法中对于相应关节的编号，构建人体骨架数据的连接关系表示人体的形态特征，即获得所述骨架信息数据。

3.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S2中，构建表示骨架序列的时空图的步骤包括：

S2-1：记一个有N个关节点和T帧的骨骼序列的时空图为G＝(V,E)，其关节点集合为V＝{Vti|t＝1,…,T,i＝1,...,N}；

S2-2：将所述时空图G＝(V,E)中同一帧的每个关节点连接成边；

S2-3：将所述时空图G＝(V,E)中连续两帧相同的关节点连接成边。

4.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S3-2中，所述注意力系数矩阵的生成方法包括以下步骤：

e_ij＝(Concat(h_iW,h_jW))a

式中：

h_i和h_j分别为节点i和节点j的特征向量，W、a是模型需要训练的参数，N_i为节点i及其邻居节点集，in_channels和out_channels分别代表卷积块的输入维度和输出维度；

S3203：基于相关注意力系数，构建得到矩阵A：

式中，M为空域所有节点的个数。

5.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S3-2中，构建所述空域特征增强模块，包括以下步骤：

其中：M为空间所有节点的个数，W_θx_i、W_φx_j为节点i和节点j采用的嵌入式操作，为两个并行的1×1卷积运算；

其中，X_in代表输入特征，W_θ、W_φ为嵌入高斯函数；

第n层自适应图卷积操作表示为：

A_attention是通过图注意力机制生成的注意力系数矩阵，B_k是一种增强数据掩码矩阵，C_k是通过非局部网络生成的全局邻接矩阵。

6.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S3-3中，混合池化模型结构包括以下步骤：

a1：特征输入；

输入的时域特征的尺寸为：N×C×T×V；

其中，N代表批次，C代表通道数，T代表帧数，V代表关节数；

a2：时域卷积；

时域采用9×1卷积核进行特征提取，再进行批标准化；

a3：混合池化；

将时域维度和通道维度进行置换后，采用全局平均池化和最大池化并行的方式进行时域特征提取，则：混合池化的过程表示为：

式中，F和F_T分别为混合池化前后的特征，MaxPool为最大池化操作，AvgPool为全局平均池化操作，Concat为特征融合操作；

a4：时域特征增强，具体包括以下步骤：

a41：采用1×1的卷积来提取融合后的特征；

a42：通过softmax函数进行归一化处理；

a45：时域特征增强部分表示为：

表示矩阵相乘；

a5：构造残差连接，输出最终特征；

F_out＝Res(F₁,F_g)＝F₁+F_g

式中，F_out表示时域特征的输出，Res表示残差连接。

7.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S3-4中，通道采用ECA-Net网络进行注意力增强，具体包括以下步骤：

S3401：挤压阶段；

S3402：跨通道交互阶段的计算包括：通过卷积核大小为h的一维卷积进行卷积操作后，通过sigmoid函数激活，然后进行矩阵相乘得到输出特征；

则，输出表示为：

分别代表特征的输入和输出，h表示当前通道有多少个邻居通道参与注意预测。

8.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S4中，NM取值为4；所述骨架模态特征训练数据包括4个分支训练数据，分别为：关节、骨骼、关节运动和骨骼运动。

9.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S4中，对所述骨架行为特征数据进行建模的方法，包括以下步骤：

S4-2：以靠近骨骼重心的关节点为源关节点

以远离骨骼重心的关节点为目标关节点

骨骼信息表示源关节点指向目标关节点的向量

则：关节的运动信息表示为

骨骼的运动信息表示为

10.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法，其特征在于：步骤S4中，基于多流网络的训练方式，分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型时，采用随机梯度下降法作为优化策略，选择交叉熵作为梯度反向传播的损失函数。