CN115116139A

CN115116139A - 基于图卷积网络的多粒度人体动作分类方法

Info

Publication number: CN115116139A
Application number: CN202210816170.1A
Authority: CN
Inventors: 刘胜蓝; 丁宇宁; 李光哲; 张津榕
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-09-27

Abstract

基于图卷积网络的多粒度人体动作分类方法，属于视频动作识别领域，为了解决生成准确和高鲁棒性的动作分类结果的问题，要点是将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集，在骨架拓扑的三个通道上，将输入数据通过卷积、不同维度的均值压缩和维度扩展处理，提取空间的特征矩阵和时间特征矩阵，同时，对输入数据进行卷积等，效果是可以对粗粒度的动作数据和细粒度的动作数据都进行准确分类。

Description

基于图卷积网络的多粒度人体动作分类方法

技术领域

本发明属于视频动作识别领域，涉及一种基于图卷积网络的多粒度动作分类方法。

背景技术

基于图卷积网络的多粒度人体动作分类是视频动作识别领域非常具有挑战性的一个研究方向。其中，对于骨骼点数据的分类方法的研究是最为热门和核心的研究内容。图卷积网络主要基于空间卷积-时间卷积模式构建，输入的信息是二维或三维的特征序列。

目前，动作识别领域中分类问题的研究已经取得了很多进展，各种方法层出不穷。所研究的数据模态从最初RGB数据扩展到了骨骼点数据，视频帧的选择策略从整段输入进阶为随机多帧抽取，提取的判别信息也逐渐细化到人体的时空位置信息。人体动作分类面向的是人体运动的视频数据，分类性能的好坏着力于空间尺度和时间尺度上信息的提取。空间尺度信息表现为单个视频帧中人体结构的空间分布，时间尺度信息表现为人体结构在时间轴上的变化。当前的主流方法大多只关注同一帧节点的空间连接信息，时间上的信息只通过时域卷积进行传播。但是，这些方法忽略了每个节点在不同帧中的差异性，丢失了时空层面上的高等级特征。主流的公开数据集也多为粗粒度数据集，与之相比，细粒度分类问题的研究较为缓慢。细粒度分类问题具有许多的实际应用场景，比如滑冰运动中的不同级别跳跃的判别，滑冰运动中的每种跳跃只有很细微的差别且都属于一个大类别跳跃。这些细粒度分类问题更加具有挑战性，也更加具有应用价值。

发明内容

本发明目的是提供一种基于图卷积网络的多粒度人体动作分类方法，通过在每个样本中提取时间维度和空间维度的特征，捕获骨骼点和骨骼点之间，帧与骨骼点之间，帧与帧之间的关系，进而生成准确和高鲁棒性的动作分类结果。

为实现上述目的，本发明提供如下技术方案：

一种基于图卷积网络的多粒度人体动作分类方法，包括

S1.获取目标动作的骨骼点数据集；

S2.将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集，使用V表示骨骼点数量，每个子集是V×V的矩阵；

根据所述三个子集划分形状为3×V×V的所述三个子集的邻接矩阵，根据所述邻接矩阵划分骨架拓扑的三个通道；

对所述邻接矩阵标准化得到骨架拓扑矩阵A，用Ai表示第i个通道的骨架拓扑矩阵A的子集；

S3.对骨骼点数据集进行抽帧得到形状为C×T×V的输入数据X_in，C表示特征数量，T表示时间窗大小；

S4.在骨架拓扑的三个通道上，将输入数据X_in通过C_r维度的1×1卷积、不同维度的均值压缩和维度扩展处理，提取空间的特征矩阵X₁、X₂和时间特征矩阵X₃，空间的特征矩阵X₁形状为C_r×T×1、空间的特征矩阵X₂形状为C_r×1×T、时间特征矩阵X₃形状为C_r×T×1，同时，对输入数据X_in进行C_out维度的1×1卷积，得到形状为C_out×T×V的时空向量X₄；

S5.空间的特征矩阵X₁和空间的特征矩阵X₂通过减法运算进行空间关系建模，通过激活函数φ₁和C_out维度的1×1卷积f₁，生成空间向量X₅：

X₅＝f₁(φ₁(X₁-X₂)) (1)

空间的特征矩阵X₂和时间特征矩阵X₃通过乘法运算融合建立时空关系，通过激活函数φ₂和C_out维度的1×1卷积f₂，生成时空权重向量X₆：

X₆＝f₂(φ₂(X₂·X₃)) (2)

S6.空间向量X₅和每个通道的骨架拓扑子集A_i通过融合函数

构建细化的空间向量X₇，空间向量X₅和每个通道的骨架拓扑子集A_i之间的数值关系是可学习的，权重系数为α；

时空权重向量X₆通过融合函数

为时空向量X₄提供权重，产生细化的时空向量X₈；

S7.将两个空间向量X₇和X₈在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑

S8.将所有通道的输出

相加进行融合，通过归一化和ReLu函数激活，得到通道细化拓扑X_c；

S9.将通道细化拓扑X_c输入到时域卷积网络得到输出X_out；

S10.输出X_out作为输入数据X_in循环若干次执行步骤S4～S9，将每一次循环执行步骤S4～S8所得输出X_out输入全连接层，进行最大池化得到特征f_out，特征f_out表示从输入骨骼点数据中提取的动作特征，最后将特征f_out输入Softmax层得到多粒度人体动作分类标签。

在一种实施例中，输出X_out作为输入数据X_in循环八次执行步骤S4～S9。

在一种实施例中，最大池化得到维度为256的特征f_out。

在一种实施例中，每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成。

在一种实施例中，所述步骤S4～S7执行所构建的网络为时空细化图卷积网络。

在一种实施例中，所述步骤S8～S9执行所构建的网络为多维度细化图卷积网络。

在一种实施例中，所述多维度细化图卷积网络共有九层，前三层有64个输出通道，中间三层有128个输出通道，最后三层有256个输出通道，九层多维度细化图卷积网络的输出输入全连接层，进行最大池化得到特征f_out。

在一种实施例中，所述的基于图卷积网络的多粒度人体动作分类方法还包括

S11.通过特征f_out和训练集的标签y计算角弦损失函数L_AL，并根据损失函数结果进行优化，迭代训练，直到达到预设的迭代轮次；L_AL由常规损失函数L_s、角度损失函数L_in、角度补偿损失函数L_out和弦长损失函数L_L组成；L_AL通过训练得到中心特征矩阵C，C的形状为类别数K×特征数F，类别y在C上的特征向量表示为C_y；I_L和L_out通过权重常量λ与L_s和L_in联合作用得到L_AL，通过如下公式表示：

L_AL＝L_s+L_in+λ(L_L-L_out) (8)

Lin在角度上使得类内的分布比较集中，L_L是在距离上使得类内的分布比较集中，L_out扩大类间的距离。

在一种实施例中，步骤S5所述的激活函数可以是tanh，sigmoid，hardswish的任一种。

在一种实施例中，上述步骤S11所述的常规损失函数是Softmax loss，sphereFace，Large margin cosine loss，arcFace中的任一种。

本发明的有益效果是在骨架拓扑的每个通道上，同时形成了时间维度和空间维度的细化，感受了时空高级特征，打破了传统方法只能利用空间连接信息和时间连接信息的局限。同时，角弦损失函数改善了特征在向量空间中的分布，使不同类别的分类边界更加清晰。通过多维度细化的图卷积机制和角弦损失函数，可以对粗粒度的动作数据和细粒度的动作数据都进行准确分类，满足了分类任务中对准确性的要求，该方法具有较大的发展前景。

附图说明

图1为多维度细化图卷积模块的结构图。

图2为一层多维度细化图卷积网络的结构图。

图3为完整的多维度细化图卷积的结构图。

具体实施方式

下面，将结合附图1～3进一步详细说明本发明的具体实施方式。

实施例1：如图1～3所示，一种基于图卷积网络的多粒度人体动作分类方法，包括

S1：通过深度传感器或骨骼点提取算法获取目标动作的骨骼点数据集，划分为训练集T₁和测试集T₂；

S2：将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集；

使用V表示骨骼点数量，每个子集是V×V的矩阵，划分得到形状为3×V×V的邻接矩阵，再对该邻接矩阵进行标准化得到骨架拓扑矩阵A，不同的数据集提取的骨骼关键点不同，邻接关系不同，得到的邻接矩阵也不相同，为了给后续训练提供多种不同类型的特征。

现有分类方法中，输入数据是形状为C×t×V的输入数据，C特征数量，t是全部帧数，大小是不固定的，V骨骼点数量。在本发明中，根据三个不同的子集邻接矩阵划分为三个通道，用Ai表示第i个通道的骨架拓扑矩阵A的子集。S3：对训练集T₁进行抽帧，抽帧策略与设定的时间窗大小T和视频的实际帧数有关，视频的实际帧数即为去除补0的视频帧后的含有有效数据的全部帧数；如果时间窗的长度大于或等于实际帧数，则随机选择起始点，将实际视频帧整体放入，其余位置补0；如果时间窗的长度比实际帧数小，则将视频划分为时间窗大小个区间，每个区间随机抽取，最终得到形状为C×T×V的输入数据X_in。该步骤的目的是将输入数据的时间窗大小固定。

S4：在骨架拓扑的每个通道上，三个子集对应的三个通道，将X_in通过C_r维度的1×1卷积、不同维度的均值压缩和维度扩展，提取空间的特征矩阵X₁、X₂和时间特征矩阵X₃，其形状为C_r×T×1、C_r×1×T和C_r×T×1同时，对X_in进行C_out维度的1×1卷积，得到形状为C_out×T×V的时空向量X₄；

S5：X₁和X₂通过减法运算进行空间关系建模，通过激活函数φ₁和C_out维度的1×1卷积f₁，生成空间向量X₅；X₂和X₃通过乘法运算融合建立时空关系，通过激活函数φ₂和C_out维度的1×1卷积f₂，生成时空权重向量X₆。X₅和X₆通过如下公式计算；

X₅＝f₁(φ₁(X₁-X₂)) (1)

X₆＝f₂(φ₂(X₂·X₃)) (2)

S6：X₅和每个通道的骨架拓扑子集A_i通过融合函数

构建细化的空间向量X₇，X₅和A_i之间的数值关系是可学习的，权重系数为α；X₆通过

为样本本身的时空向量X₄提供权重，产生细化的时空向量X₈，

和

由如下公式表示；

每个帧中每个关节点应该具有不同关注度，在每个帧中给不同的关节点提取不同的权重产生细化的时空向量。

对于多粒度系列动作只有一帧或几帧的差别，通过权重分配产生细化的时空向量能够对细微动作进行准确捕捉。

S7：将两个向量X₇和X₈在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑

S8.将所有通道的输出

S9：将X_c输入到时域卷积网络，每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成，以感受临近帧之间的相关性，时域卷积网络能够帮助捕捉相邻帧之间的关系，能够捕获动作的连贯过程。由此得到一层多维度细化图卷积网络的输出X_out，由上述，步骤S4-S8为构建多维度细化图卷积网络的步骤。

S10：将输出X_out作为下一层的多维度细化图卷积网络的输入(X_in)，循环进行九层多维度细化图卷积网络，即循环执行步骤S4-S9共9轮，每轮循环的输入X_in是上一轮的输出X_out。

其中前三层有64个输出通道；中间三层有128个输出通道。最后三层有256个输出通道；最后将九层多维度细化图卷积网络的输出输入全连接层，进行最大池化降低特征维度，得到维度为256的特征f_out，表示从输入骨骼点数据中提取的动作特征，最后将特征f_out输入Softmax层得到多粒度人体动作分类标签。层数选择在精度达到比较高，效率和精度在9层比较平衡。

S10：通过f_out和训练集的标签y计算角弦损失函数L_AL，并根据损失函数结果进行优化，迭代训练，直到达到预设的迭代轮次；L_AL由常规损失函数L_s、角度损失函数L_in、角度补偿损失函数L_out和弦长损失函数L_L组成；L_AL通过训练得到中心特征矩阵C，C的形状为类别数K×特征数F，类别y在C上的特征向量表示为C_y；L_L和L_out通过权重常量λ与L_s和L_in联合作用得到L_AL，通过如下公式表示。

L_AL＝L_s+L_in+λ(L_L-L_out) (8)

本发明使用所述损失函数，Lin在角度上使得类内的分布比较集中，L_L是在距离上使得类内的分布比较集中，L_out扩大类间的距离。

进一步地，上述步骤S5所述的激活函数可以是tanh，sigmoid，hardswish的一种。

进一步地，上述步骤S10所述的常规损失函数可以是Softmax loss，sphereFace，Large margin cosine loss，arcFace的一种。

实施例2：本实施例使用具体花样滑冰动作数据集FSD-10对本发明的方法的具体实施进行详细说明，如图1～3所示，本发明基于图卷积网络的多粒度人体动作分类方法，具体实施步骤如下：

S1：使用openpose25骨骼点提取算法从花样滑冰动作数据集FSD-10中提取骨骼点数据集，划分为训练集T₁和测试集T₂。

S2：将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集，得到形状为3×25×25的邻接矩阵，再对该邻接矩阵进行标准化得到骨架拓扑矩阵A。

S3：对T₁进行抽帧，抽帧策略与设定的时间窗大小T设定为256；时间窗的长度大于或等于实际帧数，则随机选择起始点，将实际视频帧整体放入，其余位置补0，最终得到形状为3×256×25的输入数据X_in。

S4：在骨架拓扑的每个通道上，将X_in通过C_r维度的1×1卷积、不同维度的均值压缩和维度扩展，提取空间的特征矩阵X₁、X₂和时间特征矩阵X₃，其形状为C_r×25×1、C_r×1×25和C_r×256×1同时，对X_in进行C_out维度的1×1卷积，得到形状为C_out×256×25的时空向量X₄；

S5：X₁和X₂通过减法运算进行空间关系建模，通过激活函数sigmoid和C_out维度的1×1卷积f₁，生成空间向量X₅；X₂和X₃通过乘法运算融合建立时空关系，通过激活函数tanh和C_out维度的1×1卷积f₂，生成时空权重向量X₆。X₅和X₆通过如下公式计算。

X₅＝f₁(sigmoid(X₁-X₂)) (1)

X₆＝f₂(tanh(X₂·X₃)) (2)

S6：X₅和对应通道的骨架拓扑子集A_i通过融合函数

和

由如下公式表示。

将所有通道的输出

相加进行融合，通过归一化和ReLu函数激活，得到通道细化拓扑X_c，完整的时空细化过程如图1所示。

S8：将X_c输入到时域卷积网络，每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成，以感受临近帧之间的相关性，得到一层多维度细化图卷积网络的输出X_out，一层多维度细化图卷积网络的过程如图2所示。

S9：将输出作为下一层的输入，循环进行九层多维度细化图卷积网络，其中前三层有64个输出通道；中间三层有128个输出通道。最后三层有256个输出通道；最后将特征输入全连接层，进行最大池化降低特征维度，得到维度为256的特征f_out，完整的模型结构如图3所示。

S10：通过f_out和训练集的标签y计算角弦损失函数L_AL，并根据损失函数结果进行优化，迭代训练，直到达到预设的迭代轮次；L_AL由常规损失函数L_s、角度损失函数L_in、角度补偿损失函数L_out和弦长损失函数L_L组成；L_AL通过训练得到中心特征矩阵C，C的形状为10×256，类别y在C上的特征向量表示为C_y；L_L和L_out通过权重常量λ与L_s和L_in联合作用得到L_AL，λ设定为0.1，L_AL通过如下公式表示。

L_AL＝L_s+L_in+λ(L_L-L_out) (8)

S11：保存训练的参数，将测试集T₂输入模型，得到预测的分类结果，以分类的准确率为评价标准，和标签进行对比，并和其他主流方法进行对比，经过反复测试，具体结果如表1所示。

表1本发明与其他对比算法的测试结果

算法	准确率
		算法1	84.24％
算法2	88.72％
		算法3	90.58％
实施例1	92.94％
		实施例2	93.17％

附：算法1：ST-GCN；算法2：MS-G3D；算法3：CTR-GCN；实施例1：sigmoid+tanh；实施例2：tanh+tanh；

与对比算法相比，本发明所提出的实施例2对应的方法在分类精度上明显提高，基本符合多粒度动作数据的分类准确性要求。

实施例3：本实施例与实施例1或2的区别仅在于，使用了不同的激活函数，即步骤S5中激活函数φ₁和φ₂都使用了tanh。本实施例S11：仍使用分类准确率精度作为指标对所提方法进行了验证，测试结果如表1。与对比算法相比，本本发明所提出的实施例2对应的方法具有较高的精度，较好地满足了多粒度动作数据的分类准确性要求。

Claims

1.一种基于图卷积网络的多粒度人体动作分类方法，其特征在于，包括

S1.获取目标动作的骨骼点数据集；

X₅＝f₁(φ₁(X₁-X₂)) (1)

X₆＝f₂(φ₂(X₂·X₃)) (2)

S6.空间向量X₅和每个通道的骨架拓扑子集A_i通过融合函数

时空权重向量X₆通过融合函数

为时空向量X₄提供权重，产生细化的时空向量X₈；

S8.将所有通道的输出

S9.将通道细化拓扑X_c输入到时域卷积网络得到输出X_out；

S10.输出X_out作为输入数据X_in循环若干次执行步骤S4～S9，将每一次循环执行步骤S4～S8所得输出X_out输入全连接层，进行最大池化得到特征f_out，特征f_out表示从输入骨骼点数据中提取的动作特征，最后将特征f_out输入Sofimax层得到多粒度人体动作分类标签。

2.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，输出X_out作为输入数据X_in循环八次执行步骤S4～S9。

3.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，最大池化得到维度为256的特征f_out。

4.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成。

5.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，所述步骤S4～S7执行所构建的网络为时空细化图卷积网络。

6.根据权利要求1或5所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，所述步骤S8～S9执行所构建的网络为多维度细化图卷积网络。

7.根据权利要求6所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，所述多维度细化图卷积网络共有九层，前三层有64个输出通道，中间三层有128个输出通道，最后三层有256个输出通道，九层多维度细化图卷积网络的输出输入全连接层，进行最大池化得到特征f_out。

8.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，还包括

S11.通过特征f_out和训练集的标签y计算角弦损失函数L_AL，并根据损失函数结果进行优化，迭代训练，直到达到预设的迭代轮次；L_AL由常规损失函数L_s、角度损失函数L_in、角度补偿损失函数L_out和弦长损失函数L_L组成；L_AL通过训练得到中心特征矩阵C，C的形状为类别数K×特征数F，类别y在C上的特征向量表示为C_y；L_L和L_out通过权重常量λ与L_s和L_in联合作用得到L_AL，通过如下公式表示：

L_AL＝L_s+L_in+λ(L_L-L_out) (8)

9.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，步骤S5所述的激活函数可以是tanh，sigmoid，hardswish的任一种。

10.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法，其特征在于，上述步骤S11所述的常规损失函数是Sofimax loss，sphereFace，Large margin cosineloss，arcFace中的任一种。