CN117912105A

CN117912105A - 一种基于骨骼的人体行为识别方法及介质

Info

Publication number: CN117912105A
Application number: CN202410023999.5A
Authority: CN
Inventors: 薛健; 陈炼; 吕科
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-04-19

Abstract

本发明涉及基于骨骼的人体行为识别方法，包括：(1)获取样本；(2)提取原始输入特征；(3)根据样本的原始输入特征，计算时序帧间独立的拓扑结构和通道独立的拓扑结构；(4)根据所述原始输入特征和所述时序帧间独立的拓扑结构，计算时序帧间独立的拓扑结构下的聚合特征；(5)根据所述时序帧间独立的拓扑结构下的聚合特征，和所述通道独立的拓扑结构，计算通道独立的拓扑结构下的聚合特征；(6)根据所述通道独立的拓扑结构下的聚合特征，进一步聚合前后帧的特征信息，得到样本的最终输入特征；(7)完成动态拓扑自适应图卷积神经网络模型的训练；(8)利用训练好的模型进行人体行为的识别。

Description

一种基于骨骼的人体行为识别方法及介质

技术领域

本发明涉及计算机视觉技术领域，特别是关于一种基于骨骼的人体行为识别方法及介质。

背景技术

人体行为识别是计算机视觉的重要任务之一，随着数据的增长和硬件技术的提升，人体行为识别在人机交互、视觉监控、虚拟现实等现实场景中得到了广泛的应用，基于深度学习的行为识方法也得到了广泛的研究。行为识别常用的数据模态有骨骼序列和RGB视频序列，RGB数据提供了丰富的外观信息，但是对视角、光照、背景和人体尺度的变化较为敏感，而骨骼数据则克服了这些缺点，提供了简单且丰富的人体三维动作信息，对背景和尺度的变化具有鲁棒性，而且可以通过Kinect等低成本的深度相机或姿态估计算法轻松获得，因此，基于骨骼数据的行为识别在计算机视觉领域获得了大量的研究。

随着基于骨骼数据的行为识别技术的发展，模型的应用已经从早期的卷积神经网络(CNN)过渡到了图卷积神经网络(例如2s-AGCN)，实现了基于骨骼的行为的更高准确度的识别。

然而，本申请的发明人在研究中发现，现有的图卷积神经网络基于静态学习图拓扑结构，无法适应动作的多样性，因此亟需一种新的动态网络模型来提高识别任务的准确度。

发明内容

针对上述问题，本发明的目的是提供一种基于骨骼的人体行为识别方法及介质，基于样本数据构建一种有效的动态拓扑自适应图卷积神经网络模型，该模型可以应用在基于骨骼的人体行为识别任务中，用图数据来表达人体骨骼节点的复杂拓扑结构，图卷积网络动态地学习时序和通道协同的多维拓扑结构，并聚合相邻时序帧节点的有效信息，以提升模型对人体骨骼动作序列的建模和特征学习能力，从而提高模型对基于骨骼的人体行为识别性能。

为实现上述目的，本发明采取以下技术方案：

第一方面，本申请提供一种基于骨骼的人体行为识别方法，所述方法，包括：

(1)获取样本的原始骨骼数据；

(2)提取样本的原始输入特征，并输入待训练的动态拓扑自适应图卷积神经网络模型；所述原始输入特征为设定时序维度和通道数目的骨骼数据；

(3)根据样本的原始输入特征，计算时序帧间独立的拓扑结构和通道独立的拓扑结构；

(4)根据所述原始输入特征和所述时序帧间独立的拓扑结构，计算时序帧间独立的拓扑结构下的聚合特征；

(5)根据所述时序帧间独立的拓扑结构下的聚合特征，和所述通道独立的拓扑结构，计算通道独立的拓扑结构下的聚合特征；

(6)根据所述通道独立的拓扑结构下的聚合特征，进一步聚合前后帧的特征信息，得到样本的最终输入特征；

(7)根据样本的最终输入特征和预设分类标签，完成动态拓扑自适应图卷积神经网络模型的训练；

(8)利用训练好的动态拓扑自适应图卷积神经网络模型进行人体行为的识别。

在本申请的一种实现方式中，所述计算时序帧间独立的拓扑结构，包括：

根据样本的原始骨骼数据，建立对应的图结构，所述图结构包括人体骨骼节点序列的点集和人体骨骼节点组成的人体自然连接边的边集；并根据所述边集计算表征拓扑结构的归一化的邻接矩阵；

根据样本的原始输入特征中任意一对节点特征沿着时序维度的距离变化，构建基础的拓扑结构；

根据所述邻接矩阵，对所述基础的拓扑结构进行调整，得到时序帧间独立的拓扑结构。

在本申请的一种实现方式中，所述任意一对节点特征(x_i，x_j)沿着时序维度的距离计算公式为：

其中，θ(x_i)和分别代表对特征x_i和x_j进行线性变换，其计算公式为：

θ(x_i)＝x_iw_i,

其中，w_i,w_i为权重矩阵；m(·)为mean函数，表示取平均值。

在本申请的一种实现方式中，所述时序帧间独立的拓扑结构记为K∈R^N×T，其计算公式为：

K＝S+ε·A,

其中，A为所述邻接矩阵，ε为可学习的标量，S为所述基础的拓扑结构。

在本申请的一种实现方式中，所述根据所述原始输入特征和所述时序帧间独立的拓扑结构，计算时序帧间独立的拓扑结构下的聚合特征，包括：

将原始输入特征X∈R^N×C×T经过线性变换升高通道数目，计算公式为：

X′＝XW,

其中，X′∈R^N×C′×T为线性变换后的输入特征，W∈R^C×C′为权重矩阵；

将原始输入特征根据时序帧间独立的拓扑K进行聚合，计算公式为：

其中，Y∈R^N×T为根据时序帧间独立的拓扑计算出的特征，K_t∈R^N×N为K∈R^N×T在第t帧的拓扑矩阵，为X′∈R^N×T在第t帧的特征。

在本申请的一种实现方式中，根据所述时序帧间独立的拓扑结构下的聚合特征，和所述通道独立的拓扑结构，计算通道独立的拓扑结构下的聚合特征，包括：

将特征Y根据通道间独立的拓扑Q进行聚合，计算公式为：

其中，Z∈R^N×C′为根据通道间独立的拓扑计算出的特征,Q_c∈R^N×N为Q∈R^N×C′在第c个通道的拓扑矩阵，为Y∈R^N×C′在第c个通道的特征。

在本申请的一种实现方式中，所述聚合前后帧的特征信息的计算公式为：

Z_t′＝Z_t+Z_t+1,

其中，Z_t′为聚合后第t帧的特征，Z_t和Z_t+1分别为第t帧、第(t+1)帧的特征。

在本申请的一种实现方式中，所述最终输入特征，还通过TCN聚合时序信息。

在本申请的一种实现方式中，所述最终输入特征，从所述原始输入特征经过若干轮次的连续聚合处理完成，每一连续聚合处理依次包括：时序帧间独立的拓扑结构下的聚合特征的计算、通道独立的拓扑结构下的聚合特征的计算、聚合前后帧的特征信息以及时序信息的聚合。

第二方面，本申请提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行第一方面所述的基于骨骼的人体行为识别方法。

本发明由于采取以上技术方案，其具有以下优点：

(1)本发明提出了一种动态拓扑自适应的图卷积神经网络模型，根据人体骨骼节点数据动态地学习自适应拓扑结构，以提升模型对不同动作的建模能力和识别准确度。

(2)本发明提出了一种时序和通道协同的多维拓扑学习方法，针对不同的动作样本学习在时序和通道上独立的拓扑结构，增加了拓扑结构的特异性，从而提高模型的识别性能。

(3)本发明提出了一种相邻时序帧节点信息融合的特征优化方法，增强人体动作节点序列在时序上的依赖，提取更加丰富的动作特征，提升有效特征的整体质量。

(4)将本发明应用在基于骨骼的人体行为识别任务中，可以大幅提升模型的识别性能。

附图说明

图1是本发明的基于骨骼的人体行为识别方法的算法流程图；

图2是本发明的动态拓扑自适应图卷积神经网络模型的网络结构图；

图3是人体骨骼动作序列(握手)在单帧上的可视化结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

在本申请的一个实施例中，提供了一种基于骨骼的人体行为识别方法，其特征在于，所述方法，包括：

(1)获取样本的原始骨骼数据；

具体的，根据样本的原始骨骼数据，建立对应的图结构，所述图结构包括人体骨骼节点序列的点集和人体骨骼节点组成的人体自然连接边的边集；并根据所述边集计算表征拓扑结构的归一化的邻接矩阵。

样本数据的图结构表示为G＝(V,E),其中V＝{v_ti|t＝1,…,T,i＝1,…,N}表示点集，E＝{v_tiv_tj|(i,j)∈H}表示边集，T为序列帧数，N为节点个数，H为人体自然连接边，将边集表示为邻接矩阵并进行归一化，计算公式为：

其中，A∈R^N×N为归一化后的邻接矩阵,D∈R^N×N为度矩阵，为初始定义的邻接矩阵。

根据样本的原始输入特征中任意一对节点特征沿着时序维度的距离变化，构建基础的拓扑结构。

任意一对节点特征(x_i，x_j)沿着时序维度的距离计算公式为：

θ(x_i)＝x_iw_i,

其中，w_i,w_i为权重矩阵；m(·)为mean函数，表示取平均值。

tanh为非线性激活函数,给距离值增加非线性变换，不改变特征维度，计算公式为：

这一步可以得到拓扑结构S∈R^N×T。

时序帧间独立的拓扑结构记为K∈R^N×T，其计算公式为：

K＝S+ε·A,

具体的，将原始输入特征X∈R^N×C×T经过线性变换升高通道数目，计算公式为：

X′＝XW,

具体的，将特征Y根据通道间独立的拓扑Q进行聚合，计算公式为：

具体的，聚合前后帧的特征信息的计算公式为：

Z_t′＝Z_t+Z_t+1,

进一步的，最终输入特征，还通过TCN聚合时序信息。

最终输入特征，从所述原始输入特征经过若干轮次的连续聚合处理完成，每一连续聚合处理依次包括：时序帧间独立的拓扑结构下的聚合特征的计算、通道独立的拓扑结构下的聚合特征的计算、聚合前后帧的特征信息以及时序信息的聚合。

下面在本申请的一个更为详细的算例中，说明本申请的方法。

本发明提出的动态拓扑自适应图卷积神经网络的整体结构包含9层网络，网络的算法流程图见图1，网络结构图见图2。原始样本数据经过预处理后的特征用高维张量表示，动作样本(握手)的可视化结果示意图见图3，我们根据人体自然骨架连接结构设计初始邻接矩阵来表示节点拓扑关系。时序和通道协同的多维拓扑学习方法根据输入特征在通道和时序上的多样性动态学习新的拓扑结构，用在节点信息聚合中选择更具有特异性的信息，相邻时序帧节点信息融合的特征优化方法用来增强特征。本实施例采用大规模的NTU RGB+D动作识别数据集(NTU RGB+D:A Large Scale Dataset for 3D Human ActivityAnalysis)，包含60个种类的动作，其中11类是两人交互动作，共有56880个动作序列样本，由40名表演者从不同摄像角度采集，涉及动作种类丰富且不同动作之间差异较大。具体的实施步骤如下：

1)在本实施例中，输入特征为骨骼节点序列，每个动作对应一个序列，每帧有25个关节点的3D位置坐标，用形状为(25,3)的数组表示，在输入网络前统一将每个数组按照25个节点编号顺序转为64维的向量，即选取64帧。

2)通过预定义的人体骨骼图结构，得到初始的表达图拓扑结构的邻接矩阵归一化后的邻接矩阵为/>

3)将输入特征送入动态拓扑自适应图卷积神经网络，先由图卷积层提取骨骼节点空间信息，其中先用本发明提出的时序和通道协同的多维拓扑学习方法计算时序帧间独立的拓扑结构。针对输入特征的每一对节点特征做线性变换降低通道维度以减少参数量，沿着时序维度计算两点之间的距离，将这些距离值用非线性函数进行激活，得到一个非对称的多维拓扑矩阵，在该矩阵的基础上，用初始定义的人体骨骼邻接矩阵和一个可学习的参数进行调整，得到时序帧间独立的拓扑结构。

4)将输入特征经过线性变换后，根据3)中学习到的时序帧间独立的拓扑结构进行节点聚合，得到帧间拓扑独立下的输出特征。再将该特征根据动态学习到的通道间独立的拓扑进行聚合，得到通道间拓扑独立下的输出特征。

5)对于4)计算的特征，使用本发明提出的相邻时序帧节点信息融合的特征优化方法融合相邻帧节点特征，从而提升特征质量。

6)对于5)计算的特征，再经由一个卷积神经网络(TCN)按照在时间维度上的卷积核大小为9、节点维度上的卷积核大小为1进行卷积，进一步聚合时序信息，至此完成了一层网络结构的处理。经由9层这样的网络，最后由Softmax函数计算出60个类别的分数，分数最高的标签所对应的类别即为该动作序列的分类结果。

7)在本实施例中，执行算法的硬件配置：CPU为AMD EPYC 7282，GPU为NVIDIAA100-PCIE-40GB；软件配置：计算机操作系统为Ubuntu 18.04.6，CUDA版本为11.1，使用的神经网络框架为Pytorch，版本为1.9.0。参数设置为：初始学习率、动量和权重衰减分别为0.1、0.9和0.0004，75次训练迭代，前5个迭代使用warmup策略，学习率在第35、55个迭代衰减为原来的0.1，batchsize为64，每帧的节点数为25。其他实施例可根据所选择的数据集样本的尺寸和规模，适当调整参数。完成训练之后可得到网络权重，在测试阶段，输入待预测动作序列对其进行分类。

综上所述，本发明通过上述步骤，即可实现基于骨骼模态的人体行为识别。

为验证本发明所提方法的有效性和实用性，下面给出在NTU RGB+D大型动作识别数据集上的一个实例，该数据集有两种测试标准，X-Sub(cross-subject)指训练数据来自20个表演者，测试数据来自另外20个表演者，X-View(corss-view)指训练数据为其中两个角度的相机所拍摄，测试数据为另一个视角的相机拍摄，表格1为实例分别在两个准测下的测试集的识别结果，衡量指标为Accuracy(％)。

表1

如表1所示，本发明提出的动态拓扑自适应图卷积神经网络、时序和通道协同的多维拓扑学习方法、相邻时序帧节点信息融合的特征优化方法，在基于骨骼的人体动作识别任务中，于NTU RGB+D大型人体动作数据集上优于其他模型，证明了本发明的有效性。本发明提出的方法也可以灵活应用于其他数据集。

在本申请实施例中，还相应提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，在计算机设备执行该计算机程序时，实现本申请实施例中的所述方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例上述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上上述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于骨骼的人体行为识别方法，其特征在于，所述方法，包括：

(1)获取样本的原始骨骼数据；

2.根据权利要求1所述的基于骨骼的人体行为识别方法，其特征在于，所述计算时序帧间独立的拓扑结构，包括：

3.根据权利要求2所述的基于骨骼的人体行为识别方法，其特征在于，所述任意一对节点特征(x_i，x_j)沿着时序维度的距离计算公式为：

θ(x_i)＝x_iw_i,

其中，w_i,w_i为权重矩阵；m(·)为mean函数，表示取平均值。

4.根据权利要求3所述的基于骨骼的人体行为识别方法，其特征在于，所述时序帧间独立的拓扑结构记为K∈R^N×T，其计算公式为：

K＝S+ε·A，

5.根据权利要求4所述的基于骨骼的人体行为识别方法，其特征在于，所述根据所述原始输入特征和所述时序帧间独立的拓扑结构，计算时序帧间独立的拓扑结构下的聚合特征，包括：

X′＝XW，

6.根据权利要求5所述的基于骨骼的人体行为识别方法，其特征在于，根据所述时序帧间独立的拓扑结构下的聚合特征，和所述通道独立的拓扑结构，计算通道独立的拓扑结构下的聚合特征，包括：

将特征Y根据通道间独立的拓扑Q进行聚合，计算公式为：

其中，Z∈R^N×C′为根据通道间独立的拓扑计算出的特征，Q_c∈R^N×N为Q∈R^N×C′在第c个通道的拓扑矩阵，为Y∈R^N×C′在第c个通道的特征。

7.根据权利要求6所述的基于骨骼的人体行为识别方法，其特征在于，所述聚合前后帧的特征信息的计算公式为：

Z_t′＝Z_t+Z_t+1，

8.根据权利要求7所述的基于骨骼的人体行为识别方法，其特征在于，所述最终输入特征，还通过TCN聚合时序信息。

9.根据权利要求8所述的基于骨骼的人体行为识别方法，其特征在于，所述最终输入特征，从所述原始输入特征经过若干轮次的连续聚合处理完成，每一连续聚合处理依次包括：时序帧间独立的拓扑结构下的聚合特征的计算、通道独立的拓扑结构下的聚合特征的计算、聚合前后帧的特征信息以及时序信息的聚合。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9任一项所述的基于骨骼的人体行为识别方法。