CN111881731A

CN111881731A - 基于人体骨架的行为识别方法、系统、装置及介质

Info

Publication number: CN111881731A
Application number: CN202010552702.6A
Authority: CN
Inventors: 朱佳; 邢玉玲; 张耀斌
Original assignee: Guangdong Guochain Technology Co ltd
Current assignee: Guangdong Guochain Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-06-17
Publication date: 2020-11-03

Abstract

本申请公开了一种基于人体骨架的行为识别方法、系统、装置及介质。该方法获取所述人体骨架的时空序列数据；将所述时空序列数据输入至行为识别模型，得到行为识别结果；其中，所述行为识别模型包括第一处理单元、类激活映射单元、第二处理单元和分类单元；所述第一处理单元通过所述类激活映射单元连接至所述第二处理单元，所述第一处理单元和所述第二处理单元连接至所述分类单元。本申请实施例给出的识别方法，通过第一处理单元和第二处理单元处理两个数据流，可以提取到更加丰富、更具有辨别性的特征来进行行为识别，从而能够更加精确、有效地识别人体的行为和动作，提高了识别的准确度。本申请可广泛应用于计算机视觉技术领域内。

Description

基于人体骨架的行为识别方法、系统、装置及介质

技术领域

本申请涉及计算机视觉技术领域，尤其是一种基于人体骨架的行为识别方法、系统、装置及介质。

背景技术

当前，基于三维人体骨架的行为识别是计算机视觉中最活跃的研究领域之一。行为识别有着非常广泛的应用，例如人机交互、智能监控系统、虚拟现实、体育和医疗保健等等，这些应用是大量研究工作致力于该领域的动机之一。在这个领域中，以往关于行为识别的研究集中在传统RGB视频占主导地位的方法上，这种方法即使在场景没有混乱的情况下，它们的识别精度仍然相对较低。而传统的基于人体骨架的行为识别方法主要集中在设计代表骨架的手工特征上，随着深度学习的发展，数据驱动的方法已成为主流。在基于深度学习的方法中，使用最广泛的模型是递归神经网络(RNN)，卷积神经网络(CNN)和图卷积网络(GCN)，其中关节的坐标表示为矢量序列。与传统的RGB图像或视频进行识别的方法相比，基于骨架信息的行为识别与其他模态相比具有优势，因为它对身体比例、运动速度、相机视点和背景干扰的变化具有鲁棒性。

在基于骨架的行为识别中，对于递归神经网络(RNN)的方法，骨架序列是关节坐标位置的自然时间序列，可以看作序列向量，而RNN本身由于其独特的结构适合处理时间序列数据。此外，为了进一步提高骨架序列时间上下文的学习，一些其他的基于RNN的方法，如长短期记忆(LSTM)和门控递归单元(GRU)已经被用于基于骨架的动作识别。当使用卷积神经网络(CNN)来处理这个基于骨架的识别任务时，它可以被看作是基于RNN技术的补充，因为CNN的结构更偏向处理输入数据中的空间线索，而基于RNN的架构恰好缺少空间信息。此外，从骨架的角度来看，仅仅将骨架序列编码成序列向量或2D网格并不能完全表达相关关节之间的相关性，因为骨架数据的属性是一种自然的拓扑图结构(关节和骨架可以分别视为顶点和边)，比其他格式(如图像或序列)更适合该任务，所以近年来提出了将人体骨架建模为时空图的图卷积网络(GCN)，这种相对较新的方法取得了令人瞩目的性能。

然而，在现有的基于GCN的方法中，图的拓扑是手动设置的，并且在所有层和输入样本上都是固定的。这种做法对于分层GCN和动作识别任务中的不同样本效果可能不是最佳的。例如，在时空图卷积网络模型(ST-GCN)中，图构造过程至少存在以下缺点：(1)在ST-GCN中使用的骨架图是预定义的，并且这仅代表人体的物理结构。因此，它不能保证对于行为识别任务是最优的。例如，两只手之间的关系对于识别诸如“拍手”和“阅读”这样的类是很重要的，然而在基于人体物理结构预定义的图中，由于两只手彼此相距很远，因此GCN很难捕捉到它们之间的相关性。(2)GCN的结构是高层的，不同的层次包含多层次的语义信息。然而，应用于GCN的图的拓扑结构在所有层上都是固定的，这就缺乏灵活性和能力来建模包含在所有层中的多级语义信息；(3)一个固定的图结构对于不同动作类的所有样本可能不是最优的。对于像“擦脸”和“摸头”这样的动作，手和头之间的联系应该更紧密，但对于其他一些动作，如“跳起来”和“坐下”就不一样了。综上，现有技术存在有诸多弊端，亟需改进。

发明内容

本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种基于人体骨架的行为识别方法，通过该方法能够更加精确、有效地识别人体的行为和动作，提高了识别的准确度。

本申请实施例的另一个目的在于提供一种基于人体骨架的行为识别系统。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

第一方面，本申请实施例提供了一种基于人体骨架的行为识别方法，所述人体骨架包括多个关节，所述方法包括以下步骤：

获取所述人体骨架的时空序列数据；所述时空序列数据包括所述人体骨架的图像的连续帧个数、每帧所述图像中所述人体骨架的数量、所述人体骨架中所述关节的数量和所述关节的第一空间坐标；

将所述时空序列数据输入至行为识别模型，得到行为识别结果；

其中，所述行为识别模型包括第一处理单元、类激活映射单元、第二处理单元和分类单元；所述第一处理单元通过所述类激活映射单元连接至所述第二处理单元，所述第一处理单元和所述第二处理单元连接至所述分类单元；

所述第一处理单元包括第一池化层和若干第一时空卷积算子模块；所述第二处理单元包括第二池化层和若干第二时空卷积算子模块；

所述第一时空卷积算子模块包括依次连接的空间卷积层、第一批标准化层、第一激活层、时间卷积层、第二批标准化层和第二激活层。

另外，根据本申请上述实施例的基于人体骨架的行为识别方法，还可以具有以下附加的技术特征：

进一步地，在本申请的一个实施例中，所述方法还包括以下步骤：

根据相邻的两帧所述图像，提取所述时空序列数据的运动特征；

确定所述人体骨架的中心关节，并确定每帧所述图像中各个所述关节相对于所述中心关节的第二空间坐标；

将所述时空序列数据、所述运动特征和所述第二空间坐标融合后输入所述行为识别模型。

进一步地，在本申请的一个实施例中，所述第一处理单元包括三层64输出通道、三层128输出通道和三层256输出通道的所述第一时空卷积算子模块。

进一步地，在本申请的一个实施例中，所述第一池化层为全局平均池化层，所述分类单元采用SoftMax分类器。

进一步地，在本申请的一个实施例中，所述第一时空卷积算子模块还包括Dropout层；

所述第一激活层的输出连接至所述Dropout层，所述Dropout层的输出连接至所述时间卷积层。

进一步地，在本申请的一个实施例中，所述第一时空卷积算子模块还包括残差块。

第二方面，本申请实施例提出了一种基于人体骨架的行为识别系统，包括：

获取模块，用于获取所述人体骨架的时空序列数据；所述时空序列数据包括所述人体骨架的图像的连续帧个数、每帧所述图像中所述人体骨架的数量、所述人体骨架中所述关节的数量和所述关节的第一空间坐标；

输入模块，用于将所述时空序列数据输入至行为识别模型；

输出模块，用于输出行为识别结果；

第三方面，本申请实施例提供了一种基于人体骨架的行为识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的基于人体骨架的行为识别方法。

第四方面，本申请实施例还提供了一种介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现上述的基于人体骨架的行为识别方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请实施例通过获取人体骨架的时空序列数据，用数据驱动的方法提取不同行为类别的独特结构和特征，增大了行为识别方法的灵活性与适应性，所述行为识别模型包括第一处理单元和第二处理单元，能够处理两个的数据流，可以提取到更加丰富、更具有辨别性的特征来进行行为识别；本申请实施例能够更加精确、有效地识别人体的行为和动作，提高了识别的准确度。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为根据本申请实施例提供的一种基于人体骨架的行为识别方法的流程示意图；

图2为根据本申请实施例提供的一种基于人体骨架的行为识别方法中行为识别模型的示意图；

图3为根据本申请实施例提供的一种基于人体骨架的行为识别方法中第一时空卷积算子模块的结构示意图；

图4为根据本申请实施例提供的一种基于人体骨架的行为识别方法中第一时空卷积算子模块数据处理的示意图；

图5为根据本申请实施例提供的一种基于人体骨架的行为识别系统的结构示意图；

图6为根据本申请实施例提供的一种基于人体骨架的行为识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

下面参照附图，详细描述根据本申请实施例提出的基于人体骨架的行为识别方法和系统，首先将参照附图描述根据本申请实施例提出的基于人体骨架的行为识别方法。

参照图1，本申请实施例中提供的基于人体骨架的行为识别方法，人体骨架包括多个人体骨架，人体骨架包括多个关节，方法主要包括以下步骤：

S1、获取人体骨架的时空序列数据；

本申请实施例中，首先，可以从连续拍摄的视频中，通过对里面的图像帧进行处理得到人体骨架的时空序列数据，该时空序列数据的结构为C×T×N×M。其中，C表示一帧图像中每个关节的3D空间坐标，T是一组时空序列数据所对应视频片段的图像帧数量，N是一帧图像中各个人体骨架的关节数量，M是一帧图像中的人体骨架数量。具体地，该时空序列数据可以基于包括深度传感器的视频拍摄工具采集，例如Kinect相机，其可以捕捉实时的RGB图像和深度图像组成的视频，并且有公开可用的工具包，用于从视频的每一帧中计算得到人体骨架模型。而且实质上，上述的时空序列数据是将人体动作表示为主要关节的坐标序列，也可以很容易地由姿势估计算法捕获。本申请实施例中,深度图像指的是包含与视点的场景对象表面距离有关的信息的图像或图像通道，其类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离，深度图像也可称为深度图(Depth Map)。

参照图2，本申请实施例中，在获取到上述的时空序列数据后，还可以进行相应的预处理工作，以提取更多的特征信息，方便神经网络模型的进一步处理。具体地，可以对相邻的两帧的图像提取行为中的运动特征，具体的公式为：x_t＝x[t+1]-x[t]，其中x[t+1]表示第t+1帧对应的人体骨架的空间数据，x[t]表示第t帧对应的人体骨架的空间数据，两者作差即可得到时空序列数据中的运动特征。其次，还可以选择计算每个图像帧中所有关节和中心关节(中心躯干)之间相对的空间坐标数据x_r，当然，这里应当首先确定人体骨架的中心关节，例如可以选择人体躯干中的某个关节作为中心关节。由此，经过预处理后的时空序列数据得到了运动特征和空间坐标数据x_r，可以将三者融合后输入到神经网络模型中进行处理，以提高识别的精度和处理效率。

S2、将时空序列数据输入至行为识别模型，得到行为识别结果；

参照图2，本申请实施例中，经过预处理后的时空序列数据输入至行为识别模型，具体地，该输入分为第一数据流和第二数据流，两者的数据内容一致，第一数据流通过行为识别模型的第一处理单元、类激活映射单元后做掩码操作，输入到第二处理单元和第二数据流一并处理。具体地，第一处理单元包括一个批标准化层(BN层)，用于对输入的数据进行归一化处理，随后将归一化后的数据通过若干第一时空卷积算子模块以获得基于骨架关节的特征向量，本申请实施例中，行为识别模型的第一处理单元具体是由9个第一时空卷积算子模块叠加组成，其中前三层的第一时空卷积算子模块有64个输出通道，中间三层的第一时空卷积算子模块有128个输出通道，最后三层的第一时空卷积算子模块有256个输出通道。每一个第一时空卷积算子模块都可以应用Resnet机制，即使用残差块来保证行为识别模型的稳定性。

可选地，本申请实施例还可以在第四个和第七个第一时空卷积算子模块设置步长为2的池化层。经过第一时空卷积算子模块对数据进行处理后，第一处理单元的第一池化层可以对输出的张量进行全局平均池化(GAP)，以获得256维特征向量。然后，对第一数据流进行激活操作并送入到第二处理单元。在第二处理单元中，首先将掩码矩阵初始化为与输入数据大小相同的全1矩阵，将输入数据与掩码矩阵求元素积，以此来过滤、筛选出由第一数据流经过类激活映射单元后得到的还未识别的关节。此处，类激活映射单元使用的是类激活图技术，其根据得到的权重会标记被激活识别的区域，用来区分上一数据流已激活了的关节。上一数据流获得的激活图得到的掩码矩阵，可以用于通知下一流哪些关节已经被激活。然后，下一数据流在处理时可以强制捕获那些未激活关节的有辨别性的特征。在掩码操作之后，第二数据流最终的输入数据仅包含未激活的关节，该数据将被送到第二处理单元的批标准化层(BN)并在第二处理单元再次重复刚才在第一处理单元中进行的操作。最后，把两个数据流的特征连接起来，将它们输入到SoftMax分类器中进行分类，便可以得到人体的行为识别结果。在上述行为识别模型进行训练时，可以使用随机梯度下降法学习模型，学习率为0.01。

参照图3，下面对本申请实施例中的第一时空卷积算子模块进行详细说明。

本申请实施例的第一时空卷积算子模块如图3所示，其基本的原理是使用时空序列数据沿着空间维度和时间维度对这些人体骨架的关节之间的结构化信息进行建模，包括依次连接的空间卷积层、第一批标准化层、第一激活层、Dropout层、时间卷积层、第二批标准化层和第二激活层。其中时间卷积层可以与现有的时空图卷积网络模型(ST-GCN)保持相同，其作用为在C×T×N的特征图上执行Kt×1卷积处理。空间卷积层和时间卷积层之后都是一个批标准化层和一个ReLU激活层。在空间卷积层和时间卷积层之间，还包括一个附加的Dropout层，Dropout层可以以0.5的概率随机剔除一些特征，从而有效减少过拟合情况的发生。为了模型训练的稳定，还可以为每个第一时空卷积算子模块添加一个残差连接。

参照图4，图4中示出的是第一时空卷积算子模块中具体执行的数据处理流程，其中，f_in代表输入，C_in为输入通道数，N是一个人体骨架中的关节数量，T是一组时空序列数据所对应视频片段的图像帧数量。θ和

为两个嵌入函数，C_out为输出通道数，f_out为输出。本申请实施例中采用的是一个自适应图卷积层，它以端到端的学习方式使图的拓扑与网络的其他参数一起优化，这极大地增加了行为识别模型的灵活性。同时，还设计了残差分支，保证了模型的稳定性，如果输入通道的数量不等于输出通道的数量，则可以在残差路径中插入1×1卷积(图4中带虚线的框)以变换输入，使其与输出通道维度相匹配。

为了使图结构与不同的样本进行自适应，可以将矩阵Ak、矩阵Bk和矩阵Ck相加。这样，可以在不降低原始性能的情况下增强模型的灵活性。方程为以下形式：

其中，第一部分Ak：与原始归一化N×N邻接矩阵Ak相同，它代表了人体的物理结构；第二部分Bk也是一个N×N邻接矩阵，与Ak相比，Bk的元素在训练过程中与其他参数一起被参数化和优化，Bk的值没有限制，这意味着该图完全是根据训练数据学习的。通过这种数据驱动的方式，模型可以学习针对具体识别任务的图，并且对于不同层中包含的不同信息更加个性化。这里需要注意，由于矩阵中的元素可以是任意值，它不仅表明两个顶点之间存在连接，而且表明连接的强度。

第三部分Ck是一个依赖于数据的图，它为每个样本学习一个唯一的图。为了确定两个顶点之间是否存在连接以及连接有多强，可以使用嵌入高斯函数归一化来计算两个顶点的相似度：

其中N是顶点的总数，使用点积来度量嵌入空间中两个顶点的相似性。详细地说，首先选择一个1×1卷积层作为两个嵌入函数，即θ和

将它嵌入到输入特征映射图π×t×N中。这两个嵌入的特征映射被重新排列并重新成形为一个N×CeT矩阵和一个CeT×N矩阵。然后将它们相乘以获得一个N×N相似性矩阵Ck，其元素Cij表示顶点vi和顶点vj的相似性。矩阵的值归一化为0-1，用作两个顶点的软边。然后在再对其进行SoftMax运算，具体可以根据如下所示的公式计算Ck：

可选地，由于本申请实施例中，第一流数据在第一处理单元的处理过程和第二流数据在第二处理单元的处理过程是类似地，所以上述用于第一时空卷积算子模块的技术内容同样适用于第二时空卷积算子模块。

为了验证本申请提出的行为识别方法性能，采用了大规模数据集NTU RGB+D对现有的时空图卷积网络模型(ST-GCN)和本申请提出的模型进行了对比。NTU RGB+D是目前最大和使用最广泛的室内捕捉动作识别数据集，该数据集提供了由Kinect深度传感器检测到的每帧的3D关节位置。它一共包含56880个视频样本，这是由在10到35岁的不同年龄组共40名志愿者执行的60个动作(比如喝水、穿外套、读书等)。每一个动作都由3个高度相同但水平角度不同(-45°，0°，45°)的摄像机拍摄而成。每个人的骨架序列数据中有25个关节，并且每个视频不超过2人。为了方便测试起见，最大帧数T设置为300。具体地，采用两个基准进行对比：(1)交叉主题(CS)包含40320和16560个训练和评估样本，将40个人分成训练和评估组；(2)交叉视图(CV)包含37920和18960个样本，采用三个摄像机，使用其中两个摄像机进行训练，另一个摄像机进行评估。最终得到的结果为，在交叉主题的基准下，时空图卷积网络模型(ST-GCN)的行为识别准确度为81.5％，而本申请中的方法则达到了85.2％；在交叉视图的基准下，时空图卷积网络模型(ST-GCN)的行为识别准确度为88.3％，而本申请中的方法则达到了91.6％。可以看出，相对于现有技术，本申请实施例提供的行为识别方法提高了识别的准确度，能够得到精度更高的结果。

其次，参照附图描述根据本申请实施例提出的基于人体骨架的行为识别系统。

图5是本申请一个实施例的基于人体骨架的行为识别系统结构示意图。

人体骨架包括多个人体骨架，人体骨架包括多个关节，系统具体包括：

获取模块101，用于获取人体骨架的时空序列数据；时空序列数据包括人体骨架的图像的连续帧个数、每帧图像中人体骨架的数量、人体骨架中关节的数量和关节的第一空间坐标；

输入模块102，用于将时空序列数据输入至行为识别模型；

输出模块103，用于输出行为识别结果；

其中，行为识别模型包括第一处理单元、类激活映射单元、第二处理单元和分类单元；第一处理单元通过类激活映射单元连接至第二处理单元，第一处理单元和第二处理单元连接至分类单元；

第一处理单元包括第一池化层和若干第一时空卷积算子模块；第二处理单元包括第二池化层和若干第二时空卷积算子模块；

第一时空卷积算子模块包括依次连接的空间卷积层、第一批标准化层、第一激活层、时间卷积层、第二批标准化层和第二激活层。

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图6，本申请实施例提供了一种基于人体骨架的行为识别装置，包括：

至少一个处理器201；

至少一个存储器202，用于存储至少一个程序；

当至少一个程序被至少一个处理器201执行时，使得至少一个处理器201实现的基于人体骨架的行为识别方法。

同理，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本申请实施例还提供了一种存储介质，其中存储有处理器201可执行的指令，处理器201可执行的指令在由处理器201执行时用于执行的基于人体骨架的行为识别方法。

同理，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的物体销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件物体的形式体现出来，该计算机软件物体存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于所述实施例，熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于人体骨架的行为识别方法，所述人体骨架包括多个关节，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于人体骨架的行为识别方法，其特征在于，所述方法还包括以下步骤：

3.根据权利要求1所述的一种基于人体骨架的行为识别方法，其特征在于：所述第一处理单元包括三层64输出通道、三层128输出通道和三层256输出通道的所述第一时空卷积算子模块。

4.根据权利要求1所述的一种基于人体骨架的行为识别方法，其特征在于：所述第一池化层为全局平均池化层，所述分类单元采用SoftMax分类器。

5.根据权利要求1至4中任一项所述的一种基于人体骨架的行为识别方法，其特征在于：所述第一时空卷积算子模块还包括Dropout层；

6.根据权利要求1至4中任一项所述的一种基于人体骨架的行为识别方法，其特征在于：所述第一时空卷积算子模块还包括残差块。

7.一种基于人体骨架的行为识别系统，所述人体骨架包括多个关节，其特征在于，包括：

输入模块，用于将所述时空序列数据输入至行为识别模型；

输出模块，用于输出行为识别结果；

8.一种基于人体骨架的行为识别装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-6中任一项所述的方法。