CN112446253A

CN112446253A - 一种骨架行为识别方法及装置

Info

Publication number: CN112446253A
Application number: CN201910817839.7A
Authority: CN
Inventors: 杨凯
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-03-05

Abstract

本发明提供了一种骨架行为识别方法及装置，涉及行为识别技术领域。该骨架行为识别方法，包括：根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据；根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息；获取骨骼序列的时间特征信息；根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为；其中，所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。上述方案，通过对骨架序列的多个特征进行提取，可以提高骨架行为识别的准确性。

Description

一种骨架行为识别方法及装置

技术领域

本发明涉及行为识别技术领域，特别涉及一种骨架行为识别方法及装置。

背景技术

骨架序列行为识别采用深度摄像头(如微软的Kinect，Intel的Real sensor等)或姿态估计算法(如CMU的openpose算法)直接提取人体关键点骨骼序列数据，基于骨骼序列利用深度学习的技术研究人体行为的分类。从视频中提取人体的关节坐标信息可大大降低了需要处理的数据量，也降低了对计算资源的需求。因此基于骨骼序列的行为识别算法，往往具有更好的实时性能。基于人体骨骼关键点的表达方式，排除了大量原始视频中的冗余信息，有利于提升行为识别的准确率。

现有的基于骨架序列的行为识别包括：基于手工提取特征的行为识别方法、基于循环神经网络(RNN)/长短期记忆网络(LSTM)的骨架序列行为识别方法和基于图卷积的骨架序列行为识别方法三类。

针对基于手工提取特征的行为识别方法主要存在下列问题：在不同视角下，同一规则很难适用，例如：在不同视角获取的骨骼关键点数据可能会有差别，造成误判；在识别不同行为时，需要制定很复杂的规则，才可以区分相近的动作，规则的制定过程复杂，很多时候很难制定明确的判定规则。

基于RNN/LSTM的骨架序列行为识别方法基于机器学习方法，具有泛化能力强，识别种类多，准确率相对较高等特性；但是其也存在下列问题：人体的骨骼节点存在关节连接结构和信息，在RNN/LSTM中，数据被直接当作时间序列的向量处理，没有考虑骨骼节点的连接结构信息，容易导致识别结果不准确。

基于图卷积的骨架序列行为识别方法利用图数据完成了对骨骼序列数据的描述，描述过程考虑了关节的连接信息，通过图卷积的方式来构建学习网络，较好的提升了模型性能；但是因其提取的粒度较为粗糙，不能较好的保证行为识别的准确性。

发明内容

本发明实施例提供一种骨架行为识别方法及装置，以解决现有的骨架序列行为识别方式，均只是针对单一的特征进行提取，不能充分的提取特征信息，限制了识别准确率的问题。

为了解决上述技术问题，本发明实施例提供一种骨架行为识别方法，包括：

根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据；

根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息；

获取骨骼序列的时间特征信息；

根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为；

其中，所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。

可选地，所述根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据，包括：

利用多个多层感知机网络映射关系，将骨骼序列的原始输入特征变换为粗粒度图数据；

其中，

X_c为粗粒度图数据；R为实数；N为骨骼序列的个数；C为坐标通道；T为时间帧的个数；V_c为粗粒度图数据中每个骨骼序列的关键点的个数。

进一步地，所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。

可选地，所述根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息，包括：

根据所述原始输入特征，确定骨骼序列的细粒度空间特征数据；

根据所述粗粒度图数据，确定骨骼序列的粗粒度空间特征数据；

根据所述细粒度空间特征数据和所述粗粒度空间特征数据，确定骨骼序列的空间特征信息。

进一步地，所述根据所述原始输入特征，确定骨骼序列的细粒度空间特征数据，包括：

将所述原始输入特征输入到多层带跳接的图卷积网络，提取骨骼序列的细粒度空间特征数据。

具体地，所述细粒度空间特征数据在图卷积网络的层间传递方式为：

根据公式：

进行细粒度空间特征数据在图卷积网络的层间传递；

其中，

为第l+1层的细粒度空间特征数据；

为第l层的细粒度空间特征数据；σ(*)为激活函数；A_f为细粒度空间特征数据对应的图的邻接矩阵；Λ_f为A_f对应的特征值的对角矩阵；W_f ^(l)为第l层的图卷积网络的训练权重。

进一步地，所述根据所述粗粒度图数据，确定骨骼序列的粗粒度空间特征数据，包括：

将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中，提取骨骼序列的粗粒度空间特征数据。

具体地，所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为：

根据公式：

进行粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递；

其中，

为第l+1层的粗粒度空间特征数据；

为第l层的粗粒度空间特征数据；σ(*)为激活函数；A_c为粗粒度空间特征数据对应的图的邻接矩阵；Λ_c为A_c对应的特征值的对角矩阵；W_c ^(l)为第l层的多层粗粒度图卷积网络的训练权重。

进一步地，所述根据所述细粒度空间特征数据和所述粗粒度空间特征数据，确定骨骼序列的空间特征信息，包括：

根据公式：H＝concat(H_f,H_c)，确定骨骼序列的空间特征信息；

其中，H为骨骼序列的空间特征信息；H_f为细粒度空间特征数据；H_c为粗粒度空间特征数据；concat(*)为连接函数。

可选地，所述获取骨骼序列的时间特征信息，包括：

获取每个时间帧的骨骼序列对应的注意力加权值；

根据所述注意力加权值，获取每个时间帧的骨骼序列的时间特征信息。

进一步地，所述获取每个时间帧的骨骼序列对应的注意力加权值，包括：

获取每个时间帧的骨骼序列对应的速度特征；

根据所述速度特征，确定每个时间帧的骨骼序列的注意力特征；

根据所述注意力特征，获取每个时间帧的骨骼序列的注意力加权值。

具体地，所述获取每个时间帧的骨骼序列对应的速度特征，包括：

根据公式：x_t-x_t-1，确定每个时间帧的骨骼序列对应的速度特征；

其中，x_t为第t个时间帧的骨骼序列；x_t-1为第t-1个时间帧的骨骼序列。

具体地，所述根据所述速度特征，确定每个时间帧的骨骼序列的注意力特征，包括：

利用双向长短记忆网络对速度特征进行提取，获取每个时间帧的骨骼序列的注意力特征。

具体地，所述根据所述注意力特征，获取每个时间帧的骨骼序列的注意力加权值，包括：

将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射，获取每个时间帧的骨骼序列的注意力加权值。

具体地，所述根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为，包括：

将所述时间特征信息和所述空间特征信息输入全连接层，获取骨骼序列对应的分类得分向量；

对所述分类得分向量进行归一化处理，获取骨骼序列对应的每一分类的概率；

确定骨骼序列对应的分类的概率最大的第一分类，将所述第一分类确定为骨骼序列对应的骨架行为。

本发明实施例还提供一种骨架行为识别装置，包括：

第一获取模块，用于根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据；

第二获取模块，用于根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息；

第三获取模块，用于获取骨骼序列的时间特征信息；

确定模块，用于根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为；

可选地，所述第一获取模块，用于：

其中，

具体地，所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。

可选地，所述第二获取模块，包括：

第一确定单元，用于根据所述原始输入特征，确定骨骼序列的细粒度空间特征数据；

第二确定单元，用于根据所述粗粒度图数据，确定骨骼序列的粗粒度空间特征数据；

第三确定单元，用于根据所述细粒度空间特征数据和所述粗粒度空间特征数据，确定骨骼序列的空间特征信息。

进一步地，所述第一确定单元，用于：

根据公式：

进行细粒度空间特征数据在图卷积网络的层间传递；

其中，

为第l+1层的细粒度空间特征数据；

进一步地，所述第二确定单元，用于：

根据公式：

其中，

为第l+1层的粗粒度空间特征数据；

进一步地，所述第三确定单元，用于：

根据公式：H＝concat(H_f,H_c)，确定骨骼序列的空间特征信息；

可选地，所述第三获取模块，包括：

第一获取单元，用于获取每个时间帧的骨骼序列对应的注意力加权值；

第二获取单元，用于根据所述注意力加权值，获取每个时间帧的骨骼序列的时间特征信息。

进一步地，所述第一获取单元，包括：

第一获取子单元，用于获取每个时间帧的骨骼序列对应的速度特征；

确定子单元，用于根据所述速度特征，确定每个时间帧的骨骼序列的注意力特征；

第二获取子单元，用于根据所述注意力特征，获取每个时间帧的骨骼序列的注意力加权值。

具体地，所述第一获取子单元，用于：

具体地，所述确定子单元，用于：

具体地，所述第二获取子单元，用于：

具体地，所述确定模块，包括：

第三获取单元，用于将所述时间特征信息和所述空间特征信息输入全连接层，获取骨骼序列对应的分类得分向量；

第四获取单元，用于对所述分类得分向量进行归一化处理，获取骨骼序列对应的每一分类的概率；

第四确定单元，用于确定骨骼序列对应的分类的概率最大的第一分类，将所述第一分类确定为骨骼序列对应的骨架行为。

本发明实施例还提供一种骨架行为识别装置，包括收发机和处理器；

所述处理器，用于根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据；

获取骨骼序列的时间特征信息；

可选地，所述处理器执行所述根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据时，用于实现：

其中，

可选地，所述处理器执行所述根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息时，用于实现：

进一步地，所述处理器执行所述根据所述原始输入特征，确定骨骼序列的细粒度空间特征数据时，用于实现：

根据公式：

进行细粒度空间特征数据在图卷积网络的层间传递；

其中，

为第l+1层的细粒度空间特征数据；

进一步地，所述处理器执行所述根据所述粗粒度图数据，确定骨骼序列的粗粒度空间特征数据时，用于实现：

根据公式：

其中，

为第l+1层的粗粒度空间特征数据；

进一步地，所述处理器执行所述根据所述细粒度空间特征数据和所述粗粒度空间特征数据，确定骨骼序列的空间特征信息时，用于实现：

根据公式：H＝concat(H_f,H_c)，确定骨骼序列的空间特征信息；

可选地，所述处理器执行所述获取骨骼序列的时间特征信息时，用于实现：

获取每个时间帧的骨骼序列对应的注意力加权值；

进一步地，所述处理器执行所述获取每个时间帧的骨骼序列对应的注意力加权值时，用于实现：

获取每个时间帧的骨骼序列对应的速度特征；

具体地，所述处理器执行所述获取每个时间帧的骨骼序列对应的速度特征时，用于实现：

具体地，所述处理器执行所述根据所述速度特征，确定每个时间帧的骨骼序列的注意力特征时，用于实现：

具体地，所述处理器执行所述根据所述注意力特征，获取每个时间帧的骨骼序列的注意力加权值时，用于实现：

具体地，所述处理器执行所述根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为时，用于实现：

本发明实施例还提供一种骨架行为识别装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的骨架行为识别方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的骨架行为识别方法中的步骤。

本发明的有益效果是：

上述方案，通过先获取骨骼序列的粗粒度图数据，然后根据粗粒度图数据和原始输入特征，获取骨骼序列的空间特征信息，还需要获取骨骼序列的时间特征信息，最后根据时间特征信息和空间特征信息，确定所述骨骼序列所对应的骨架行为；通过对骨架序列的多个特征进行提取，可以提高骨架行为识别的准确性。

附图说明

图1表示人体骨骼关键节点示意图；

图2表示本发明实施例的骨架行为识别方法的流程示意图；

图3表示获取粗粒度图数据的网络架构图；

图4表示获取空间特征信息的网络架构图；

图5表示时间特征提取的过程示意图；

图6表示本发明实施例的总体网络架构图；

图7表示本发明实施例的骨架行为识别装置的模块示意图。

具体实施方式

下面先对现有的基于骨架序列的行为识别方式进行简要介绍如下：

一、基于手工提取特征的行为识别方法

该方法，采用一些人工制定的规则来完成行为识别。例如：根据人体重心相关的骨骼关键点持续降低的规则，来识别人体发生了摔倒。

二、基于循环神经网络(RNN)/长短期记忆网络(LSTM)的骨架序列行为识别方法

人体识别的骨骼序列可以表达为时间序列的骨骼坐标数据帧，该方案采用RNN/LSTM，在大规模行为识别训练数据集上对网络进行训练，完成分类识别工作。

三、基于图卷积的骨架序列行为识别方法

如图1所示，人体关键点骨骼节点的连接关系自然形成了类似图的结构，因此采用图数据对人体关键点(即关键节点)进行描述可以更加完整的表述人体的行为信息。人体骨骼由关节和连接关节的骨骼构成。它们分别对应到图数据结构的顶点和边。因此人体骨骼数据可以描述为无向图G＝(V，E)，其中V代表顶点集，即所有骨骼关键点。E代表“边集”，即骨骼关节连接的边(骨骼)构成的集合。图卷积过程将通用的二维卷积扩展到了图数据领域，考虑到了人体关节的连接结构，因此在卷积过程中可以提取更多信息，取得更好的性能。

而本发明针对现有的骨架序列行为识别方式，均只是针对单一的特征进行提取，不能充分的提取特征信息，限制了识别准确率的问题，提供一种骨架行为识别方法及装置。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

如图2所示，本发明实施例的骨架行为识别方法，包括：

步骤21，根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据；

步骤22，根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息；

步骤23，获取骨骼序列的时间特征信息；

步骤24，根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为。

需要说明的是，上述的获取时间特征信息和空间特征信息的步骤没有明显的时间先后顺序，可以先获取空间特征信息再获取时间特征信息，也可以是先获取时间特征信息再获取空间特征信息，还可以是获取空间特征信息和获取时间特征信息为并列执行的过程。

需要说明的是，该原始输入特征为包含多个骨骼序列的样本数据，该样本数据中，每一个骨骼序列对应一个时间帧；具体地，该原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系，可以通过深度摄像头(如微软的Kinect，Intel的Real sensor等)或姿态估计算法对视频中的人体关键点骨骼序列数据进行提取，得到原始输入特征数据，该原始输入特征数据因包含较多的关键点坐标数据可以称为细粒度图数据，也就是说，步骤11是根据细粒度图数据获取粗粒度图数据的过程。

下面对获取空间域特征进行具体说明如下。

进一步地，步骤11的具体实现方式为：

利用多个多层感知机网络(MLP)映射关系，将骨骼序列的原始输入特征变换为粗粒度图数据；

其中，

也就是说，此步骤中，实现的是将人体的6个部件(即头、躯干和四肢)重新定义为一个部件图的描述，即G_c＝(V_c，E_c)，其中，V_c表示部件图的关键点，E_c表示连接关键点的边。细粒度图数据X∈R^N×C×T×V，其中，V表示细粒度图数据中每个骨骼序列的关键点的个数，经过多个多层感知机网络的映射，最终得到粗粒度图数据；具体实现如图2所示，在多个多层感知机网络中，将每个骨骼序列中的关键点，分别进行头、躯干、四肢六个部件的划分，将每个部件中包含的关键点进行映射，最终将一个部件所包含的多个关键点映射为一关键点，具体地，上述的映射过程采用了一个3个3层的MLP网络，每个MLP网络分别提取数据3维点的一个通道(x或y或z)的坐标。对应每个部件内数据点为(Xi，Yi，Zi)分别对应3D坐标。针对每一帧的数据，MLP可以提取为一个整体的部件点的数据(X，Y，Z)，MLP对应的输入神经元个数为部件内关键节点的个数，输出神经元数量为1，代表部件节点数据的个数，整个MLP完成了一个从部件内多个关键点到代表部件的一个关键点的数据压缩过程；经过如图3所示的处理后，最终将一个包含多个关键点的骨骼序列映射为只包含6个关键点的骨骼序列，需要说明的是，图3中是以具有3个骨骼序列为例，在进行处理时，也是针对每个骨骼序列进行的。

在进行粗粒度图数据提取后，便是进行骨骼序列的空间特征信息的获取，也就是说获取空间域特征，具体地实现方式为：

需要说明的是，获取细粒度空间特征数据和获取粗粒度空间特征数据的过程可以是并列进行的过程。

具体地，所述根据所述原始输入特征，确定骨骼序列的细粒度空间特征数据的方式为：

需要说明的是，本发明实施例中采用频域图卷积的方法完成图卷积的运算，为了降低计算的复杂度，对特征值分解过程采用了切比雪夫1阶多项式进行近似计算。通过简化，所述细粒度空间特征数据在图卷积网络的层间传递方式为：

根据公式：

进行细粒度空间特征数据在图卷积网络的层间传递；

其中，

为第l+1层的细粒度空间特征数据；

具体地，所述根据所述粗粒度图数据，确定骨骼序列的粗粒度空间特征数据，包括：

同时为了降低计算的复杂度，对特征值分解过程采用了切比雪夫1阶多项式进行近似计算。通过简化，所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为：

根据公式：

其中，

为第l+1层的粗粒度空间特征数据；

根据公式：H＝concat(H_f,H_c)，确定骨骼序列的空间特征信息；

也就是说，在空间特征提取阶段，本发明实施例采用一种端到端的粗、细粒度图数据卷积相结合的双流骨骼序列空间特征提取结构。如图4所示，骨骼序列样本数据以细粒度关键节点的图数据(即细粒度图数据)形式送入到多层带跳接的图卷积网络(GCN)提取细粒度空间特征数据H_f；另外，原始的样本数据(即细粒度图数据)通过多层感知机网络MLP提取出对应的粗粒度图数据X_c送入到带跳接的多层粗粒度图卷积网络中，提取出粗粒度空间特征数据H_c；且粗、细粒度图数据提取网络采用了并行的方式分别提取特征，并最终连接形成总的骨骼序列的空间特征信息H。

下面对获取时间域特征进行具体说明如下。

具体地，获取时间域特征的实现方式为：

获取每个时间帧的骨骼序列对应的注意力加权值；

进一步需要说明的是，本发明实施例中获取注意力加权值的具体实现方式为：

首先，获取每个时间帧的骨骼序列对应的速度特征；

需要说明的是，本发明实施例中采用公式：x_t-x_t-1，来确定每个时间帧的骨骼序列对应的速度特征；

需要说明的是，本实施例中是将前后两个时间帧中的相同关键点的位置变化作为速度特征。

其次，根据所述速度特征，确定每个时间帧的骨骼序列的注意力特征；

需要说明的是，本发明实施例中，利用双向长短记忆网络(Bi-LSTM)对速度特征进行提取，获取每个时间帧的注意力特征，即速度特征作为时间序列被送入标准的Bi-LSTM中，最终输出时间域的骨骼序列的注意力特征，需要说明的是，较单向的LSTM而言，Bi-LSTM能更好地捕获输入特征中上下文的信息，速度特征作为时间序列，提取到的速度特征St作为时间序列送入Bi-LSTM完成时间特征的提取。

最后，根据所述注意力特征，获取每个时间帧的骨骼序列的注意力加权值；

需要说明的是，本发明实施例中，将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射，获取每个时间帧的骨骼序列的注意力加权值。

需要说明的是，在得到每个时间帧的注意力加权值后，将该加权值与每个时间帧的骨骼序列进行相乘运算，得到加权后的特征信息，然后将该特征信息利用长短记忆网络进行提取，得到整个样本(需要说明的是，本发明实施例中，一个样本包括多个骨骼序列)的骨骼序列的时间特征信息。

具体地，在时间特征提取阶段，本发明实施例设计了一种新的基于多特征注意力的时间域骨骼序列信息提取方式。如图5所示，该提取方式的主提取模型是上面通道的LSTM网络，将输入特征x_t(即原始输入特征)通过主网络LTSM的提取后输出提取后的特征y_t。为了更好的提取关键时段的信息，本发明实施例设计了一种新的注意力门机制(图5中虚线部分所示)，与传统的注意力门机制不同，该结构综合采用了骨骼序列的坐标特征(即x_t)和速度特征x_t-x_t-1(即骨骼序列的前后两帧的差分)来产生注意力加权α_t，利用该注意力加权α_t对输入的时间帧数据进行加权，得到加权后的特征信息x_ta，利用该x_ta得到y_t的具体计算公式为：y_t＝LSTM(x_ta)，LSTM(*)为长短记忆网络提取函数。

需要说明的是，为了提升对于速度特征的提取效率，采用了Bi-LSTM提取速度域注意力特征h_v，将x_t和h_v通过全连接层(FC Layer)融合在一起，融合后的特征通过激活层(RELU)实现非线性映射，最终得到注意力加权α_t；具体地计算公式为：α_t＝RELU(w1*x_t+w2*h_v+b)。其中，w1、w2为权重，b为偏置，RELU(*)为非线性映射函数。

需要说明的是，本发明实施例所采用的注意力门机制能够较好的提取时间域信息，进而能够提高骨架行为识别的准确性。

最后需要说明的是，通过网络空间和时间阶段的特征提取，得到了骨架行为序列样本的时间域特征和空间域特征；基于该时间域特征和空间域特征可以确定所述骨骼序列所对应的骨架行为，本发明实施例中采用如下方式进行骨架行为的确定：

将所述时间特征信息和所述空间特征信息输入全连接层，获取骨骼序列对应的分类得分向量；对所述分类得分向量进行归一化处理，获取骨骼序列对应的每一分类的概率；确定骨骼序列对应的分类的概率最大的第一分类，将所述第一分类确定为骨骼序列对应的骨架行为。

具体地，将提取到的时间域特征和空间域特征，送到全连接层，将输出特征降低到分类所需类别维度c，得到分类得分向量S(维度为c)，然后通过softmax(归一化指数)函数可以得到该分类得分向量S相对每个类别的归一化分类得分向量D(维度为c)，该归一化分类得分向量D对应每一类别的得分，需要说明的是，由该归一化分类得分向量D可以得到骨骼序列对应的每一分类的概率，选择D中得分最大的那一类作为识别的分类结果，例如，由归一化分类得分向量D确定的骨骼序列对应的分类A(对应爬坡)的概率为0.5、对应的分类B(对应跌倒)的概率为0.65，对应的分类C(对应跑步)的概率为0.85，因分类C的概率最大，则最终确定骨架行为属于分类C，即骨架行为对应跑步。

具体地，该softmax函数可以采用如下公式实现：S_i＝eⁱ/∑_j e^j，其中，i、j取值为{1，2,…,c}，S_i表示样本属于第i类的得分。

这里需要说明的是，softmax函数是深度学习里完成分类的通用方法，它产生了输出特征对应各分类的概率，选择所属概率最大的那一类作为识别的分类。

下面对本发明实施例的实现方式进行具体说明如下：

如图6所示，本发明实施例的基于人体骨骼序列进行行为识别的神经网络架构可以分为“粗粒度图数据提取”、“空间特征提取”、“时间特征提取”和“分类”4个阶段。

在粗粒度图数据提取阶段，采用了多层感知机网络对细粒度图数据中的部件节点数据进行提取，生成对应粗粒度图中的部件节点数据；然后，将细粒度图数据和粗粒度图数据分别送入两个并行的图卷积网络进行空间信息提取，通过并行提取可以得到细粒度关键点特征和粗粒度部件顶点特征，这两类特征通过连接的方式进行融合；融合后送入LSTM进行时间特征提取；最后，将提取的时间特征数据和空间特征数据通过softmax层完成分类输出。

本发明实施例提出了一种新的端到端粗、细粒度时空图卷积骨骼行为识别网络架构，与现有行为识别方法相比，其主要具有以下优点：

在空间域，新设计了关于人体部件的图描述结构，并给出了自动提取人体部件结构的图描述方法；新设计了粗、细粒度图描述并行的空间域特征提取网络结构，可以更好的综合基于部件图和关键点图提取空间域的特征；

在时间域，综合各帧数据的位置和速度信息，对送入主网络的数据进行注意力加权，可以更有效的提取时间域的信息。

综上可知，本发明实施例通过从空间和时间两个层面对特征进行提取，丰富了特征提取的维度，增强了骨架行为识别的准确性。

如图7所示，本发明实施例的骨架行为识别装置70，包括：

第一获取模块71，用于根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据；

第二获取模块72，用于根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息；

第三获取模块73，用于获取骨骼序列的时间特征信息；

确定模块74，用于根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为；

可选地，所述第一获取模块71，用于：

其中，

可选地，所述第二获取模块72，包括：

进一步地，所述第一确定单元，用于：

根据公式：

进行细粒度空间特征数据在图卷积网络的层间传递；

其中，

为第l+1层的细粒度空间特征数据；

进一步地，所述第二确定单元，用于：

根据公式：

其中，

为第l+1层的粗粒度空间特征数据；

进一步地，所述第三确定单元，用于：

根据公式：H＝concat(H_f,H_c)，确定骨骼序列的空间特征信息；

可选地，所述第三获取模块73，包括：

进一步地，所述第一获取单元，包括：

具体地，所述第一获取子单元，用于：

具体地，所述确定子单元，用于：

具体地，所述第二获取子单元，用于：

具体地，所述确定模块74，包括：

需要说明的是，本发明实施例提供的装置是能够执行上述骨架行为识别方法的装置，则上述骨架行为识别方法实施例中的所有实现方式均适用于该装置，且均能达到相同或相似的有益效果。

获取骨骼序列的时间特征信息；

其中，

根据公式：

进行细粒度空间特征数据在图卷积网络的层间传递；

其中，

为第l+1层的细粒度空间特征数据；

根据公式：

其中，

为第l+1层的粗粒度空间特征数据；

根据公式：H＝concat(H_f,H_c)，确定骨骼序列的空间特征信息；

获取每个时间帧的骨骼序列对应的注意力加权值；

获取每个时间帧的骨骼序列对应的速度特征；

本发明实施例还提供一种骨架行为识别装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的骨架行为识别方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的骨架行为识别方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中，使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种骨架行为识别方法，其特征在于，包括：

获取骨骼序列的时间特征信息；

2.根据权利要求1所述的骨架行为识别方法，其特征在于，所述根据骨骼序列的原始输入特征，获取骨骼序列的粗粒度图数据，包括：

其中，

3.根据权利要求1所述的骨架行为识别方法，其特征在于，所述根据所述粗粒度图数据和所述原始输入特征，获取骨骼序列的空间特征信息，包括：

4.根据权利要求3所述的骨架行为识别方法，其特征在于，所述根据所述原始输入特征，确定骨骼序列的细粒度空间特征数据，包括：

5.根据权利要求3所述的骨架行为识别方法，其特征在于，所述根据所述粗粒度图数据，确定骨骼序列的粗粒度空间特征数据，包括：

6.根据权利要求1所述的骨架行为识别方法，其特征在于，所述获取骨骼序列的时间特征信息，包括：

获取每个时间帧的骨骼序列对应的注意力加权值；

7.根据权利要求6所述的骨架行为识别方法，其特征在于，所述获取每个时间帧的骨骼序列对应的注意力加权值，包括：

获取每个时间帧的骨骼序列对应的速度特征；

8.根据权利要求7所述的骨架行为识别方法，其特征在于，所述获取每个时间帧的骨骼序列对应的速度特征，包括：

9.根据权利要求1所述的骨架行为识别方法，其特征在于，所述根据所述时间特征信息和所述空间特征信息，确定所述骨骼序列所对应的骨架行为，包括：

10.一种骨架行为识别装置，其特征在于，包括：

第三获取模块，用于获取骨骼序列的时间特征信息；

11.一种骨架行为识别装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9任一项所述的骨架行为识别方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9任一项所述的骨架行为识别方法中的步骤。