CN111460928A

CN111460928A - 一种人体动作识别系统及方法

Info

Publication number: CN111460928A
Application number: CN202010186272.0A
Authority: CN
Inventors: 夏时洪; 温玉辉; 高林; 钟重阳
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-28
Anticipated expiration: 2040-03-17
Also published as: CN111460928B

Abstract

本发明提供了一种基于胶囊网络的人体动作识别系统及方法，构建包含基于语义图式图卷积的语义时空模块、广义注意力非局部模块、初级胶囊层和分类胶囊层组成的网络架构，将基于胶囊网络的架构用于基于骨架序列数据的动作识别，该网络架构利用图卷积和时间域卷积层提取骨架数据的时空特征，胶囊机制能够保持更为丰富的用于动作分类的信息，本发明进一步将广义注意力机制引入到胶囊网络架构中，建立细粒度全局依赖更好地表达时空特征，用于引导更为有效的初级胶囊的生成，初级胶囊通过路由算法与最相关的分类胶囊之间建立联系，从而提高人体动作识别准确性。

Description

一种人体动作识别系统及方法

技术领域

本发明涉及计算机视觉领域以及人工智能领域，具体来说，涉及人工智能领域中的人体动作识别，更具体地说，涉及一种人体动作识别系统及方法。

背景技术

人体动作识别是人工智能领域中一个重要的研究部分，现有技术下，主要是基于卷积神经网络对人体动作进行识别，但是，现有的基于卷积神经网络的人体动作识别方法，基于卷积神经网络对骨架数据特征进行学习，均会将卷积层提取的特征在最终输出到全局池化层得到标量输出，最后经过全连接层和Softmax(归一化指数函数)分类器得到最终的分类估计以实现对人体动作的识别。常用的基于卷积神经网络的人体动作识别方法：将骨架序列数据表示为一系列三维坐标，并通过传统卷积神经网络进行学习；将骨架序列数据人为设计成图片表示，并通过传统卷积神经网络进行学习；将骨架序列数据通过图结构表示，并利用图卷积神经网络进行学习。

现有的基于图卷积神经网络架构的人体动作识别方法，采用基于图卷积神经网络的结构，例如，如图1所示基于图卷积神经网络的人体动作识别网络包括初始层基本时空模块、9层叠加的基本时空模块、全局池化层、全连接层，每一个基本时空模块中均包含有图卷积和时间域卷积用于提取骨架数据的特征，叠加的卷积层提取的特征最后经过全局池化层，全局池化层会将每个特征通道转化为标量，重要信息(例如，位置，朝向，连接等)将会损失掉，因而限制了分类准确率。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种新的能够保留骨架数据重要信息的人体动作识别系统及方法。

根据本发明的第一方面，本发明提供一种人体动作识别系统，包括：多个语义时空模块，用于对基于语义图式的骨架图表示的骨架序列数据进行语义图式图卷积操作以编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系，得到骨架空间结构特征，并对经语义图式图卷积操作后的骨架序列数据进行时间域卷积操作得到其时空特征；其中，每个语义时空模块包括依次连接的语义图卷积模块、批量池化和非线性激活模块、时间域卷积模块、批量池化和非线性激活模块；广义注意力非局部模块，用于对经多个语义时空模块处理后的骨架序列数据的时空特征进行增强处理，构建骨架序列数据中任意位置之间的全局依赖关系；初级胶囊层，用于将经广义注意力非局部模块处理后的骨架序列数据按动作类别分别生成胶囊；分类胶囊层，包括多个分类胶囊，用于对经初级胶囊层生成的胶囊进行分类，每个分类胶囊对应一个动作类别。

其中，所述多个语义时空模块包括一个初始层语义时空模块和9个叠加的语义时空模块，初始层语义时空模块的输出为9个叠加的语义时空模块的输入，在9个叠加的语义时空模块中，上一个语义时空模块的输出为下一个时空模块的输入；其中，9个叠加的语义时空模块分别为第1层至第3层语义时空模块、第4层至第6层语义时空模块、第7层至第9层语义时空模块。优选的，所述初始层语义时空模块用于将骨架序列数据的三维时空特征的特征维度转换为64维同时保持其时间维度不变然后传输给第1层至第3层语义时空模块；所述第1层至第3层语义时空模块将经初始层语义时空模块处理后的骨架序列数据的特征维度转换为128维同时将其时间维度减半然后传输给第4层至第6层语义时空模块；所述第4层至第6层语义时空模块将经第1层至第3层语义时空模块处理后的骨架序列数据的特征维度转换为256维同时将其时间维度再减半，然后传输给广义注意力非局部模块。

根据本发明的第二方面，提供一种基于本发明第一方面的人体动作识别系统的人体动作识别方法，包括如下步骤：

S1、对待处理的骨架序列数据集中的每个关节的坐标进行预处理，以将每个骨架序列转换为预设时间维度对应的帧数，并将每个骨架序列的各关节坐标从原始相机坐标系转换成身体坐标系；

S2、将经过步骤S1预处理后的每个骨架序列中每一帧包含的骨架数据处理成基于语义图式的骨架图以得到基于语义图式的骨架图序列；其中，以骨架中的一个关节点作为一个目标关节点，基于目标关节点与其他关节点之间的固有连接关系和潜在连接关系，根据所有节点之间的连接关系构建基于语义图式的骨架图；

S3、对步骤S2中得到的骨架图序列进行语义图式图卷积操作，编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系，得到骨架空间结构特征，并对经语义图式图卷积操作后的骨架图序列进行时间域卷积操作得到骨架图序列的时空特征；

S4、基于骨架图序列的时空特征，建立骨架中任意时空位置之间的全局依赖关系，并将全局依赖关系用于增强时空特征；

S5、基于经步骤S4处理后的骨架序列数据的特征，将特征沿着特征维度进行划分得到多个类别的向量，以构建初级胶囊；

S6、将步骤S5中构建的初级胶囊的信息与分类胶囊建立联系，每一个分类胶囊对应一类动作类别，其中，每一个分类胶囊的信息为所有初级胶囊的加权和，且每个初级胶囊的权重通过动态路由算法迭代更新获得，胶囊长度最长的分类胶囊对应的动作类别即为识别到的待处理的骨架序列数据对应的动作类别。

优选的，所述步骤S1包括：

S11、将待处理的骨架序列数据集中的每个骨架序列通过数据扩展的方式转换为预设时间维度对应的帧数；

S12、将经步骤S11处理后的骨架序列中各帧骨架的各关节坐标转为身体坐标系下的坐标，其中，骨架包含如下25个关节:尾椎、脊柱中部、颈部、头部、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚、脊柱顶部、左指尖、手掌、右指尖、右手掌；以脊柱中部为原点，3D旋转使得右肩指向左肩的向量为X轴，尾椎指向脊柱顶部的向量为Y轴，X轴和Y轴的叉乘为Z轴，基于X轴、Y轴、Z轴将骨架序列中各帧骨架的关节点坐标转换为三维坐标并表示为V∈R^3×25×F，V代表骨架序列属于实数集R，每个骨架序列中包含F帧、每帧25个关节、每个关节用3维坐标表示，F表示预设时间维度，骨架序列的帧数代表时间维度，关节数代表空间维度，坐标维数代表特征维度；

S13、以尾椎到脊柱顶部的距离作为单位距离，将骨架中每对关节之间的距离除以该单位距离以实现归一化。

所述步骤S2包括针对每一帧骨架数据执行如下步骤：

S21、为骨架的每个关节建立图的关节点，使骨架中的每一个关节对应于骨架图中的一个关节点，每一个关节配置一个节点标识并确定骨架重心对应的重心关节；

S22、基于骨架中的关节点之间的固有连接关系，建立骨架图的边；

S23、依次以骨架中的某个关节为目标关节，为该目标关节的固有连接的邻居关节定义不同的语义角色，包括目标关节本身、目标关节的父关节、目标关节的子关节，其中目标关节的父关节是指该目标关节的邻居关节中比目标关节更靠近重心关节的邻居关节，目标关节的子关节是指该目标关节的邻居关节中除了目标关节本身、目标关节的父关节以外的邻居关节；

S24、基于关节和关节的邻居关节的语义角色，为骨架图中表示关节之间的固有连接的边建立以箭头指示的方向，用于描述不同的语义角色关节之间的层级结构，其中，某一目标关节对应的固有连接从其父关节由箭头指向该目标关节再由该目标关节指向其子关节；

S25、在步骤S24处理后的骨架图基础上，为不存在固有连接关系的关节之间建立表示其潜在连接的边，形成当前帧的骨架数据对应的骨架图G(V_t，A)，其包含关节点集合V_t和邻接矩阵

其中V_t∈R^C1×25，表示第t帧骨架图特征的特征维度为C1维，对于初始层语义时空模块C1＝3，空间维度为25维，A为邻接矩阵，用于表示骨架图中每对关节点之间的边所描述的语义连接关系。

所述步骤S3包括：

S31、对骨架图序列中的每一帧骨架图进行语义图式图卷积操作：

其中，第t帧的骨架特征V_t∈R^C1×25包含M种语义连接关系，且语义连接关系m中包含K_m个语义角色,

是对角矩阵，

表示语义连接关系m中的各个关节与语义角色k的邻居关节之间关系的卷积核参数，将骨架特征维度从C1维转换到C2维，用于特征变换提取高维特征，O_t∈R^C2×25是第t帧的语义图式图卷积输出，特征维度为C2维，空间维度为25维，特征维度C2由当前语义图卷积卷积核参数确定；

所有骨架图的语义图式图卷积输出组成骨架图序列的语义图式图卷积输出矩阵O∈R^C2×25×T1，其中，特征维度为C2维，空间维度为25维，时间维度为T1维，对于初始层语义时空模块，时间维度T1等于预设的时间维度；

S32、将步骤S31中骨架图序列的语义图式图卷积输出进行批量归一化操作得到其归一化特征；

S33、将步骤S32中得到的归一化特征输入到激活函数引入非线性因素进行非线性激活，得到骨架图序列的非线性特征；

S34、对步骤S33中得到的非线性特征进行时间域卷积处理得到骨架图序列的时空特征；

S35、对步骤S34中得到的时空特征进行批量归一化操作得到时空特征对应的归一化特征；

S36、对步骤S35中得到的归一化特征输入到激活函数引入非线性因素进行非线性激活，得到时空特征对应的非线性特征；

S37、将骨架图序列的语义图式图卷积输入通过残差连接到步骤S36的输出得到骨架图序列的初始时空特征；

S38、以步骤S37得到的初始时空特征作为输入，进行9次叠加语义图式图卷积、批量归一化操作、非线性激活、时间域卷积操作、批量归一化、非线性激活组成的组合操作以得到骨架图序列的时空特征矩阵：R^C×25×T，其中，叠加操作中的上一次组合操作的输出是下一次的输入，且第1次至第3次组合操作对应的特征维度为C2维、空间维度为25维、时间维度为T1维，第4次至第6次组合操作的对应的特征维度为C2*2维、空间维度为25维、时间维度为T1/2维，第7次至第9次组合操作的对应的特征维度为C2*4维、空间维度为25维、时间维度为T1/4维，C＝C2*4,T＝T1/4。

所述步骤S4包括：

S41、将骨架图序列线性变换后的特征进行向量化以将特征沿着特征维度及时空维度展开表示为1维向量：

vec(W_θP)∈R^CN，vec(W_φP)∈R^CN，vec(W_gP)∈R^CN,

其中，vec函数表示将特征向量化，N＝25×T，W_θP∈R^C×25×T，W_φP∈R^C×25×T，W_gP∈R^C ^×25×T表示线性变换后得到的特征；W_θ，W_φ，W_g∈R^C×C是由神经网络学习获得的变换权重；

S42、使用点乘关系函数计算任意时空关节任意通道的关联度建立全局依赖关系得到增强特征Q∈R^C×25×T：

在所述步骤S5中：将增强特征输入到初级胶囊层，使用二维空洞卷积对特征进行卷积处理，并对经二维空洞卷积处理后的特征沿着特征维度将其等维度划分为多个类别的向量，每个类别中包含多个向量，每一个向量为一个初级胶囊。

与现有技术相比，本发明的优点在于：本发明构建了基于胶囊网络的架构用于基于骨架序列数据的动作识别，该网络架构利用图卷积和时间域卷积层提取的时空特征，胶囊机制能够保持更为丰富的用于动作分类的信息。此外，本发明进一步将广义注意力机制引入到胶囊网络架构中，建立细粒度全局依赖更好地表达时空特征，用于引导更为有效的初级胶囊的生成。初级胶囊通过路由算法与最相关的分类胶囊之间建立联系，从而提高人体动作识别准确性。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为现有技术下基于卷积神经网络的人体动作识别系统网络框架示意图；

图2为根据本发明实施例的人体动作识别系统网络框架示意图；

图3为根据本发明实施例的人体动作识别系统中语义识别模块网络示意图；

图4为根据本发明实施例的人体动作识别方法构建骨架图的关节点示意图；

图5为根据本发明实施例的人体动作识别方法构建的简化骨架图示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

发明人经过研究发现，骨架数据的特征经过全局池化层，特征通道转化为标量后重要信息(例如，位置，朝向，连接等)将会损失掉，限制分类准确率。为了解决这一普遍存在的根本问题，有必要用向量输出代替全局池化层的标量输出，用向量输出代替全局池化层的标量输出实现并应用于深度神经网络中称为胶囊神经网络(Capsule Neural Networks,简称为CapsNNs)。同时，结合基于广义注意力机制，提出新的基于广义注意力的胶囊神经网络(Generalized Attentional Capsule Neural Network,简称为GA-CapsNN)，该网络能够生成保持由卷积层得到的所有重要信息的向量用于基于骨架序列数据的人体动作识别。

本发明建立的基于胶囊网络的架构用于基于骨架序列数据的动作识别，该网络架构利用图卷积和时间域卷积层提取的时空特征，胶囊机制能够保持更为丰富的用于动作分类的信息。此外将广义注意力机制引入到胶囊网络架构中，建立细粒度全局依赖更好地表达时空特征，用于引导更为有效的初级胶囊的生成。初级胶囊通过路由算法与最相关的分类胶囊之间建立联系，从而提高人体动作识别准确性。

下面结合附图及实施例详细说明本发明。

根据本发明的一个实施例，如图2所示，本发明提供一种人体动作识别系统，包括：多个语义时空模块、广义注意力非局部模块、初级胶囊层和分类胶囊层。

其中，所述多个语义时空模块用于对基于语义图式的骨架图表示的骨架序列数据进行语义图式图卷积操作以编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系，得到骨架空间结构特征，并对经语义图式图卷积操作后的骨架序列数据进行时间域卷积操作得到其时空特征；其中，如图3所示，每个语义时空模块包括依次连接的语义图卷积模块、批量池化和非线性激活模块、时间域卷积模块、批量池化和非线性激活模块。所述多个语义时空模块包括一个初始层语义时空模块和9个叠加的语义时空模块，初始层语义时空模块的输出为9个叠加的语义时空模块的输入，在9个叠加的语义时空模块中，上一个语义时空模块的输出为下一个时空模块的输入；其中，9个叠加的语义时空模块分别为第1层至第3层语义时空模块、第4层至第6层语义时空模块、第7层至第9层时空模块；其中，所述初始层语义时空模块用于将骨架序列数据的三维时空特征的特征维度转换为64维同时保持其时间维度不变然后传输给第1层至第3层语义时空模块；所述第1层至第3层语义时空模块将经初始层语义时空模块处理后的骨架序列数据保持其时空维度不变然后传输给第4层至第6层语义时空模块；所述第4层至第6层语义时空模块将经第1层至第3层语义时空模块处理后的骨架序列数据的特征维度转换为128维同时将其时间维度减半然后传输给第7层至第9层语义时空模块；所述第7层至第9层语义时空模块将经第4层至第6层语义时空模块处理后的骨架序列数据的特征维度转换维256维同时将其时间维度再减半，然后传输给广义注意力非局部模块。所述广义注意力非局部模块用于对经语义时空模块处理后的骨架序列数据的时空特征进行增强处理，构建骨架序列数据中任意位置之间的全局依赖关系。

所述初级胶囊层，用于将经广义注意力非局部模块处理后的骨架序列数据的时空特征按动作类别分别生成胶囊。

所述分类胶囊层包括多个分类胶囊，用于对经初级胶囊层生成的胶囊进行分类，每个分类胶囊对应一个动作类别。

本发明的网络架构改进了传统图卷积网络的基本时空模块，将传统图卷积替换为语义图卷积，提出了语义时空模块，在传统图卷积方法的基础上进一步编码了人体骨架关节之间的潜在连接关系，能够得到更丰富的人体骨架空间结构特征；并在语义图卷积网络中引入了广义注意力模块，能够得到骨架图序列的时空特征增强表示；使用初级胶囊层和分类胶囊层代替传统图卷积网络的全局池化层和全连接层，最终得到向量形式的分类胶囊输出取代传统图卷积网络的全局池化层和全连接层得到的标量输出，避免了标量输出中大量特征的损失，能够使用胶囊向量表达更丰富的信息用于人体动作分类，提高人体动作识别的准确性。

根据本发明的另一个实施例，本发明提供一种人体动作识别方法，包括步骤S1、S2、S3、S4、S5、S6，下面详细介绍每个步骤：

在步骤S1中，对待处理的骨架序列数据集中的每个关节的坐标进行预处理，以将每个骨架序列转换为预设时间维度对应的帧数，并将每个骨架序列的各关节坐标从原始相机坐标系转换成身体坐标系，优选的，包括：

S11、将待处理的骨架序列数据集中的每个骨架序列通过数据扩展的方式转换为预设时间维度F对应的帧数；数据集中的每个骨架序列的帧数不一致，我们将每个骨架序列均通过数据扩展方法转换为F帧，优选的F＝300；

S12、数据集中每个骨架序列中的各帧骨架的各关节点的原始坐标是在相机坐标系下的,将经步骤S11处理后的骨架序列中各帧骨架的各关节坐标转为身体坐标系下的坐标，其中，如图4所示，骨架包含如下25个关节:尾椎、脊柱中部、颈部、头部、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚、脊柱顶部、左指尖、手掌、右指尖、右手掌；以脊柱中部为原点，3D旋转使得右肩指向左肩的向量为X轴，尾椎指向脊柱顶部的向量为Y轴，X轴和Y轴的叉乘为Z轴，基于X轴、Y轴、Z轴将骨架序列中各帧骨架的关节点坐标转换为三维坐标并表示为V∈R^3×25×F，V代表骨架序列属于实数集R，每个骨架序列中包含F帧、每帧25个关节、每个关节用3维坐标表示，F表示预设时间维度，骨架序列的帧数代表时间维度，关节数代表空间维度，坐标维数代表特征维度；

在步骤S2中，将经过步骤S1预处理后的每个骨架序列中每一帧包含的骨架数据处理成基于语义图式的骨架图以得到基于语义图式的骨架图序列；其中，以骨架中的一个关节点作为一个目标关节点，基于目标关节点与其他关节点之间的固有连接关系和潜在连接关系，根据所有节点之间的连接关系构建基于语义图式的骨架图；优选的，构建骨架图序列包括如下步骤：

S21、骨架序列中的单帧骨架为骨架的每个关节建立图的关节点，使骨架中的每一个关节对应于骨架图中的一个关节点，每一个关节配置一个节点标识并确定骨架重心对应的重心关节；如图4所示，将骨架中的25个关节分别建立图的关节点，例如，关节1-尾椎、关节2-脊柱中部、关节3-颈部、关节4-头部、关节5-左肩、关节6-左肘、关节7-左腕、关节8-左手、关节9-右肩、关节10-右肘、关节11-右腕、关节12-右手、关节13-左髋、关节14-左膝、关节15-左踝、关节16-左脚、关节17-右髋、关节18-右膝、关节19-右踝、关节20-右脚、关节21-脊柱顶部、关节22-左指尖、关节23-左手掌、关节24-右指尖、关节25-右手掌，其中关节1为重心关节；

S22、基于骨架中的关节点之间的固有连接关系，建立骨架图的边，如图5中的简化骨架图中的实线所示，在存在固有连接的关节之间建立实线边；例如，关节1-尾椎与关节2-脊柱中部之间、关节2-脊柱中部与关节21-脊柱顶部均存在固有连接关系，建立实线的边；

S23、依次以骨架中的某个关节为目标关节，为该目标关节的固有连接的邻居关节定义不同的语义角色，包括目标关节本身、目标关节的父关节、目标关节的子关节，其中目标关节的父关节是指该目标关节的邻居关节中比目标关节更靠近重心关节的邻居关节，目标关节的子关节是指该目标关节的邻居关节中除了目标关节本身、目标关节的父关节以外的邻居关节；例如，如图5所示，以关节2为目标节点，其固有的邻居关节包括关节1和关节21，其中，关节1是重心关节，且关节2比关节21更靠近重心关节，则关节1是关节2的父关节，关节2是关节21的父关节，关节21是关节2的子关节；

S24、基于关节和关节的邻居关节的语义角色，为骨架图中表示关节之间的固有连接的边建立以箭头指示的方向，用于描述不同的语义角色关节之间的层级结构，其中，某一目标关节对应的固有连接从其父关节由箭头指向该目标关节再由该目标关节指向其子关节；例如，如图5所示，关节1与关节2之间的边，箭头由关节1指向关节2，关节2与关节21之间的边，箭头由关节2指向关节21，其他关节之间的固有连接的边的箭头方向同理可得；

S25、在步骤S24处理后的骨架图基础上，为不存在固有连接关系的关节之间建立表示其潜在连接的边，如图5中的虚线所示，每对不存在固有连接关系的关节之间均存在潜在连接的边，每条边均代表着语义连接关系，由此形成当前帧的骨架数据对应的骨架图G(V_t，A)，其包含关节点集合V_t和邻接矩阵

其中V_t∈R^C1×25，表示第t帧骨架图特征的特征维度为C1维，对于初始层语义时空模块，C1＝3，空间维度为25维，A为邻接矩阵，用于表示骨架图中每对关节点之间的边所描述的语义连接关系。例如，如图5所示，以关节21为例，与其存在固有连接关系的关节包括关节3、关节5、关节9和关节2，关节21与关节3、关节5、关节9和关节2之间的边为有方向的实线边，表示关节21分别与这几个关节之间的连接关系，关节21与除了关节3、关节5、关节9和关节2之外的其他20个关节存在潜在连接，则关节21与其他20个关节之间建立虚线的边，其他节点之间的潜在连接同理建立虚线的边。

针对骨架序列中的每一帧骨架数据建立骨架图，形成骨架图序列。

在步骤S3中，对步骤S2中得到的骨架图序列进行语义图式图卷积操作，编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系，得到更丰富的骨架空间结构特征，并对经语义图式图卷积操作后的骨架图序列进行时间域卷积操作得到骨架图序列的时空特征；优选的，包括：

S31、将前面步骤得到的基于语义图式的骨架图输入到语义图式图卷积(Motif-based Graph Convolution，简称为MGC)，对骨架图序列中的每一帧骨架图进行语义图式图卷积操作：

是对角矩阵，

表示语义连接关系m中的各个关节与语义角色k的邻居关节之间关系的卷积核参数，将骨架特征维度从C1维转换到C2维，用于特征变换提取高维特征，O_t∈R^C2×25是第t帧的语义图式图卷积输出，特征维度为C2维，空间维度为25维，特征维度C2由当前语义图卷积卷积核参数确定。具体地说，骨架图中包含2种语义连接关系即M＝2，其中，第一种语义连接关系定义在固有连接的一邻域范围的邻居节点上，每个目标关节的邻居节点定义了三个语义角色(K_m＝1＝3)：目标关节本身、目标关节的父关节和子关节，该语义连接关系用来编码人体各个关节固有连接关系之间的层级结构。第二种语义连接关系定义在潜在连接的一邻域范围的邻居节点上，用来编码骨架结构的潜在连接，该连接关系的所有邻居节点的语义角色一致(K_m＝2＝1)。所有骨架图的语义图式图卷积输出组成骨架图序列的语义图式图卷积输出矩阵O∈R^C2×25×T1，其中，特征维度为C2维，空间维度为25维，时间维度为T1维，对于初始层语义时空模块，时间维度T1等于预设的时间维度；

S32、将步骤S31中骨架图序列的语义图式图卷积输出进行批量归一化操作(BatchNormalization，简称为BN)得到其归一化特征；

S33、将步骤S32中得到的归一化特征输入到激活函数(Rectified Linear Unit,简称为RELU)引入非线性因素进行非线性激活，得到骨架图序列的非线性特征；

S38、以步骤S37得到的初始时空特征作为输入，输入9个叠加的语义时空模块(STM)进行9次叠加的由语义图式图卷积、批量归一化操作、非线性激活、时空卷积操作、批量归一化、非线性激活组成的组合操作以得到骨架图序列的时空特征矩阵：R^C×25×T，其中，叠加操作中的上一次组合操作的输出是下一次的输入，且第1次至第3次组合操作对应的特征维度为C2维、空间维度为25维、时间维度为T1维，第4次至第6次组合操作的对应的特征维度为C2*2维、空间维度为25维、时间维度为T1/2维，第7次至第9次组合操作的对应的特征维度为C2*4维、空间维度为25维、时间维度为T1/4维，C＝C2*4,T＝T1/4。其中，所述步骤S31至S37的步骤由初始层STM完成，步骤S37所得到的时空特征输出再输入到后续9层叠加的STM，上一个STM的输出输入到下一个STM中，初始层STM不包含步骤S37描述的残差连接，将骨架序列输入特征维度从3维转换为64维，9层叠加的STM的输入特征维度和时间维度会变化，但是输入空间维度均为25。根据本发明的一个示例，以预设时间维度F＝300为例，经过初始层STM后，骨架序列的时空特征的特征维度从3维变成64维、空间维度仍为25、时间维度300；经过第1层至第3层STM后，骨架序列的时空特征的输入特征维度为64维、空间维度仍为25、时间维度300；第4层和第7层的STM的时间域卷积操作步长为2，因此时间维度降为前面的1/2，经过第4层至第6层STM后，骨架序列的时空特征的输入特征维度从64维变为128维、空间维度25、时间维度变为150，经过第7层至第9层STM后，骨架序列的时空特征的输入特征维度从128维变为256维、空间维度25、时间维度变为75。

在步骤S4中，基于骨架图序列的时空特征，建立骨架中任意时空位置之间的全局依赖关系，并将全局依赖关系用于增强时空特征；优选的，将S3得到的时空特征输入到广义注意力非局部模块(Generalized Attentional Non-local,简称为GANL)，GANL模块基于非局部模块的思想构建。为了更好的理解，简单介绍一下非局部模块(Non-local，简称为NL)。NL模块能够基于注意力机制建模任意时空位置之间的全局依赖关系。注意力机制即在某序列的任意位置之间建立关联来计算该序列的增强表示。我们可以使用NL模块建立所有时空关节之间的全局依赖关系，并利用该关系提升时空特征的表达能力，但是NL模块的计算量很大。NL模块中使用点乘关系函数计算所有时空关节的关联度建立全局依赖关系增强时空特征的操作可以由下式表达：

其中θ(P)＝W_θP∈R^C×25×T，φ(P)＝W_φP∈R^C×25×T，g(P)＝W_gP∈R^C×25×T表示对P进行线性变换得到的特征，W_θ，W_φ，W_g∈R^C×C是要学习的变换权重，进一步将特征通道引入，在任意位置任意特征通道之间建立全局依赖关系，即广义注意力。基于广义注意力机制，构建了GANL模块。

具体来说，首先向量化线性变换后的特征，分别表示为：vec(W_θP)∈R^CN，vec(W_φP)∈R^CN，vec(W_gP)∈R^CN,vec函数表示将特征向量化，即将特征沿着特征维度及时空维度展开表示为1维向量，为了简化时空维度表示，引入N＝25×T。GANL模块中使用点乘关系函数计算任意时空关节任意通道的关联度建立全局依赖关系增强时空特征的操作可以由下式表达：

上式中vec(W_θP)vec(W_φP)的计算复杂度为

根据交换律，我们可以先计算上式中的vec(W_φP)vec(W_gP)，这两项的计算结果为标量，改变计算顺序之后，GANL模块建立任意时空关节任意通道的全局依赖关系提升时空特征表达能力的操作的复杂度从

降低到

由下式表达：

进一步将向量vec(Q)表示成特征Q∈R^C×25×T，以预设时间维度F＝300为例，则特征维度C＝256,空间维度为25，时间维度T＝75。

在步骤S5中，基于经步骤S4处理后的骨架序列数据的特征，将特征沿着特征维度进行划分为多个类别的向量，以构建初级胶囊；具体地说，将增强特征输入到初级胶囊层，使用二维空洞卷积对特征进行卷积处理，并对经二维空洞卷积处理后的特征沿着特征维度将其等维度划分为多个类别的向量，每个类别中包含多个向量，每一个向量为一个初级胶囊。以预设时间维度F＝300为例，将经过GANL模块得到的增强特征Q∈R^256×25×75输入到初级胶囊层，初级胶囊层使用二维空洞卷积，优选的，其卷积核大小设置为11×11，膨胀系数设置为7×2，经过二维空洞卷积得到的特征表示为H∈R^256×5×5，其中特征维度为256、空间维度为5、时间维度为5，将该特征沿着特征维度划分为32个类别的向量，每个向量8维，变为32*25个8维向量，每个类别中包含25个向量，该向量的方向表示时空特征的细节属性，长度表示特征的存在性，这种向量形式的特征命名为胶囊。

在步骤S6中，将步骤S5中构建的初级胶囊的信息与分类胶囊建立联系，每一个分类胶囊对应一类动作类别，胶囊长度最长的分类胶囊对应的动作类别即为识别到的待处理的骨架序列数据对应的动作类别。根据本发明的一个实施例，为分类胶囊定义60个类别的胶囊，胶囊类别数目由数据集中的动作类别数目确定，每个类别中包含1个分类胶囊，每个分类胶囊的维度为8，每个分类胶囊表示为所有初级胶囊的加权和，各个权重通过动态路由算法迭代更新得到。

为了更好地说明本发明的效果，将本发明应用在最广泛使用的三维骨架序列数据集NTU-RGB+D上，该数据集在实验室环境下采集，包含60个动作类别的超过56000个骨架序列数据，这些骨架序列数据来自40个志愿者，并且采用3台不同视角的相机同时采集。该数据集提供了在3个相机坐标系下的关节点坐标，每个采集对象的骨架都包含25个关节点，并且每段序列保证包含不超过2个采集对象。该数据集的作者建议了两个评价规范，第一个评价规范跨对象(Cross-Subject,简称为X-Sub)，包含40320个训练数据以及16560个测试数据，在该设置中，训练集来自20个采集对象，而测试集来自剩余的20个对象；第二个评价规范跨视角(Cross-View,简称为X-View)，包含37920个训练数据以及18960个测试数据，训练样本来自相机视角2和3，而测试数据来自相机视角1，各个深度神经网络在训练数据集上训练，在测试数据集上测试。测试时，用得到正确分类标签的测试用例数目除以测试数据集的全部测试用例数目，得到各个深度神经网络的识别准确率。在NTU-RGB+D数据集上，本发明的胶囊网络架构不采用广义注意力机制的情况下相对于传统的传统图卷积网络的识别准确率对比：在第一种评价规范X-Sub上，本发明的准确率为87.2％，传统的准确率为81.5％；在第二种评价规范X-View上，本发明的准确率为94.7％，传统的准确率为88.3％。本发明进一步引入广义注意力非局部(GANL)模块，识别准确率得到了进一步提升：在第一种评价规范X-Sub上，本发明的准确率提升为88.0％；在第二种评价规范X-View上，本发明的准确率提升为95.1％。可以看出，本发明的广义注意力胶囊网络架构相较于传统图卷积网络，在X-Sub评价方案上，得到了7.5％的准确率提升，在X-View评价方案上，得到了6.3％的准确率提升。

本发明构建了基于胶囊网络的架构用于基于骨架序列数据的动作识别，该网络架构利用图卷积和时间域卷积层提取骨架数据的时空特征，胶囊机制能够保持更为丰富的用于动作分类的信息。此外，本发明进一步将广义注意力机制引入到胶囊网络架构中，建立细粒度全局依赖更好地表达时空特征，用于引导更为有效的初级胶囊的生成。初级胶囊通过路由算法与最相关的分类胶囊之间建立联系，从而提高人体动作识别准确性。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种人体动作识别系统，其特征在于，包括：

多个语义时空模块，用于对基于语义图式的骨架图表示的骨架序列数据进行语义图式图卷积操作以编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系，得到骨架空间结构特征，并对经语义图式图卷积操作后的骨架序列数据进行时空卷积操作得到其时空特征；其中，每个语义时空模块包括依次连接的语义图卷积模块、批量池化和非线性激活模块、时间域卷积模块、批量池化和非线性激活模块；

广义注意力非局部模块，用于对经语义时空模块处理后的骨架序列数据的时空特征进行增强处理，构建骨架序列数据中任意位置之间的全局依赖关系；

初级胶囊层，用于将经广义注意力非局部模块处理后的骨架序列数据特征按特征维度划分生成胶囊；

分类胶囊层，包括多个分类胶囊，使用经初级胶囊层生成的胶囊包含的信息，每个分类胶囊对应一个动作类别。

2.根据权利要求1所述的一种人体动作识别系统，其特征在于，

所述多个语义时空模块包括一个初始层语义时空模块和9个叠加的语义时空模块，初始层语义时空模块的输出为9个叠加的语义时空模块的输入，在9个叠加的语义时空模块中，上一个语义时空模块的输出为下一个语义时空模块的输入；其中，9个叠加的语义时空模块分别为第1层至第3层语义时空模块、第4层至第6层语义时空模块、第7层至第9层语义时空模块；

其中，所述初始层语义时空模块用于将骨架序列数据的三维时空特征的特征维度转换为64维同时保持其时空维度不变然后传输给第1层至第3层语义时空模块；所述第1层至第3层语义时空模块将经初始层语义时空模块处理后的骨架序列数据保持其时空维度不变然后传输给第4层至第6层语义时空模块；所述第4层至第6层语义时空模块将经第1层至第3层语义时空模块处理后的骨架序列数据的特征维度转换为128维同时将其时间维度减半然后传输给第7层至第9层语义时空模块；所述第7层至第9层语义时空模块将经第4层至第6层语义时空模块处理后的骨架序列数据的特征维度转换维256维同时将其时间维度再减半，然后传输给广义注意力非局部模块。

3.一种基于权利要求1至2任一所述的人体动作识别系统的人体动作识别方法，其特征在于，包括如下步骤：

S5、基于经步骤S4处理后的骨架序列数据的特征，将特征沿着特征维度划分为多个类别的向量，以构建初级胶囊；

S6、将步骤S5中构建的初级胶囊的信息与分类胶囊建立联系，每一个分类胶囊对应一类动作类别，胶囊长度最长的分类胶囊对应的动作类别即为识别到的待处理的骨架序列数据对应的动作。

4.根据权利要求3所述的一种人体动作识别方法，其特征在于，所述步骤S1包括：

5.根据权利要求4所述的一种人体动作识别方法，其特征在于，所述步骤S2包括针对每一帧骨架数据执行如下步骤：

6.根据权利要求5所述的一种人体动作识别方法，其特征在于，所述步骤S3包括：

是对角矩阵，

所有骨架图的语义图式图卷积输出组成骨架图序列的语义图式图卷积输出矩阵O∈R^C2 ^×25×T1，其中，特征维度为C2维，空间维度为25维，时间维度为T1维，对于始层语义时空模块，时间维度T1等于预设的时间维度；

S38、以步骤S37得到的初始时空特征作为输入，进行9次叠加的由语义图式图卷积、批量归一化操作、非线性激活、时空卷积操作、批量归一化、非线性激活组成的组合操作以得到骨架图序列的时空特征矩阵：R^C×25×T，其中，叠加操作的中的上一次组合操作的输出是下一次的输入，且第1次至第3次组合操作对应的特征维度为C2维、空间维度为25维、时间维度为T1维，第4次至第6次组合操作的对应的特征维度为C2*2维、空间维度为25维、时间维度为T1/2维，第7次至第9次组合操作的对应的特征维度为C2*4维、空间维度为25维、时间维度为T1/4维，C＝C2*4,T＝T1/4。

7.根据权利要求6所述的一种人体动作识别方法，其特征在于，所述步骤S4包括：

vec(W_θP)∈R^CN，vec(W_φP)∈R^CN，vec(W_gP)∈R^CN,

其中，vec函数表示将特征向量化，N＝25×T，W_θP∈R^C×25×T，W_φP∈R^C×25×T，W_gP∈R^C×25×T表示线性变换后得到的特征；W_θ，W_φ，W_g∈R^C×C是由神经网络学习获得的变换权重；

8.根据权利要求7所述的一种人体动作识别方法，其特征在于，在所述步骤S5中：将增强特征输入到初级胶囊层，使用二维空洞卷积对特征进行卷积处理，并对经二维空洞卷积处理后的特征沿着特征维度将其等维度划分为多个类别的向量，每个类别中包含多个向量，每一个向量为一个初级胶囊。

9.根据权利要求8所述的一种人体动作识别方法，其特征在于，在所述步骤S6中：每一个动作类别对应一个分类胶囊，将初级胶囊信息和分类胶囊信息建立联系，每一个分类胶囊的信息表示为所有初级胶囊的信息的加权和，且每个初级胶囊的权重通过动态路由算法迭代更新获得。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求3至9中任一项所述方法的步骤。