CN113936333A

CN113936333A - 一种基于人体骨架序列的动作识别算法

Info

Publication number: CN113936333A
Application number: CN202111116208.6A
Authority: CN
Inventors: 陈龙; 李丽彬
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2022-01-14

Abstract

本发明公开了一种基于人体骨架序列的动作识别算法，包括：采用位姿估计算法提取出视频帧中人体的关节点或者关节点坐标数据；通过特征嵌入模块将提取的人体骨架序列用自适应图卷积和时间卷积交替进行嵌入；将提取到的每帧骨架特征映射图和用于标识位置信息的位置编码图相加；将定位过的骨架帧特征映射图作为编码器模块的输入，用以探索长范围骨架序列的时间依耐性；在获得编码过后的高维特征映射图之后，将高维特征映射图和一个可学习的输入嵌入位置编码(称之为动作查询)同时被送入解码器模块进行解码。根据本发明，借自适应图的思想，通过一个可学习的图针对每个动作样本自动学习每一层中关节点之间的依赖性。

Description

一种基于人体骨架序列的动作识别算法

技术领域

本发明涉及动作识别方法的技术领域，特别涉及一种基于人体骨架序列的动作识别算法。

背景技术

现有的高效动作识别方法是直接使用2DCNN，但是基于单帧的二维CNN不能够很好提取时间维度上的动态信息。为了解决这个问题，Simonyan等人使用一个双流网络架构分别提取空间外观特征和时间光流特征去建模运动动力学。然而，空间外观仅仅包含2D运动信息，从这些信息是很难去捕捉到所有的运动信息，并且时间上的光流信息需要很高的计算成本。随后，研究者们意识到对于像动作识别这种序列化的数据，递归神经网络(RNN)在捕捉序列化数据的时间依耐性方面有很强大的能力。因此，许多基于RNN的深度学习模型被提出来并成功的应用到动作识别领域，取得了不错的效果。然而，基于RNN的模型虽然拥有建模帧间时间依耐性的能力，但是在实际应用中很难去训练堆叠多层的RNN，在网络很深的情况下还可能出现梯度爆炸和消失的现象。其次，直接运用RNN去建模整个骨架序列的时间动态性的方法会用最后RNN的隐藏层表示去预测动作标签，在长序列的情况下，最后的隐藏层表示不能完全包含详细的骨架序列的时间动态性。近年来，图卷积网络(GCN)在将人体骨架建模为时空图方面取得了显著的成绩，其一般过程是：首先根据人体关节点的自然连接性构建一个空间图，然后在再加入相邻帧间对应关节点时间上的边，最后多个堆叠的GCN层被运用来交替提取空间相邻关节点和相邻帧间时间动态性的特征。然而，这种方法虽然能够聚合空间上相邻节点的信息，但是用层次化的GCNs聚合更长骨架序列的特征时，节点特征在长序列间流动可能会被削弱。另外一个问题是最初的骨架图是被启发式预定义的，它仅仅表示人体的物理结构，因此，它并不能保证对于动作识别任务是最优的。比如说，当在走路的时候，手和脚拥有强烈的相关性，人可以根据这种包含在动作模式中的关键信息但是在人体物理结构上又相隔较远的关节点来评估人体的动作。不幸的是，基于人体物理结构所构建的图忽略了这种人体结构上相隔很远的关节之间的连接。

发明内容

针对现有技术中存在的不足之处，本发明的目的是提供一种基于人体骨架序列的动作识别算法，借自适应图的思想，通过一个可学习的图针对每个动作样本自动学习每一层中关节点之间的依赖性。为了实现根据本发明的上述目的和其他优点，提供了一种基于人体骨架序列的动作识别算法，包括：

S1、采用位姿估计算法提取出视频帧中人体的关节点或者关节点坐标数据；

S2、通过特征嵌入模块将步骤S1提取的人体骨架序列用自适应图卷积和时间卷积交替进行嵌入；

S3、将步骤S2中提取到的每帧骨架特征映射图和用于标识位置信息的位置编码图相加；

S4、将步骤S3中定位过的骨架帧特征映射图作为编码器模块的输入，用以探索长范围骨架序列的时间依耐性；

S5、在获得步骤S4编码过后的高维特征映射图之后，将高维特征映射图和一个可学习的输入嵌入位置编码(称之为动作查询)同时被送入解码器模块进行解码。

优选的，所述步骤S1中提取出视频帧中人体的18个关节点或者25个关节点坐标数据，组成张量T×N×C，其中T表示骨架序列的帧数，N表示单帧骨架的关节点数量，C表示每个关节点的2D或者3D坐标。

优选的，所述步骤S5中高维特征映射图和一个可学习的输入嵌入位置编码(称之为动作查询)同时被送入解码器模块，然后在动作查询和输入骨架序列之间的依耐性被解码，最后解码后的特征映射图被喂入预测模块以输出所属动作类别的标签。

优选的，在整个视频帧序列中将标注在视频帧中的相对或者绝对位置信息嵌入到视频帧的特征映射图中，通过位置编码为3D张量，使得置编码和视频帧特征映射图有相同的维度且能够叠加。

优选的，还包括编码器模块，所述编码器模块由N个一样的层堆叠而成，每个层又包含两个子层，即一个多头注意力机制和一个简单的全连接前馈网络层，每两个子层之间采用残差连接，然后紧接着一个归一化层，模型中的每个子层以及嵌入层产生同样的输出维度d_model＝256。

优选的，还包括解码器模块，所述解码器模块N个一样的层堆叠而成。除了在编码器层中的两个子层之外，还插入了第三个子层，它在堆叠的Encoder输出结果上执行多头注意力，紧随其后的是一个层归一化，在每两个子层之间应用残差连接。

本发明与现有技术相比，其有益效果是：通过采用一个自适应的而不是一个固定的图来解决人体结构上相隔很远的关节之间的连接，这就意味着骨架图的拓扑结构是随着模型的整个训练过程被参数化和更新的。因为在这个可学习的图上是没有任何限制的，它可以针对不同的动作样本关注到不同关节点之间的依耐性，特别是在人体物理结构上相隔很远的关节点之间的依赖性。

附图说明

图1为根据本发明的基于人体骨架序列的动作识别算法的人体骨架序列时空图；

图2为根据本发明的基于人体骨架序列的动作识别算法的以“看书”为例节点之间的依赖性示意；

图3为根据本发明的基于人体骨架序列的动作识别算法的自适应图卷积整体架；

图4为根据本发明的基于人体骨架序列的动作识别算法的自注意力机制计算过程图；

图5为根据本发明的基于人体骨架序列的动作识别算法的多头注意力机制图；

图6为根据本发明的基于人体骨架序列的动作识别算法的“引体向上”及“踢足球”动作识别实例图；

图7为根据本发明的基于人体骨架序列的动作识别算法的流程图；

图8为根据本发明的基于人体骨架序列的动作识别算法的人体骨架关节点序号图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-8，一种基于人体骨架序列的动作识别算法，包括：第一步：考虑一个包含动作的骨架序列

其中T是视频的帧数，N骨架的关节点数量，C是每个关节点的特征数量。为了提取一个紧凑的特征表示以便后续模型有效的学习，我们采用一个自适应的空间图卷积(AGCN，在下一节描述)去提取高维的有代表性的特征。考虑一个视频帧

嵌入的特征图

可以用下列公式表示：

J_i＝FE(χ_i)，i∈[1，T] (1)

一个人体骨架图可以被记作

其中

是N个人体关节点集合，E是表示人体骨头边的集合，它可以通过一个邻接矩阵A∈R^N×N所表示，其中A_i,j＝1如果第i个关节点和第j个关节点被连接，否则为0。可以看出，A完全描述了人体的骨架结构，同时，由于

是一个无向图，因此A也是一个对称矩阵，如图1所示。作为一个图序列的动作具有一个节点特征集合

其集合中的元素表示为特征张量

其中x_t,n＝X_t,n,:是在整个T帧中t时刻下节点v_n的C维特征向量。因此，输入动作在结构上可以由邻接矩阵A充分描述，在特征上可以由特征张量X充分描述，其中

为t时刻的节点特征。

表示网络l层的可学习权值矩阵。

Graph Convolutional Nets(图形卷积网)(GCN)在特征X和图结构A所定义的骨架输入上，GCNs的逐层更新规则可以应用在t时刻的特征上，公式如下：

其中

是添加了自环以保持一致性的骨架图，

是矩阵

的度矩阵，它是一个对角阵，

σ(·)是激活函数。

可以直观地解释为直接邻域的近似空间平均特征聚集，然后是经过激活的线性层。

从(2)式可以看出，图卷积的输入图是根据人体关节点之间的自然连接性手动构造的。这也暗示着这种空间配置并不适用于所有的动作识别任务。如图1所示，以动作“看书”为例，在左手和右手以及头之间在物理上是没有连接的，然而双手和头之间的关系对于识别看书这个动作来说是极其重要的为了给图的构造更多的灵活性，传统的方法通过加入一个可学习的图拓扑结构，这意味着在训练过程中该图的拓扑结构是随参数被更新和优化的。比如[19]运用一个注意力图在最初的邻接矩阵上来给不同的边分配不同的权值。如果我们用一个大小和邻接矩阵一样且初始化为全1的矩阵M来表示这个注意力图，那么新的邻接矩阵可以通过公式

来计算。很明显，运用乘法并不能改变邻接矩阵中为0的值，这也就意味着，它不能产生除物理连接之外的连接。受[27]所启发，我们也应用归一化的嵌入高斯函数去计算两个关节点之间的相似度，它不仅能够反映出两个关节点之间的连接性，而且能决定他们的连接强度有多大：

其中N是节点个数。我们可以用P来表示用嵌入高斯函数计算出的相似度矩阵，那么新的邻接矩阵可以表示为，整个自适应图卷积的架构如图3所示：

第二步：在整个视频帧序列中，我们的模型没有包含递归，为了让我们的模型充分的利用视频帧序列顺序，我们必须将标注在视频帧中的相对或者绝对位置信息嵌入到视频帧的特征映射图中。因此，“位置编码”被加入到每层中的编码器和解码器输入中。值得注意的是我们的位置编码不同于自然语言处理中Transformer所使用的词向量位置编码，我们的位置编码是一个3D张量。由于位置编码和视频帧特征映射图有相同的维度，因此它们能够被加在一起。本文中，我们使用不同频率的正弦和余弦函数：

其中pos是位置，(i,j)表示特征的空间位置，2k表示特征通道维数。从上式中可以看出位置编码中的每个通道维度对应着一个正弦曲线。波长形成了一个从2π到10000*2π的几何级数。我们选择这个函数是因为它能让模型很容易的学会关注到相对位置，因为对于任何一个固定的偏移量m，PE_pos+m都可以被PE_pos线性表示。

考虑一个嵌入的特征图J_i，位置编码能够用下列式子表示：

其中

代表张量的逐元素相加操作。

第三步：编码器模块由N个一样的层堆叠而成，每个层又包含两个子层，即一个多头注意力机制和一个简单的全连接前馈网络层。每两个子层之间采用残差连接，然后紧接着一个归一化层。为了促进残差连接，模型中的每个子层以及嵌入层产生同样的输出维度d_model＝256。考虑一个加入位置编码的骨架特征序列

Encoder的输出结果

可以用下式表示：

第四步：解码器模块同样也是由N个一样的层堆叠而成。除了在编码器层中的两个子层之外，还插入了第三个子层，它在堆叠的Encoder输出结果上执行多头注意力，紧随其后的是一个层归一化。和Encoder一样，在每两个子层之间我们也应用了残差连接。考虑一个动作查询嵌入

那么decoder的输出结果可以用下式表示：

值得注意的是，无论是编码还是解码模块，它们所有都是被平行执行的。

第五步：因为我们的模型是基于Transformer[43]架构,而注意力机制是Transformer中的核心组件，所以在这里我们详细的介绍在本文中所使用的注意力机制的一般形式。

注意力函数可以描述为将查询和一组键值对映射到输出，其中查询、健、值和输出都是张量。输出结果可以被计算为值的加权和，其中分配到每个值的权重可以由查询和对应的键兼容函数所计算。在本文中，我们将Encoder输出结果中的时间和空间维度展成一个1D序列，即

其中d_k,d_v分别是查询、键和值嵌入的维度，T是视频帧数，V是单帧骨架关节点个数。我们计算查询和所有键的点积，然后除以

最后运用一个softmax函数去获得值上的权重，如图4所示。我们计算输出矩阵可以用下式表示：

为了使我们的模型能够联合关注到来自不同位置的不同表示子空间信息，我们使用了多头注意力，如图5所示。

multiHead(Q,K,V)＝Concat(head₁,head₂,…head_h)W^O (11)

head_i＝attention(QW_i ^Q,KW_i ^K,VW_i ^V) (12)

其中，投影矩阵

在本文中，使用h＝6平行注意力层。

这里说明的设备数量和处理规模是用来简化本发明的说明的，对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于人体骨架序列的动作识别算法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于人体骨架序列的动作识别算法，其特征在于，所述步骤S1中提取出视频帧中人体的18个关节点或者25个关节点坐标数据，组成张量T×N×C，其中T表示骨架序列的帧数，N表示单帧骨架的关节点数量，C表示每个关节点的2D或者3D坐标。

3.如权利要求1所述的一种基于人体骨架序列的动作识别算法，其特征在于，所述步骤S5中高维特征映射图和一个可学习的输入嵌入位置编码(称之为动作查询)同时被送入解码器模块，然后在动作查询和输入骨架序列之间的依耐性被解码，最后解码后的特征映射图被喂入预测模块以输出所属动作类别的标签。

4.如权利要求1所述的一种基于人体骨架序列的动作识别算法，其特征在于，在整个视频帧序列中将标注在视频帧中的相对或者绝对位置信息嵌入到视频帧的特征映射图中，通过位置编码为3D张量，使得置编码和视频帧特征映射图有相同的维度且能够叠加。

5.如权利要求1所述的一种基于人体骨架序列的动作识别算法，其特征在于，还包括编码器模块，所述编码器模块由N个一样的层堆叠而成，每个层又包含两个子层，即一个多头注意力机制和一个简单的全连接前馈网络层，每两个子层之间采用残差连接，然后紧接着一个归一化层，模型中的每个子层以及嵌入层产生同样的输出维度d_model＝256。

6.如权利要求1所述的一种基于人体骨架序列的动作识别算法，其特征在于，还包括解码器模块，所述解码器模块N个一样的层堆叠而成。除了在编码器层中的两个子层之外，还插入了第三个子层，它在堆叠的Encoder输出结果上执行多头注意力，紧随其后的是一个层归一化，在每两个子层之间应用残差连接。