CN113688765A

CN113688765A - 一种基于注意力机制的自适应图卷积网络的动作识别方法

Info

Publication number: CN113688765A
Application number: CN202111011985.4A
Authority: CN
Inventors: 胡凯; 金俊岚; 王维西; 李姚根; 翁成航; 宋磊; 丁益武
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-23
Anticipated expiration: 2041-08-31
Also published as: CN113688765B

Abstract

本发明公开了一种基于注意力机制的自适应图卷积网络的动作识别方法，涉及动作识别技术领域。该动作识别方法将注意力机制加入自适应图卷积网络中，引入时间注意力模块来克服卷积算子的局部性，使每个单个关节被认为是独立的，并且通过比较同一身体关节沿着时间维度的嵌入变化来计算帧之间的相关性，来提高对时间信息提取；另外引入通道注意力模块，使网络更加关注重要的通道特征，进一步提高了网络的性能，使分类预测结果更加准确。

Description

一种基于注意力机制的自适应图卷积网络的动作识别方法

技术领域

本发明涉及动作识别技术领域，具体地，涉及一种基于注意力机制的自适应图卷积网络的动作识别方法。

背景技术

近年来，深度学习得到深入发展，在很多领域得到了应用。因为深度学习的原理是用大量神经元来模拟人类视听、思考等活动，与行为识别具有相同的机制，因此科研人员也尝试使用深度学习来解决行为识别问题，取得了一系列较好的成果。利用图卷积神经网络处理人体骨骼数据来学习人体行为，具有良好的泛化能力。其中基于时空图卷积的动作识别算法取得了较好的效果。

现有的基于图卷积网络的动作识别中，表示人体的图的拓扑结构对于所有层和所有动作都是固定的，尤其是如果图连接是定向的并且信息只能沿着预定义的路径传输时，可能会阻止对时间维度的骨架运动信息提取。其次，时间信息都是由标准的2D卷积提取的，它被限制在局部领域内操作，某种程度上受到卷积核大小的限制。另外，之前的图卷积网络忽视了对不同通道的重视程度，往往有的通道产生的特征对于动作识别是非常重要的，而有的通道中的特征却只有微小的作用，特征提取的过程应该更关注那些重要的通道特征，忽略不重要的通道信息。在“擦脸”和“摸头”这类动作中，手和头的联系应该更紧密一些，但在其他一些类中则不是这样的，如“跳起来”和“坐下”，由于没有对重要信息进行重点关注，最后的分类结果可能不够准确。这些问题的存在表明了现有方法仍没有充分提取数特征信息。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于注意力机制的自适应图卷积网络的动作识别方法。本发明将注意力机制加入自适应图卷积网络中，引入时间注意力模块来克服卷积算子的局部性，使每个单个关节被认为是独立的，并且通过比较同一身体关节沿着时间维度的嵌入变化来计算帧之间的相关性，来提高对时间信息提取；另外引入通道注意力模块，使网络更加关注重要的通道特征，进一步提高了网络的性能，使分类预测结果更加准确。

为实现上述目的，本发明采用如下技术方案：一种基于注意力机制的自适应图卷积网络的动作识别方法，具体包括如下步骤：

(1)将人体运动视频使用姿态估计算提取骨架序列，通过骨架序列构建时空图G＝(V,E)，其中，V＝{v_ti|t＝1,2,…,T,i＝1,2,…,N}表示关节点信息，t表示帧数索引，i表示关节点索引，T表示总帧数，N表示人体关节点数量，E表示骨骼信息，由E_s和E_t组成，E_s表示在相同帧上的关节点的自然连接，E_t表示同一个关节点在相邻帧上的连接；

(2)构建基于注意力机制的自适应图卷积网络，所述自适应图卷积网络包括依次连接的空间图卷积模块、时间卷积模块、时间注意力模块、通道注意力模块、softmax分类器，所述空间图卷积模块用于获取时空图的空间图卷积输出特征图；所述时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息；所述时间注意力模块用于建立获取的时间特征信息的帧内相关性；所述通道注意力模块用于获取时空特征图，并通过残差连接的方式与输入的时空图进行合并；所述softmax分类器用于预测时空图的动作分类；

(3)将步骤(1)中构建的时空图输入至基于注意力机制的自适应图卷积网络中进行训练，以交叉熵作为损失函数来反向传播梯度，权重衰减为0.0001，训练64次后，完成对自适应图卷积网络的训练；

(4)再次将人体运动视频处理成时空图，输入到训练好的基于注意力机制的自适应图卷积网络中，得到动作的分类结果。

进一步地，所述空间图卷积模块用于获取时空图的空间特征图的具体过程为：

其中，f_out1表示空间图卷积输出特征图，f_in()表示输入的时空图，A_k为邻接矩阵，B_k为数据驱动图矩阵，D_k为图注意力矩阵，W_k为1×1卷积核权重，K_v表示空间维度的核大小，设置为3，k表示3种分区策略，k＝0时，表示关节点本身；k＝1时，表示距关节点距离为1的邻接关节点集；k＝2，表示距关节点距离为2的邻接关节点集。

进一步地，所述空间图卷积模块由依次连接的空间卷积层、第一批处理标准化层、第一激活函数层、第一随机丢弃处理层组成，所述第一随机丢弃处理层的Dropout率设置为0.5。

进一步地，所述时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息的过程具体为：使用1×K_t的卷积核对空间图卷积输出特征图进行时间卷积操作，获取时间特征信息，其中K_t是内核感受野内考虑的帧数。

进一步地，所述时间卷积模块由时间卷积层、第二批处理标准化层、第二激活函数层、第二随机丢弃处理层组成，所述第二随机丢弃处理层的Dropout率设置为0.5。

进一步地，所述时间注意力模块用于建立获取的时间特征信息的帧内相关性的方法具体为：

其中，f_out2表示输出的帧内相关性的特征图，t表示帧数，

表示与关节点v_ti相关联的查询矩阵，

表示与关节点v_ui相关联的键矩阵，

表示与关节点v_ui相关联的值矩阵，v_ti与v_ui分别代表不同帧的同一关节点，

表述矩阵相乘，softmax()表示softmax函数。

进一步地，所述通道注意力模块用于获取时空特征图的过程具体为：将帧内相关性的特征图进行挤压操作，然后依次经过第一全连接层、PReLU激活函数、第二个全连接层、Sigmoid激活函数，将得到的结果与帧内相关性的特征图相乘，并且通过残差连接的方式与时空图合并，或得时空特征图。

进一步地，所述softmax分类器用于预测时空图的动作分类的方法具体为：分别获取时空图中关节点信息的时空特征图的分数、骨骼信息的时空特征图的分数以及对应的权重，通过叠加每个动作的得分，得出每个动作的得分概率，得分概率最高的动作即为识别出的动作。

进一步地，所述基于注意力机制的自适应图卷积网络在训练过程中采用Nesterov动量为0.9的随机梯度下降法作为优化策略。

与现有技术相比，本发明具有如下有益效果：本发明基于注意力机制的自适应图卷积网络的动作识别方法通过加入时间注意力模块，克服了标准卷积的严格局部性，能够提取动作中每个关节的关节帧信息，并通过通道注意力模块有效的增强对更重要的特征信息提取能力，从而提取与动作更相关的特征，消除冗余特征的影响，从而提高动作识别的准确率。

附图说明

图1为本发明基于注意力机制的自适应图卷积网络的动作识别方法的流程图；

图2为公开数据集NTU+RCB+D定义的关节点示意图；

图3为时空图；

图4为本发明中分区策略示意图；

图5为本发明中邻接矩阵D_k的示意图；

图6为本发明中时间注意力模块示意图；

图7为本发明中通道注意力模块示意图；

图8为本发明中基于注意力机制的自适应图卷积网络的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步地解释说明。

本发明基于现有的自适应图卷积神经网络模型，将时间注意力模块及通道注意力模块加入自适应图卷积网络中，引入注意力去计算每个节点的邻居节点对它的权重，同时通过堆叠这些隐藏自注意层来获取临近点的特征，从而避免大量的矩阵运算。由于只与相邻节点有关，则无需知道整张图结构，通过获取节点的重要性程度就可针对节点进行处理，增加节点表达的能力，提高了分类预测结果的准确性。如图1为本发明基于注意力机制的自适应图卷积网络的动作识别方法的流程图，该动作识别方法具体包括如下步骤：

(1)将人体运动视频使用姿态估计算提取骨架序列，骨架序列是用每帧中所有关节点的三维坐标表示，如图2为NTU+RCB+D数据集所定义的人体关节点，将人体定义为25个关节点，再通过骨架序列构建时空图G＝(V,E)，如图3所示，其中，V＝{v_ti|t＝1,2，…,T,i＝1,2,…,N}表示关节点信息，t表示帧数索引，i表示关节点索引，T表示总帧数，N表示人体关节点数量，每个节点信息由空间坐标(x,y,z)组成的特征向量表示，E表示骨骼信息，由E_s和E_t组成，E_s表示在相同帧上的关节点的自然连接，是帧内连接；E_t表示同一个关节点在相邻帧上的连接，是帧间连接。由于骨骼骼绑定了两个关节点，因此定义靠近骨骼重心(重心在人体骨架图的胸部)的关节为源关节，远离重心的关节为目标关节。每个骨骼都表示从其源关节指向其目标关节的向量，该向量包含长度信息和方向信息。例如给定一个带有源关节的骨头v₁＝(x₁，y₁,z₁)和它的目标关节v₂＝(x₂，y₂,z₂)，则骨骼向量为

因为中心关节没有分配给任何骨骼，使得关节的数量比骨骼的数量多一个，因此向中心关节添加一个值为0的空骨骼，这样骨骼可以和关节使用相同的网络。

(2)构建基于注意力机制的自适应图卷积网络，如图8，该自适应图卷积网络包括依次连接的空间图卷积模块、时间卷积模块、时间注意力模块、通道注意力模块、softmax分类器，其中，空间图卷积模块用于获取时空图的空间图卷积输出特征图；时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息；时间注意力模块用于建立获取的时间特征信息的帧内相关性；通道注意力模块用于获取时空特征图，并通过残差连接的方式与输入的时空图进行合并；softmax分类器用于预测时空图的动作分类；具体包括如下子步骤：

(2.1)考虑到“行走”等动作，手和腿的联系很大，但是手和腿没有直接相连，导致最终动作识别任务结果不佳，所以要创造不存在的连接，因此搭建了空间图卷积模块，本发明中空间图卷积模块由依次连接的空间卷积层、第一批处理标准化层、第一激活函数层、第一随机丢弃处理层组成，第一随机丢弃处理层的Dropout率设置为0.5。将时空图输入至空间图卷积模块中，其中，输入的时空图f_in的维度大小为C_in×T×N(C_in为通道数)。将计算过后的邻接矩阵A_k、数据驱动图矩阵B_k和图注意力矩阵D_k相加得到N×N的矩阵，再与维度变换成C_inT×N的输入的时空图f_in相乘，经过一个1×1卷积改变其通道数得到C_outT×N，并将其重新排列得到C_out×T×N的空间图卷积输出特征图f_out1。为了使该层被加入到任何现有模型不丢失初始动作，将输入的时空图f_in经过一个跳跃连接与空间图卷积输出特征图f_out相加得到最终图卷积输出特征图，其维度为C_out×T×N。

其中，f_out1表示空间图卷积输出特征图，f_in()表示输入的时空图，A_k为邻接矩阵，B_k为数据驱动图矩阵，D_k为图注意力矩阵，W_k为1×1卷积核权重，K_v表示空间维度的核大小，设置为3，k表示3种分区策略，如图4所示，k＝0时，表示关节点本身；k＝1时，表示距关节点距离为1的邻接关节点集；k＝2，表示距关节点距离为2的邻接关节点集。

A_k是N×N的邻接矩阵，它是表示节点之间相邻关系的矩阵，是单帧内关节的自然连接，通过关联节点与不同距离的邻居节点的联系从而加强身体各部分信息的关联，使对身体局部信息的感知更具敏感性，从而进一步提升识别精度。

其中

为单位矩阵表示关节点的自连接；

表示距关节点距离为1的邻接关节点与关节点的关联性矩阵；

表示距关节点距离为2的邻接关节点与关节点的关联性矩阵，即

和

为经过归一化的对角矩阵。

B_k＝A_k·M_k,其中，M_k为可学习的权重矩阵，·为点积，B_k不仅能够充分利用初始的物理连接关系，还可以在训练过程中优化图的拓扑结构，更新骨骼信息的权重。

D_k能够针对每个样本进行动作建模，增强网络的个性化，如图5所示，

θ和

均为可知的嵌入函数，其嵌入系数为4，设置1×1卷积层作为两个嵌入函数θ(·)和

使用θ(·)将输入的时空图的输入通道数改变为C_e＝输出通道数/嵌入系数，即f_in的大小变为C_e×T×N的特征图。同理，

作用与θ(·)一样，也将f_in的大小变为C_e×T×N。将上面的两个特征图重新排列和重塑为N×C_eT矩阵和C_eT×N矩阵，然后相乘经过一个归一化函数Softmax得到N×N的相似矩阵D_k，W_θ和

分别是可知的1×1卷积层θ(·)和

的卷积核权重。

(2.2)本发明中时间卷积模块由时间卷积层、第二批处理标准化层、第二激活函数层、第二随机丢弃处理层组成。使用1×K_t的卷积核对空间图卷积输出特征图C_out×T×N中的T×N二维进行时间卷积操作，获取时间特征信息，其中K_t是内核感受野内考虑的帧数。时间卷积后经第二批处理标准化(BN)层，第二激活函数(ReLU)层和第二随机丢弃处理(Dropout)层，Dropout率设置为0.5。

(2.3)使用时间注意力模块沿着所有的帧分别研究每个关节的动力学，即每单个关节被认为是独立的，并且通过比较同一身体关节沿着时间维度的变化来计算帧之间的相关性。利用时间注意力模块来提取时间维度上的特征信息，如图6所示。将时间特征信息大小为C_out×T_out×N输入到时间注意力模块中，经过查询矩阵Q和键矩阵K的1×1卷积将通道数改变为

其中，F为卷积核大小，P为填充值，S为步长，并将经过空间图卷积和时间卷积的两个特征图进行重塑得到一个T_out×C_aN矩阵和一个C_aN×T_out矩阵，再经过矩阵相乘和归一化得到T_out×T_out的矩阵。值向量V将时间特征信息大小为C_out×T_out×N重新排列得到C_outN×T_out，与T_out×T_out相乘得到C_outN×T_out,再经过1×1卷积与f_out2的一个跳跃连接相加得到输出的帧内相关性的特征图f_out2维度为C_out×T_out×N：

其中，f_out2表示输出的帧内相关性的特征图，t表示帧数，

表示与关节点v_ti相关联的查询矩阵，

表示与关节点v_ui相关联的键矩阵，

表述矩阵相乘，softmax()表示softmax函数。

(2.4)为了能够获取更好的动作特征表示，本发明搭建了通道域的注意力机制(SE)，在空间图卷积和带有时间注意力的时间卷积后添加了通道注意力模块，如图7所示。对将帧内相关性的特征图f_out2进行挤压操作F₁得到矩阵Z，实现全局信息嵌入，矩阵Z表示在时间和空间维度上进行平均池化操作，计算过程为：

其中u的维度是T×N是经过该步骤输出的矩阵Z的元素，m和n分别是T和N上的点，(m,n)是T×N的坐标点。将时间信息和空间信息压缩到通道进行处理。把C_out×T_out×N的帧内相关性的特征图f_out2压缩为C_out×1×1的向量，即将T_out×N的二维特征通道变成一个实数，这个实数具有全局的感受野。为了利用在挤压操作中聚集的信息，接下来对矩阵Z进行变换：

S＝σ(W₂δ(W₁Z)

其中，σ表示Sigmoid激活函数，δ表示PReLU激活函数；W₁是维度为

的全连接层权重矩阵，W₂是维度为

的全连接层权重矩阵，W₁Z是第一全连接层操作，

是全连接层中的隐藏层，r是根据SE模块的大小和计算成本设置的超参数。再通过ReLU激活函数层，然后与W₂相乘这步是第二全连接层操作，得到维度C_out×1×1，经过Sigmoid函数得到S。S为每个特征通道的重要性，最后将S与帧内相关性的特征图f_out2相乘，并通过残差的方式与时空图相加，得到该通道注意力模块的时空特征图f_out，维度为C_out×T_out×N。

本发明中空间图卷积层的通道数为64，第一批标准化层的通道数为64、第一激活函数层的通道数为64、第一随机丢弃处理层的通道数为128，时间卷积层的通道数为128，第二批处理标准化层的通道数为128，第二激活函数层的通道数为256，时间注意力模块的通道数为256，通道注意力模块的通道数为256。在开始时添加数据BN层以标准化输入数据，输入数据执行步骤(2.1)-(2.4)中的每个操作，然后执行全局平均池化层(GlobalAveragePooling)以将不同样本的特征映射池化为相同大小。

(2.5)分别获取时空图中关节点信息的时空特征图的分数、骨骼信息的时空特征图的分数以及对应的权重，通过叠加每个动作的得分，得出每个动作的得分概率，得分概率最高的动作即为识别出的动作。

(3)将步骤(1)中构建的时空图输入至基于注意力机制的自适应图卷积网络中进行训练，采用Nesterov动量为0.9的随机梯度下降法作为优化策略，以交叉熵作为损失函数来反向传播梯度，权重衰减为0.0001，训练64次后，完成对自适应图卷积网络的训练；

通过本发明基于注意力机制的自适应图卷积网络的动作识别方法，通过加入时间注意力模块克服了标准卷积的严格局部性，能够提取动作中每个关节的关节帧信息，并通过通道注意力模块有效的增强对更重要的特征信息提取能力。加入这个两个注意力帮助提取与动作更相关的特征，从而提高动作识别的准确率。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施方式，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，具体包括如下步骤：

(1)将人体运动视频使用姿态估计算提取骨架序列，通过骨架序列构建时空图G＝(V，E)，其中，V＝{v_ti|t＝1，2，…，T，i＝1，2，…，N}表示关节点信息，t表示帧数索引，i表示关节点索引，T表示总帧数，N表示人体关节点数量，E表示骨骼信息，由E_s和E_t组成，E_s表示在相同帧上的关节点的自然连接，E_t表示同一个关节点在相邻帧上的连接；

2.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述空间图卷积模块用于获取时空图的空间特征图的具体过程为：

3.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述空间图卷积模块由依次连接的空间卷积层、第一批处理标准化层、第一激活函数层、第一随机丢弃处理层组成，所述第一随机丢弃处理层的Dropout率设置为0.5。

4.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息的过程具体为：使用1×K_t的卷积核对空间图卷积输出特征图进行时间卷积操作，获取时间特征信息，其中K_t是内核感受野内考虑的帧数。

5.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述时间卷积模块由时间卷积层、第二批处理标准化层、第二激活函数层、第二随机丢弃处理层组成，所述第二随机丢弃处理层的Dropout率设置为0.5。

6.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述时间注意力模块用于建立获取的时间特征信息的帧内相关性的方法具体为：

其中，f_out2表示输出的帧内相关性的特征图，t表示帧数，

表示与关节点v_ti相关联的查询矩阵，

表示与关节点v_ui相关联的键矩阵，

表述矩阵相乘，softmax()表示softmax函数。

7.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述通道注意力模块用于获取时空特征图的过程具体为：将帧内相关性的特征图进行挤压操作，然后依次经过第一全连接层、PReLU激活函数、第二个全连接层、Sigmoid激活函数，将得到的结果与帧内相关性的特征图相乘，并且通过残差连接的方式与时空图合并，或得时空特征图。

8.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述softmax分类器用于预测时空图的动作分类的方法具体为：分别获取时空图中关节点信息的时空特征图的分数、骨骼信息的时空特征图的分数以及对应的权重，通过叠加每个动作的得分，得出每个动作的得分概率，得分概率最高的动作即为识别出的动作。

9.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法，其特征在于，所述基于注意力机制的自适应图卷积网络在训练过程中采用Nesterov动量为0.9的随机梯度下降法作为优化策略。