CN113111760A

CN113111760A - 基于通道注意力的轻量化图卷积人体骨架动作识别方法

Info

Publication number: CN113111760A
Application number: CN202110372148.8A
Authority: CN
Inventors: 刘成菊; 党荣浩; 陈启军; 张恒
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-07-13
Anticipated expiration: 2041-04-07
Also published as: CN113111760B

Abstract

本发明涉及一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，包括以下步骤：S1：获取视频影像中人体骨架的骨架序列信息；S2：添加关节点索引信息，并计算骨架关节点的邻接矩阵；S3：利用邻接矩阵以及引入通道注意力机制的残差GCN网络提取骨架序列的空间特征，所述的邻接矩阵在使用时进行随机失活处理；S4：添加帧索引信息，并进行最大池化处理；S5：利用一阶CNN网络提取骨架序列的时间特征；S6：通过最大池化生成最终的特征序列，并得到识别分类结果，与现有技术相比，本发明具有鲁棒性、实时性和准确性高等优点。

Description

基于通道注意力的轻量化图卷积人体骨架动作识别方法

技术领域

本发明涉及计算机视觉和深度学习领域，尤其是涉及一种基于通道注意力的轻量化图卷积人体骨架动作识别方法。

背景技术

人体动作识别是计算机视觉领域的重要研究方向，有着广阔的应用场景和市场价值，比如：异常行为监控、用户行为分析等。骨架序列数据是一种抽象化的人体动作数据，利用3D坐标、关节索引和关节连接关系表示了人体各个关键部位的运动。早期的骨架动作识别方法中，大多采用手工提取的特征，利用特征映射等方式对数据进行处理整合。深度学习的方法兴起后，利用神经网络对骨架的时空信息进行建模渐渐的变为主流，相继出现了基于RNN、CNN、GCN等各种方法，并且效果明显优于基于手工特征的方法。

基于RNN递归神经网络的方法主要是利用LSTM/GRU等模型建模骨架序列的时间动态变化。但这种方法只是将每一帧的关节三维坐标信息以某种顺序排列成一个向量输入到递归神经网络中，并对不同的关节进行区分，也就丢失了重要的空间信息。CNN卷积神经网络在图像处理领域愈发的火热，研究者通过将骨架信息编排成伪图片的形式，即将三维坐标(x,y,z)类比成图像中的三通道(R,G,B)，将时间序列和关节索引类比成图像的长宽。这样，通过基本的二维CNN卷积操作就能够将时间和空间的信息聚合起来，提取时空的联合特征。但是这样的数据组织无法表示关节之间的拓扑结构和连接关系，关节之间的相互影响也难以进行有效的建模。

用于骨架动作识别的GCN图卷积神经网络包括ST-GCN、AS-GCN和2S-AGCN。ST-GCN是利用GCN方法解决动作识别问题的开端，此方法使用时空图卷积网络不断的聚合相邻关节和相邻帧之间的特征，实现了对于人体关节自然连接关系的建模。AS-GCN对于ST-GCN中的问题进行了改进，发现自然连接较远的关节之间也会有隐连接，如走路时手和脚的摆动。所以AS-GCN将训练分为两路，一路侧重于探索结构之间的连接，另一路侧重于探索动作导致的节点之间的隐连接。2S-AGCN中提出了自适应图卷积方法，将邻接矩阵分为三部分的叠加：原始连接、训练出来的关节相关性、根据每个输入计算的关节相似性，更加灵活的对关节之间的关系进行了建模。

如今利用图卷积神经网络的骨架动作识别方法仍在不断的发展中，对于建模节点-骨架关系、时空联合特征以及轻量化网络等方面，仍需要进一步探索，以进一步提高骨架动作识别的鲁棒性、实时性和准确性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种鲁棒性好、实时性强和准确性高的基于通道注意力的轻量化图卷积人体骨架动作识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，包括以下步骤：

S1：获取视频影像中人体骨架的骨架序列信息；

S2：添加关节点索引信息，并计算骨架关节点的邻接矩阵；

S3：利用邻接矩阵以及引入通道注意力机制的残差GCN网络提取骨架序列的空间特征，所述的邻接矩阵在使用时进行随机失活处理；

S4：添加帧索引信息，并进行最大池化处理；

S5：利用一阶CNN网络提取骨架序列的时间特征；

S6：通过最大池化生成最终的特征序列，并得到识别分类结果。

进一步地，步骤S1具体包括：

S11：对视频影像中的人体骨架建模并进行预处理，得到初始骨架序列信息；

S12：利用相邻帧之间作差的方式，获取初始骨架序列信息中的一阶信息、二阶信息和三阶信息；

S13：在保证数据初始维度不变的情况下，将一阶信息、二阶信息和三阶信息融合相加，得到最终的骨架序列信息。

进一步地，步骤S2中，利用两个全连接层对骨架关节点之间相似性和亲和度的建模，通过内积计算得到邻接矩阵。

更进一步地，所述的邻接矩阵的计算式为：

其中，G为邻接矩阵，z_t为第t帧的骨架序列信息，θ(z_t,i)为双层全连接层θ对第t帧骨架序列信息z_t进行编码后的数据，

为双层全连接层

对第t帧骨架序列信息z_t进行编码后的数据，所述的双层全连接层θ和双层全连接层

为两个权重不共享的双层连接层。

进一步地，所述的引入通道注意力机制的残差GCN网络为多层结构，每一层分别包括GCN网络模块、残差连接模块和通道注意力机制模块，所述的通道注意力机制模块接入于GCN网络模块的输出和残差连接模块之间，所述的GCN网络模块的输入包括邻接矩阵和融合了关节点索引信息的骨架序列信息。

更进一步地，所述的引入通道注意力机制的残差GCN网络的每一层中输入GCN网络模块的邻接矩阵均采用前一个邻接矩阵经过随机失活之后的结果。

更进一步地，所述的通道注意力机制模块首先通过全局平局池化层聚合每个通道的信息，再通过利用Relu层进行非线性激活的两个全连接层，最后通过sigmoid层得到每个通道的权重值。

更进一步地，所述的通道注意力机制模块用于获取每个通道的权重,其计算式如下：

Y_t＝G_tZ_tW_y

M_t＝Attention(Y_t)

Y_t-out＝M_tY_t

其中，W_y为可学习的参数，

表示第t时刻通道c的注意力权重，Y_t为经过图卷积神经网络网络进行节点信息传递后的特征图，Y_t-out为经过通道激活后的人体骨架特征图，G_t为经随机失活后输入通道注意力机制模块的邻接矩阵，Z_t为输入通道注意力机制模块的骨架序列信息。

进一步地，步骤S4具体为：

首先将帧索引信息通过独热编码加到每一帧的空间特征中，再利用空间最大池化的将每一帧的关节信息进行聚合；

步骤S6具体为：

利用时间维度的最大池化生成最终的特征序列，再用全连接层和softmax层生成最终的分类结果。

进一步地，步骤S5中，所述的一阶CNN网络首先利用一维的CNN模型进行局部时间特征聚合，然后进行批标准化和Relu激活，再利用dropout层防止过拟合，最后再利用1×1卷积将特征映射到高维空间。

与现有技术相比，本发明具有以下优点：

1)本发明在图卷积网络中引入了通道注意力机制，将节点通道之间的相互依赖性关系进行了建模，对GCN输出的特征在通道方向进行自适应的重新校准，提高了整个网络对于节点特征通道信息挖掘的深度，从而提高了整体的识别效果，和识别稳定性；

2)本发明对邻接矩阵进行了随机失活处理，降低了关节之间的强依赖关系，也使得训练过程中邻接矩阵生成的训练和后面空间特征提取的训练有效的分离，消除了特定关节之间的强依赖关系，减弱了关节间关系建模的过拟合情况，让生成邻接矩阵的网络拥有更强的泛用性，使得在识别数据集外的骨架视频序列时能够有更好的鲁棒性；

3)本发明将空间特征提取和时间特征提取分离开来，有效的避免了时空图卷积庞大的计算量，也使得特征提取的难度降低，能够使用更加简单，参数量更小的方法实现特征的聚合，较小的计算量也使得这种算法在移动端和可穿戴设备上的部署可行性更强；

4)本发明在空间特征提取和时间特征提取前分别引入了关节点索引信息和时间序列索引信息，使得空间上的骨架连接和时间上的骨架运动都拥有方向上的意义，提高识别分类的效果；

5)本发明将初始骨架序列信息分成一阶信息、二阶信息和三阶信息的三通道信号，并将三通道信号融合相加，在保证数据初始维度不变的情况下，得到更加丰富的骨架序列信息，提高识别分类的效果。

附图说明

图1是本发明算法的流程图；

图2是本发明算法的空间特征提取，即引入通道注意力机制的残差GCN网络(CA-GCN)的结构示意图；

图3是本发明算法的时间特征提取，即一阶CNN网络(first-order CNN)的结构示意图；

图4是本发明算法的通道注意力机制模块(CA-Block)的结构示意图；

图5是NTU-RGBD数据集的骨架结构图；

图6是本发明动作识别方法与其他现有动作识别方法在NTU-RGBD60数据集上的效果对比示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明公开了一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，包括以下步骤：

S1：获取视频影像中人体骨架的骨架序列信息，具体包括：

其中，步骤S11中通过openpose等姿态估计算法对视频影像中的人体骨架建模；初始骨架序列信息中的一阶信息、二阶信息和三阶信息分别对应为位置、速度和加速度的三通道信号，三通道相加融合能够得到更加丰富的骨架序列信息。

S2：添加关节点索引信息，并计算骨架关节点的邻接矩阵，具体为：利用两个的FC层建模初始骨架点之间的相似性和亲和度，从而计算出可学习的邻接矩阵；

S3：利用邻接矩阵以及引入通道注意力机制的残差GCN网络提取骨架序列的空间特征；

其中，邻接矩阵在使用时进行随机失活处理，对其矩阵中的信息进行一定概率的随机dropout，消除了特定关节之间的强依赖关系，减弱了关节间关系建模的过拟合情况；通道注意力机制接到图卷积输出和残差连接之间，建模关节通道之间的相互依赖性，并自适应的校准通道之间的特征响应；

S4：添加帧索引信息，并进行空间最大池化处理，利用空间最大池化聚合关节信息；

S5：利用一阶CNN网络提取骨架序列的时间特征，具体为：利用一维CNN对时间序列进行特征提取，再用1×1卷积将特征映射到高维空间；

S6：通过最大池化生成最终的特征序列，并得到识别分类结果，具体为用时间维度上的最大池化层聚合时间信息生成最终的特征序列。

本发明中空间特征的提取和时间特征的提取是分开进行的，首先利用GCN提取空间信息，再利用一维CNN提取时间信息，两者串联进行，且在空间特征提取和时间特征提取前分别引入了关节点索引信息和时间序列索引信息，使得空间上的骨架连接和时间上的骨架运动都拥有方向上的意义。

如图1所示，下面给出本发明的具体实施过程：

步骤1：通过openpose等姿态估计算法对视频影像中的人体骨架进行建模。

本步骤中，采用NTU-RGBD数据集作为训练数据，其骨架数据如图5所示，有25个关节点，在测试时使用openpose方法生成25个节点骨架数据。

步骤2：对骨架信息进行标准化预处理，并根据受试者和相机角度划分训练集和测试集。

本步骤中，首先从skeleton文件中读取原始的骨架数据，以一个视频骨架序列为一组，并按照.pkl的格式储存原始数据。之后剔除出现视频过短、骨架横纵比失调、骨架数过多等问题的骨架序列，并储存为.pkl格式。最后将每一帧的骨架图居中，并按照不同受试者和不同摄像头角度这两种方式划分测试集和训练集。

步骤3：利用相邻帧之间做差获得骨架的高阶信息，将骨架的一阶、二阶和三阶信息融合并添加骨架索引信息。

本步骤中，先利用相邻帧之间做差生成骨架序列的速度和加速度信息，为了保证序列长度相同在做差后均将初始端的数字复制一次。之后利用两层的全连接层对位置、速度和加速度信息分别进行编码，再通过编码后的直接相加进行信息的融合。

步骤4：利用融合后的节点信息计算骨架点的邻接矩阵。

本步骤中，使用两个不同的双层全连接层θ和

对融合了关节点索引信息的骨架序列信息Z(T×J×C_n)进行编码，分别得到θ(z_t,i)和

其中T为帧数，J为关节点数，C_n为维度，为了求得关节之间的连接关系，即邻接矩阵，我们将这两个编码后的数据进行內积

得到后面图卷积过程中使用的邻接矩阵G，即邻接矩阵的计算式为：

为双层全连接层

为两个权重不共享的双层连接层。

步骤5：利用邻接矩阵和串联了通道注意力机制的残差GCN网络提取骨架序列的空间特征。

本步骤中，如图2所示，利用通道注意力机制和GCN结合的方式实现的空间特征的提取，引入通道注意力机制的残差GCN网络(CA-GCN)为多层结构，每一层分别包括GCN网络模块、残差连接模块和通道注意力机制模块，通道注意力机制模块接入于GCN网络模块的输出和残差连接模块之间，GCN网络模块的输入包括邻接矩阵和融合了关节点索引信息的骨架序列信息。

首先，为了减少计算量，将每个GCN网络模块的邻接矩阵都采用之前计算出来的邻接矩阵G经过随机失活之后的结果，即将邻接矩阵中的元素按照一定的概率随机置零，再利用Y_t＝G_tZ_tW_y公式在骨架图之间进行信息传递，其中W_y是可学习的参数。之后再通过如图4所示的通道注意力机制模块探索通道之间的依赖关系，并求得每个通道的权重，公式如下：

M_t＝Attention(Y_t)

Y_t-out＝M_tY_t

其中，W_y为可学习的参数，

表示第t时刻通道c的注意力权重，Y_t为经过图卷积神经网络网络进行节点信息传递后的特征图，Y_t-out为经过通道激活后的人体骨架特征图，G_t为经随机失活后输入通道注意力机制模块的邻接矩阵，Z_t为未经过图卷积信息聚合的骨架序列信息。

通道注意力机制模块先通过一个全局平局池化聚合每个通道的信息，再通过用Relu层进行非线性激活的两个全连接层和最后的sigmoid层得到每个通道的权重值。

步骤6：添加帧索引信息并对骨架点信息进行最大池化。

本步骤中，首先将帧索引信息进行独热编码加到每一帧的空间特征中，再利用最大池化的方法将每一帧的关节信息进行聚合，得到一个T×1×C₂维度的向量。

步骤7：利用一阶的CNN网络提取骨架序列时间特征。

本步骤中，如图3所示，一阶的CNN网络首先利用一维的CNN对骨架序列的局部时间特征进行聚合，卷积核大小为(1,3)，padding＝(0,1)。之后进行归一化和Relu激活，再利用dropout层防止过拟合。后一个CNN是将学习到的时间特征映射到更高维的核空间，从而增强特征向量的表达能力。

步骤8：对帧的时间信息进行最大池化，并通过全连接层输出分类类别。

本步骤中，利用时间维度的最大池化生成最终的特征序列，再用全连接层和softmax生成最终的分类结果。

本发明将CNN领域中的通道注意力机制引入到了GCN中来，并提高了对于骨架动作识别任务中空间信息提取的能力，让通道之间的相互依赖关系得以被建模。并且将CNN网络中的dropout随机神经元失活的思想引入到了邻接矩阵的应用中，使得每一次GCN都运用的不同的邻接矩阵进行计算，让骨架之间的耦合关系更加的灵活不至于过拟合，增强了对于不同数据集的鲁棒性。通过时空信息提取网络串联的方式，降低了整体的计算量和参数量，使用有针对性的定制化方式对时空信息进行处理是提高信息提取效率的关键。本算法在NTU-RGBD60数据集上以不同受试者为数据集划分依据的情况下，测试准确为88.565％，参数量为839464。如图6所示，相比于ST-GCN、AS-GCN等先进的图网络方法，我们方法的参数量和精度都有着较大的优势。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，包括以下步骤：

S1：获取视频影像中人体骨架的骨架序列信息；

S2：添加关节点索引信息，并计算骨架关节点的邻接矩阵；

S4：添加帧索引信息，并进行最大池化处理；

S5：利用一阶CNN网络提取骨架序列的时间特征；

2.根据权利要求1所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，步骤S1具体包括：

3.根据权利要求1所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，步骤S2中，利用两个全连接层对骨架关节点之间相似性和亲和度的建模，通过內积计算得到邻接矩阵。

4.根据权利要求3所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，所述的邻接矩阵的计算式为：

为双层全连接层

为两个权重不共享的双层连接层。

5.根据权利要求1所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，所述的引入通道注意力机制的残差GCN网络为多层结构，每一层分别包括GCN网络模块、残差连接模块和通道注意力机制模块，所述的通道注意力机制模块接入于GCN网络模块的输出和残差连接模块之间，所述的GCN网络模块的输入包括邻接矩阵和融合了关节点索引信息的骨架序列信息。

6.根据权利要求5所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，所述的引入通道注意力机制的残差GCN网络的每一层中输入GCN网络模块的邻接矩阵均采用前一个邻接矩阵经过随机失活之后的结果。

7.根据权利要求5所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，所述的通道注意力机制模块首先通过全局平局池化层聚合每个通道的信息，再通过利用Relu层进行非线性激活的两个全连接层，最后通过sigmoid层得到每个通道的权重值。

8.根据权利要求5或7所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，所述的通道注意力机制模块用于获取每个通道的权重,其计算式如下：

Y_t＝G_tZ_tW_y

M_t＝Attention(Y_t)

Y_t-ouf＝M_tY_t

其中，W_y为可学习的参数，

9.根据权利要求1所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，步骤S4具体为：

步骤S6具体为：

10.根据权利要求1所述的一种基于通道注意力的轻量化图卷积人体骨架动作识别方法，其特征在于，步骤S5中，所述的一阶CNN网络首先利用一维的CNN模型进行局部时间特征聚合，然后进行批标准化和Relu激活，再利用dropout层防止过拟合，最后再利用1×1卷积将特征映射到高维空间。