CN111860128A

CN111860128A - 一种基于多流快慢图卷积网络的人体骨骼行为识别方法

Info

Publication number: CN111860128A
Application number: CN202010503667.9A
Authority: CN
Inventors: 孙宁; 冷令; 李晓飞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-10-30
Anticipated expiration: 2040-06-05
Also published as: CN111860128B

Abstract

本发明公开了一种基于多流快慢图卷积网络的人体骨骼行为识别方法。本发明涉及图像识别技术领域，本发明将快慢网络的思想与图卷积网络相结合，快网络可以有效提取骨骼序列的时间信息，慢网络可以有效期提取骨骼序列的空间信息，侧向连接的方式加强了两路网络之间的信息交互。通过应用不同的注意力机制加强了时空特征的提取和整合。由于采样和降低通道数的做法也大幅减少了计算量。通过引入多流结构，进一步增强了空间上的信息提取能力，提高了基于骨骼关节点的行为识别方法的识别率和鲁棒性。

Description

一种基于多流快慢图卷积网络的人体骨骼行为识别方法

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于多流快慢图卷积网络的人体骨骼序列行为识别方法。

背景技术

行为识别在智能视频监控，自动驾驶，人机交互，运动分析等许多应用起着重要作用。根据输入数据类型，行为识别可以大致分为两类：RGB图像序列和骨骼序列。对于RGB图像序列，通常使用空间外观和时间光流来对人体行为进行建模，但是，RGB图像序列中的人体外观易受光照、视角和背景等因素影响。骨骼序列是人体关节点在时间和空间上的集合，与RGB图像序列相比，具有数据量小，不易受干扰的优点。骨骼序列以及被验证可以有效地表征人体行为的动力学特征。同时，随着以微软Kinect为代表的深度摄像机的普及和以Openpose为代表的高性能姿态估计算法的出现使得获取人体骨骼序列信息越来越便捷，由此也极大地促进了基于骨骼序列的行为识别方法的研究。近年来，不少研究者使用图卷积网络，对人体骨骼序列进行时空建模，并基于上述特征成功地识别其包含的行为类别。在空间维度上，骨骼数据利用少数关节点可以精炼地表征人体的当前姿态；但是在时间维度上，骨骼数据依然存在着大量的冗余信息，相邻帧的骨骼数据相关性极高。如何在消除骨骼序列时间维度上的冗余信息，并充分利用空间信息是目前基于骨骼序列行为识别的一个难题。

发明内容

针对上述问题，本发明提供了一种基于多流快慢图卷积网络的人体骨骼序列行为识别方法，该方法通过对采样率不同的骨骼序列使用两种不同的图卷积模型作为快慢两路，分别提取时间特征和空间特征，从而大幅减少计算量的前提下，获取较传统图卷积方法更优的时空特征提取能力，来对骨骼序列进行行为识别。

本发明的技术方案是：一种基于多流快慢图卷积网络的人体骨骼行为识别方法，包括以下步骤：

步骤(1.1)、创建人体的骨骼序列行为数据库，使用姿态估计算法提取数据库内视频片段中每个人体的骨骼关节点；

将骨骼关节点的一阶坐标信息扩展至包括关节点空间差、关节点时间差和骨骼边的二阶信息，及包括骨骼边的空间差和骨骼边的时间差的三阶信息上，得到六种不同骨骼类型的骨骼序列数据；

对上述六种不同骨骼类型的骨骼序列数据进行校准，制作标签，从而获得人体骨骼行为数据集；

步骤(1.2)、构建多流快慢图卷积网络，所述的多流快慢图卷积网络由六路快慢图卷积网络组成；

其中，每一路快慢图卷积网络均由一个快网络、一个慢网络、侧向连接结构及注意力机制组成；

步骤(1.3)、对多流快慢图卷积网络进行训练，训练中的技巧包括随机梯度下降法训练策略，选择交叉熵作为反向传播梯度的损失函数；

步骤(1.4)、在行为类别的测试过程中，将人体骨骼序列数据输入到多流快慢图卷积网络中，得到该行为的分类结果。

进一步的，步骤(1.1)中所述的骨骼关节点：是使用姿态估计算法提取视频行为数据集中每个视频帧中的人体骨骼关节点，并将其处理为维度为(N,C,T,V,M)的骨骼序列，

其中，所述N表示视频的数量，C表示关节的特征，T表示帧数，V表示关节的数量，M表示一帧图像中存在的人体数量。

进一步的，在步骤(1.1)中，

所述骨骼边信息：指从其源关节指向目标关节的向量；

所述骨骼关节点或骨骼边的时间差信息：指骨骼序列中两个连续帧之间的骨骼关节点或是骨骼边的坐标差；

所述骨骼关节点或骨骼边的空间差信息：是指骨骼序列中骨骼关节点与中心骨骼关节点或是骨骼边与中心骨骼边之间的差。

进一步的，步骤(1.2)中所述的快网络和慢网络分别输入的是使用不同采样策略的骨骼序列数据；

其中，输入快网络的是经过低帧率大间隔采样后的骨骼序列数据；

输入慢网络的是经过高帧率小间隔采样后的骨骼序列数据。

进一步的，步骤(1.2)中快慢图卷积网络构建中的快网络和慢网络；其中，快网络的提取时间特征能力较强采用时空图卷积网络结构；慢网络采用提取空间特征能力较强的自适应图卷积网络结构。

进一步的，步骤(1.2)中所述的注意力机制包括时间注意力、空间注意力和通道注意力。

进一步的，步骤(1.4)中所述的测试过程是：将关节点、关节点空间差、关节点时间差、骨骼边、骨骼边空间差和骨骼边时间差的数据分别输入到六路快慢图卷积网络中得到各自的输出分数，后将输出分数进行加权求和多流快慢图卷积网络的最后得分，作为该人体骨骼序列的行为分类结果。

采用上述技术方案，把视频数据处理成处理成5维矩阵(N,C,T,V,M)作为骨骼序列关节点数据，N表示视频的数量，C表示关节的特征，T代表关键帧的数量，V表示关节点个数，M表示人数；再进一步对骨骼序列的关节点的一阶坐标信息进行扩展得到二阶和三阶信息；骨骼边信息定义为从其源关节指向目标关节的向量；骨骼关节点或者骨骼边的时间差信息定义为骨骼序列中两个连续帧之间的骨骼关节点或是骨骼边的坐标差；骨骼关节点或者骨骼边的空间差信息定义为骨骼序列中骨骼关节点与中心骨骼关节点或是骨骼边与中心骨骼边之间的差；将数据进行正则化后输入到图卷积网络；把时间维度上高帧率小间隔采样后的序列输入快网络，其中的时空图卷积网络结构由于降低了通道数，提取空间能力弱，但是提取到了完整的时间特征，并在快网络中加入时间注意力机制加权空间特征提取；把低帧率大间隔采样后的骨骼序列输入慢网络，他的自适应图卷积网络结构可以加强学习人体关节之间的连接关系，并加入空间注意力机制，可以有效提取空间特征；在快网络中不同网络层数处分别提取出时间特征以自适应图卷积作为侧向连接进行维度变换融合到慢网络；最后快网络和慢网络在分别平均池化后拼接，再接入通道注意对时空特征进行融合；最后得到经过全连接层后得到softmax分数；然后把关节点空间差、关节点时间差、骨骼边、骨骼边空间差和骨骼边时间差另外五路数据分别输入到另外5路快慢图卷积网络中输出各自的分数，然后通过加权的方式将共六路的分数进行加权求和多流快慢图卷积网络的最后得分，作为该人体骨骼序列的行为分类结果。

本发明的有益效果是：本发明将快慢网络的思想与图卷积网络相结合，快网络可以有效提取骨骼序列的时间信息，慢网络可以有效期提取骨骼序列的空间信息，侧向连接的方式加强了两路网络之间的信息交互；通过应用不同的注意力机制加强了时空特征的提取和整合；由于采样和降低通道数的做法也大幅减少了计算量；通过引入多流结构，进一步增强了空间上的信息提取能力，提高了基于骨骼关节点的行为识别方法的识别率和鲁棒性。

附图说明

图1是本发明的结构流程图；

图2是本发明中各路多流快慢图卷积网络的结构流程图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面将对本发明中进行进一步的叙述；显而易见地，下面描述中的仅仅是一部分的实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些将本发明所述的技术方案应用于其它类似情景；为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图所述；一种基于多流快慢图卷积网络的人体骨骼行为识别方法，包括以下步骤：

步骤(1.2)、构建多流快慢图卷积网络(MSFGCN)，所述的多流快慢图卷积网络(MSFGCN)由六路快慢图卷积网络(SFGCN)组成；

其中，每一路快慢图卷积网络均由一个快网络(FGCN)、一个慢网络(SGCN)、侧向连接结构及注意力机制组成；

进一步的，在步骤(1.1)中，

所述骨骼边信息：指从其源关节指向目标关节的向量；

输入慢网络的是经过高帧率小间隔采样后的骨骼序列数据。

骨骼序列信息的扩展的具体方法为，把从其源关节指向目标关节的向量定义为骨骼边信息；骨骼序列中两个连续帧之间的骨骼关节点或是骨骼边的坐标差定义为骨骼关节点或者骨骼边的时间差信息；把骨骼序列中骨骼关节点与中心骨骼关节点或是骨骼边与中心骨骼边之间的差定义为骨骼关节点或者骨骼边的空间差信息。

多流快慢图卷积网络是由高帧率小间隔采样的慢网络和低帧率大间隔采样的快网络组成，且两路网络通过侧向连接进行信息交互；慢网络负责提取骨骼序列中的时间特征，快网络负责提取骨骼序列中的空间特征，侧向连接将快网络的特征融合到慢网络中；在快网络中加入时间注意力增强来增强其时间特征提取能力，在慢网络中加入空间注意力增强空间特征提取能力；快网络和慢网络的输出通过通道注意力机制进行融合，加强对时空特征的提取和整合；最后输入多流信息加强对骨骼序列时空特征的提取。

多流快慢图卷积网络的快网络包括9个时空图卷积单元，每个时空图卷积单元由图卷积结构，时间卷积结构，时间注意力机制和残差结构组成；图卷积结构的卷积核尺寸前三个单元为12，中间三个单元为24，后三个单元为48，目的是减少对空间的提取；时间卷积结构步长第4和第7个单元处为2，其他单元处为1；时间注意力机制对除了时间维度的特征取平均池化，经过非线性层后得到注意力得分乘到原特征上；残差结构是由残差块构成，残差块可以在尽可能保留有效信息地情况下加深网络层数并防止梯度爆炸；最后将小间隔采样共300帧的数据输入到快网络结构中，目的是可以让快网络充分提取时间特征。

多流快慢图卷积网络的慢网络包括9个自适应图卷积单元，每个自适应图卷积单元由自适应图卷积结构，时间卷积结构，空间注意力机制和残差结构组成；自适应图卷积结构的卷积核尺寸前三个单元为60，第四个单元为120，五六单元为168，第七个单元为240，最后两个个单元为336，其中5、6、8、9单元卷积核的变化是由于经过侧向连接的特征需要与空间特征融合，较大的卷积核尺寸目的是加强对空间特征的提取；时间卷积结构步长第4和第7个单元处为2，其他单元处为1；空间注意力机制对除了空间维度的特征取平均池化，经过非线性层后得到注意力得分乘到原特征上；并加上与快网络一致残差结构来加深网络层数并防止梯度爆炸；最后将大间隔采样的共60帧数据输入到慢网络结构中，目的是可以让减少时间冗余性的同时充分提取空间特征。

多流快慢图卷积网络的侧向连接采用自适应图卷积结构，自适应图卷积结构的卷积核尺寸为当前输入的快网络特征的两倍，分别在把快网络的第4和第7单元的特征经过侧向连接后拼接到慢网络的第4核第7个单元的特征，目的是加强对两路信息的交互。

将多流快慢图卷积网络的快网络提取时间特征核慢网络提取的空间特征，分别经过池化后拼接，再接入通道注意力机制，通道注意力机制的具体方法是把拼接后的特征经过非线性层后得到注意力得分乘到原特征，来加强对两路网络时空特征的提取与整合。

测试的具体方法：

将关节点、关节点空间差、关节点时间差、骨骼边、骨骼边空间差和骨骼边时间差共六路数据分别输入到六个SFGCN中得到各自的输出分数，然后将六路的分数进行加权求和MSFGCN的最后得分，作为该人体骨骼序列的行为分类结果。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims

1.一种基于多流快慢图卷积网络的人体骨骼行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多流快慢图卷积网络的人体骨骼行为识别方法，其特征在于，步骤(1.1)中所述的骨骼关节点：是使用姿态估计算法提取视频行为数据集中每个视频帧中的人体骨骼关节点，并将其处理为维度为(N,C,T,V,M)的骨骼序列，

3.根据权利要求1所述的一种基于多流快慢图卷积网络的人体骨骼行为识别方法，其特征在于，在步骤(1.1)中，

所述骨骼边信息：指从其源关节指向目标关节的向量；

4.根据权利要求1所述的一种基于多流快慢图卷积网络的人体骨骼行为识别方法，其特征在于，步骤(1.2)中所述的快网络和慢网络分别输入的是使用不同采样策略的骨骼序列数据；

输入慢网络的是经过高帧率小间隔采样后的骨骼序列数据。

5.根据权利要求1所述的一种基于多流快慢图卷积网络的人体骨骼行为识别方法，其特征在于，步骤(1.2)中快慢图卷积网络构建中的快网络和慢网络；其中，快网络的提取时间特征能力较强采用时空图卷积网络结构；慢网络采用提取空间特征能力较强的自适应图卷积网络结构。

6.根据权利要求1所述的一种基于多流快慢图卷积网络的人体骨骼行为识别方法，其特征在于，步骤(1.2)中所述的注意力机制包括时间注意力、空间注意力和通道注意力。

7.根据权利要求1所述的一种基于多流快慢图卷积网络的人体骨骼行为识别方法，其特征在于，步骤(1.4)中所述的测试过程是：将关节点、关节点空间差、关节点时间差、骨骼边、骨骼边空间差和骨骼边时间差的数据分别输入到六路快慢图卷积网络中得到各自的输出分数，后将输出分数进行加权求和多流快慢图卷积网络的最后得分，作为该人体骨骼序列的行为分类结果。