CN111310707B

CN111310707B - 基于骨骼的图注意力网络动作识别方法及系统

Info

Publication number: CN111310707B
Application number: CN202010128728.8A
Authority: CN
Inventors: 贺家凯; 周风余; 黄晴晴; 赵阳; 刘美珍; 尹磊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-06-20
Anticipated expiration: 2040-02-28
Also published as: CN111310707A

Abstract

本发明公开了基于骨骼的图注意力网络动作识别方法及系统，包括：对获取的动作数据集进行预处理，构建图数据；构建基于图注意力网络的骨骼动作识别神经网络，使用基于图注意力的方法对骨骼的时空信息进行建模，根据不同节点的重要性进行注意力标注，并提取骨骼数据的时空信息；用训练集训练网络，优化参数，得到基于骨骼的图注意力动作识别网络；将测试集输入到优化后的网络进行预测，得到对应的动作类别。本发明基于使用基于图注意力的方法对骨骼的时空信息进行建模，有效的提高了动作的识别精度。

Description

基于骨骼的图注意力网络动作识别方法及系统

技术领域

本发明属于动作识别技术领域，尤其涉及基于骨骼的图注意力网络动作识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

人类动作的识别一直是计算机视觉领域中很重要也非常具有挑战性的问题。人类动作识别技术应用在多个领域，如视觉监控、人机交互、视频索引/检索、视频摘要和视频理解等。

根据输入数据的不同，动作识别可以分为基于RGB数据的方法和基于骨骼的方法，相比于RGB数据，骨骼数据有对光照、颜色等具有很强的鲁棒性，数据量小，可以表达动作的大部分特征等优点，所以现在越来越多的研究人员基于骨骼来研究动作识别。

发明人在研究中发现，基于骨骼的深度学习的动作识别方法主要有基于LSTM的方法，基于CNN的方法和基于图卷积的方法。由于以上方法没有对不同的关节给予不同的关注，不能充分的利用骨骼数据集的优点。

发明内容

为克服上述现有技术的不足，本发明提供了基于骨骼的图注意力网络动作识别方法，基于图注意力(GAT)的方法充分的考虑到不同关节点的重要性，并且很强的泛化能力。

相比于其他的基于注意力的方法，该方法拥有更简单的网络框架，更高效的对骨骼点的注意力进行了标注，同时提取了时空特征。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

基于骨骼的图注意力网络动作识别方法，包括：

对获取的动作数据集进行预处理，构建图数据；

构建基于图注意力网络的骨骼动作识别神经网络，使用基于图注意力的方法对骨骼的时空信息进行建模，根据不同节点的重要性进行注意力标注，并提取骨骼数据的时空信息；

用训练集训练网络，优化参数，得到基于骨骼的图注意力动作识别网络；

将测试集输入到优化后的网络进行预测，得到对应的动作类别。

进一步的技术方案，对获取的动作数据集进行预处理，构建图数据，具体为：

从骨骼序列中获取原始身体数据；

从原始骨架序列中获取去噪数据；

为了利用时空相关性，将三个连续帧作为输入序列，每一帧之间根据人体的物理连接进行骨骼间的连接，相邻帧的连接，以同一个点进行时间上的连接。

进一步的技术方案，输入序列为P×T×N×3,其中T＝T₀-2，N＝N₀×3，T₀为原始序列的帧数，N₀为原始序列的关节数，P为每个序列中演员的数量，T为组合之后输入序列的帧数，N为每帧的关节数量，3为每个关节的特征数x,y,z。

进一步的技术方案，构建基于图注意力网络的骨骼动作识别神经网络：

网络由归一化层，第一GAT层，激活函数ELU1，第二GAT层，激活函数ELU2，第三GAT层，激活函数sigmoid,全局池化层，全连接层组成。

进一步的技术方案，所述网络训练、调优的方法为反向传播算法，选择交叉熵为损失函数，以top1、top5衡量准确率,使用Adam优化器为优化函数；

权重初始化，加载数据、模型、优化器，直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。

进一步的技术方案，3层GAT中，每层中的数据第一位数代表输入通道，第二位数代表输出通道，第三位数代表步长,将获取的时空特征连接到一个全连接层，再通过softmax进行动作分类。

进一步的技术方案，单层GAT的输入是节点特征的集合：

h_t＝{h_t,1,h_t,2,...,h_t,N},h_t,i∈R^F,t∈T,N是节点的数量，F是每个节点的特征数量，T是一个序列中视频帧的数量，；

输出结果节点特征的新集合：

计算公式如下：

其中，||代表连接，σ(·)是非线性激活函数，

是正则化的注意力系数，代表了节点j的特征对节点i的重要性，W^k是对应的输入线性变换的权矩阵，N_i是节点i的邻居节点的集合。

本发明还公开了基于骨骼的图注意力网络动作识别系统，包括数据采集设备及服务器，

数据采集设备：对动作数据集进行预处理，构建图数据；

所述服务器被配置为：

以上一个或多个技术方案存在以下有益效果：

本发明基于使用基于图注意力的方法对骨骼的时空信息进行建模，有效的提高了动作的识别精度。

本发明提供一种基于骨骼的图注意力网络动作识别方法，能够解决图卷积网络不能进行注意力标注的问题，对于不同的动作不同的关节点的重要性是不同的，如果给所有的关节点同样的关注，不仅造成资源浪费动作分类的精度也不够高，而GAT模块在获取足够的空间信息的同时还可以进行注意力标注(每个点和每个点的一阶邻居节点计算相似性系数，最终得到每个邻居节点的注意力系数)，考虑到动作序列的时间信息，本发明将连续的三帧视频组成一个输入序列，这样就兼顾了时间信息，而且图注意力网络还有很好的泛化能力，因此该网络能够实现对骨骼数据时间和空间信息的建模，从而提高了动作识别的准确率，在基于骨骼数据集的行为识别上具有通用性，有广阔的应用前景。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例基于骨骼的图注意力网络动作识别方法的流程图；

图2为本发明实施例基于骨骼的图注意力网络结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了基于骨骼的图注意力网络动作识别方法，包括以下步骤：

步骤1：对获取的动作数据集进行预处理，构建图数据；

步骤2：构建基于图注意力网络的骨骼动作识别神经网络；

步骤3：用训练集训练网络，优化参数，得到基于骨骼的图注意力动作识别网络；

步骤4：把测试集输入到步骤3得到的网络进行预测，给出对应的动作类别。

具体实施例中，步骤1的具体步骤包括：

1.1从公用的数据集的骨骼序列中获取原始身体数据；

1.2从原始骨架序列中获取去噪数据；

1.3为了利用时空相关性，将去噪数据三个连续帧作为输入序列，每一帧之间根据人体的物理连接进行骨骼间的连接，相邻帧的连接，以同一个点进行时间上的连接。

具体的，输入序列为P×T×N×3,其中T＝T₀-2，N＝N₀×3，T₀为原始序列的帧数，N₀为原始序列的关节数，P为每个序列中演员的数量，T为组合之后输入序列的帧数，N为每帧的关节数量，3为每个关节的特征数x,y,z。

具体实施例中，步骤2的具体步骤包括：

2.1使用3层GAT模块构建一个基于图注意力的时空骨骼动作识别网络，单层GAT的输入是节点特征的集合h_t＝{h_t,1,h_t,2,...,h_t,N},h_t,i∈R^F,t∈T,h_t是单个视频帧上所有节点的特征，h_t,i是每一个节点特征，N是节点的数量，F是每个节点的特征数量，T是一个序列中视频帧的数量。

输出结果节点特征的新集合

计算公式如下：

其中，||代表连接，σ(·)是非线性激活函数，

2.2所述网络由归一化层，GAT层1，激活函数ELU1，GAT层2，激活函数ELU2，GAT层3，激活函数sigmoid,全局池化层，全连接层组成，最终使用的总体网络结构总共有3层GAT，基本设置为3*64*1、64*128*1、128*256*1，其中第一位数代表输入通道，第二位数代表输出通道，第三位数代表步长,将获取的时空特征连接到一个全连接层，再通过softmax进行动作分类。

具体实施例中，步骤3的具体步骤包括：

3.1所述网络训练、调优的方法为反向传播算法，选择交叉熵为损失函数，以top1、top5衡量准确率,使用Adam优化器为优化函数；

3.2：权重初始化，加载数据、模型、优化器，直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。

在一更为详细的实施例子中，如图1，该方法包括以下步骤：

1对公共数据集获取的动作数据集进行预处理，使用公共的动作数据集中的NTU-RGB+D数据集作为动作识别数据集，该数据集是最大的动作数据集，提供了3D的骨骼坐标，包含60类不同的动作，包括交叉视角和交叉主体两个基准；

具体步骤包括：

1.1从NTU-RGB+D数据集的骨骼数据中获取原始身体数据，每个身体数据都是一个字典，包含原始三维关节、主体的帧索引等关键词；

1.2从原始骨架序列中获取去噪数据(关节位置)，对于一个骨架序列的每一帧，一个演员的25个关节的3D位置(X,Y,Z三维坐标)通过一个2D数组(形状:25×3)表示出来，将每个3维(x,y,z)坐标按关节顺序沿行维连接成一个75维的向量；

1.3为了利用时空相关性，将三个连续帧作为输入序列，每一帧之间根据人体的物理连接进行骨骼间的连接，相邻帧的连接，以同一个点进行时间上的连接，输入序列为P×T×N×3,其中T＝T₀-2，N＝N₀×3，T₀为原始序列的帧数设置为150，N₀为原始序列的关节数为25，P为每个序列中演员的数量设置为2，T为组合之后输入序列的帧数为148，N为每帧的关节数量为75，3为每个关节的特征数x,y,z。

2构建基于图注意力网络的骨骼动作识别神经网络，网络结构如图2所示；具体步骤包括：

2.1使用3层GAT模块构建一个基于图注意力的时空骨骼动作识别网络，单层GAT的输入是节点特征的集合h_t＝{h_t,1,h_t,2,...,h_t,N},h_t,i∈R^F,t∈T,N是节点的数量为75，F是每个节点的特征数量为3，T是一个序列中视频帧的数为148，输出结果节点特征的新集合

计算公式如下：/>

其中，||代表连接，

是正则化的注意力系数，W^k是对应的输入线性变换的权矩阵，N_i是节点i的邻居节点的集合。

2.2所述网络由归一化层，GAT层1，激活函数ELU1，GAT层2，激活函数ELU2，GAT层3，激活函数sigmoid,全局池化层，全连接层组成。最终使用的总体网络结构总共有3层GAT，GAT层1的注意力头K＝8,每个头输出特征为8，总输出维度为64；GAT层2的注意力头K＝8,每个头输出特征为16，总输出维度为128；GAT层3的注意力头K＝8,每个头输出特征为32，总输出维度为256；基本设置为3*64*1、64*128*1、128*256*1，其中第一位数代表输入通道，第二位数代表输出通道，第三位数代表步长,将获取的时空特征连接到一个全连接层输出维度为512维，再通过softmax进行动作分类；

3用训练集训练网络，优化参数，得到基于图注意力的时空骨骼动作识别网络；具体步骤包括:

3.1所述网络训练、调优的方法为反向传播算法，选择交叉熵为损失函数，以top1(预测结果中概率最大的那个分类正确，则预测正确，否则预测错误)、top5(预测结果中概率向量最大的前五个中，只要出现了正确的类别即为预测正确，否则预测错误)衡量准确率，使用Adam优化器来优化网络，采用概率为0.5的Dropout来避免数据集的过拟合，注意力头Dropout都为0.6，初始学习率设置为0.0005，并通过每10个周期乘以0.1来降低，数量样本的批处理大小为64；

3.2权重初始化，参数初始化时选择均值为0、方差为0.02的随机初始化，加载数据、模型、优化器，直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。

4把测试集输入到步骤3得到的网络进行预测，给出对应的动作类别，测试的批处理大小为64。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例子一中的基于骨骼的图注意力网络动作识别方法步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行实施例子一中的基于骨骼的图注意力网络动作识别方法步骤。

实施例四

本发明实施例子还公开了基于骨骼的图注意力网络动作识别系统，包括数据采集设备及服务器，

数据采集设备：获取的动作数据集并进行预处理，构建图数据；

所述服务器被配置为：

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于骨骼的图注意力网络动作识别方法，其特征是，包括：

对获取的动作数据集进行预处理，构建图数据；具体为：

从骨骼序列中获取原始身体数据；

从原始骨架序列中获取去噪数据；

将三个连续帧作为输入序列，每一帧之间根据人体的物理连接进行骨骼间的连接，相邻帧的连接，以同一个点进行时间上的连接；

输入序列为P×T×N×3,其中T＝T₀-2，N＝N₀×3，T₀为原始序列的帧数，N₀为原始序列的关节数，P为每个序列中演员的数量，T为组合之后输入序列的帧数，N为每帧的关节数量，3为每个关节的特征数x,y,z；

构建基于图注意力网络的骨骼动作识别神经网络，网络由归一化层，第一GAT层，激活函数ELU1，第二GAT层，激活函数ELU2，第三GAT层，激活函数sigmoid,全局池化层，全连接层组成；3层GAT中，第一GAT层的注意力头K＝8,每个头输出特征为8，总输出维度为64；GAT层2的注意力头K＝8,每个头输出特征为16，总输出维度为128；GAT层3的注意力头K＝8,每个头输出特征为32，总输出维度为256；基本设置为3*64*1、64*128*1、128*256*1，每层中的数据第一位数代表输入通道，第二位数代表输出通道，第三位数代表步长,将获取的时空特征连接到一个全连接层，再通过softmax进行动作分类；单层GAT的输入是节点特征的集合：

h_t＝{h_t,1,h_t,2,...,h_t,N},h_t,i∈R^F,t∈T,N是节点的数量，F是每个节点的特征数量，T是一个序列中视频帧的数量；

输出结果节点特征的新集合：