CN112733656A

CN112733656A - 基于多流空间注意力图卷积sru网络的骨架动作识别方法

Info

Publication number: CN112733656A
Application number: CN202011618844.4A
Authority: CN
Inventors: 赵俊男; 佘青山; 陈云; 马玉良; 梅从立
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-30
Anticipated expiration: 2040-12-30
Also published as: CN112733656B

Abstract

本发明提出了一种基于多流空间注意力图卷积SRU网络的骨架动作识别方法。本发明首先,在简单循环单元中嵌入图卷积算子构建出图卷积模型,来捕获骨架数据的时空域信息。同时，为了加强关节点之间的区分性，设计了空间注意力网络和多流数据融合方式，进一步将图卷积简单循环网络模型拓展成多流空间注意力图卷积SRU。本发明在保持高分类精度的同时，显著地减少方法复杂度，提高了模型的推理速度，达到了计算效率和分类精度的平衡，该方法具有十分广阔的应用前景。

Description

基于多流空间注意力图卷积SRU网络的骨架动作识别方法

技术领域

本发明属于模式识别领域，是一种利用图卷积和简单循环单元(SRU)并结合空间注意力机制和多流数据融合方式，对骨架数据建模和动作分类的方法。

背景技术

人类行为的识别是计算机视觉中一项基本又富有挑战性的任务,促进了许多应用的产生，如智能视频监控、人机交互、视频摘要和理解、异常行为检测等。与传统利用RGB图片流或者视频流进行动作识别的方法相比，基于骨架的动作识别不受背景杂波、光照变化等限制，对目标动作的表示更加健壮。早期的基于骨架的动作识别方法大都简单地利用关节点坐标构造成向量序列，几乎不会考虑各个关节点之间的联系。随着该领域研究的不断发展，研究人员开始将骨架数据构造成伪图像，再利用卷积神经网络和循环神经网络等深度学习方法实现动作的预测。

近年来，研究人员充分挖掘骨架数据的图结构信息,开始将图卷积网络推广到骨架图上，来进行动作识别任务。Yan等人首次提出了基于图的动态骨架建模通用公式,提出时空图卷积网络(Spatio-Temporal Graph Convolutional Networks,ST-GCN)应用于骨架动作识别。ST-GCN包含了空间图卷积和时间卷积模块，采用空间图卷积捕捉骨骼数据的空间信息，利用时间卷积对骨骼数据在时间维度上建模，来增强对骨骼数据的充分理解，获得了更好的识别效果。而Si等人发挥了传统的长短时记忆网络(Long short time memory,LSTM)强大的序列建模性能，替代时间卷积对数据进行时间维度的建模的能力，并将空间图卷积操作嵌入LSTM的门计算中，提出了注意力增强图卷积网络(AGC-LSTM)，取得了比ST-GCN更好的效果。Lei等人则更多地关注骨骼数据蕴含的二阶信息，包括骨骼的长度和方向，提出了多流注意增强型自适应图卷积网络(MS-AAGCN)。这种数据驱动的方法大大增加了骨骼图构造模型的灵活性，增强了模型的泛化能力，显著提高了识别精度。然而，上述算法为了达到更高的识别精度，采取叠加多层网络或者使用LSTM这种时间维度建模能力强的模块，会导致模型在训练和测试时使用更长的时间。因此基于GCN的算法仍然存在模型推理速度慢、计算复杂度高等问题，值得进一步研究。

最近,Lei等人提出了一种简单循环单元(SRU)结构，该结构简化了计算，具有比LSTM和GRU更高的并行性和更快的训练和推理速度。She等人提出一种全局上下文注意力时空SRU模型(GCA-ST-SRU)。该方法首先通过关节点的时空依赖来构建ST-SRU模型以克服LSTM推理速度慢、计算复杂度高的问题，并引入全局上下文注意力机制到ST-SRU，构成GCA-ST-SRU方法。该方法加快了模型推理速度，同时取得了比较好的分类精度。但是该方法缺乏考虑骨骼之间的结构联系，而且对骨骼数据地利用比较单一。

发明内容

针对上述骨架动作识别方法存在的不足,本发明提出了一种新的多流空间注意图卷积简单循环网络(MSAGC-SRU)方法。

本发明首先在简单循环单元(Simple Recurrent Unit,SRU)中嵌入图卷积算子构建出图卷积SRU(GC-SRU)模型，来捕获骨架数据的时空域信息。同时，为了加强关节点之间的区分性，设计了空间注意力网络和多流数据融合方式，进一步将GC-SRU模型拓展成多流空间注意力图卷积SRU(MSAGC-SRU)方法。

为了实现以上目的，本发明方法主要包括以下步骤：

步骤(1)，原始关节点坐标为输入的节点流，以关节点空间坐标的差分为输入的骨骼流，以及基于节点流和骨骼流数据在时间维度上的差得到的动态数据流。将这四种流数据进行数据融合，得到要输入网络的融合数据。

步骤(2)，将简单循环单元门结构中的全连接计算替换成图卷积计算，构建图卷积简单循环网络(GC-SRU)，对骨骼数据的时间和空间依赖关系进行建模。

步骤(3)，在GC-SRU中引入空间注意力机制。GC-SRU网络的隐藏状态

为空间注意力网络的输入，帮助模型给每个关节点不同程度的关注，从而进一步提高动作分类的准确率。

本发明与已有的基于人体骨架的动作识别方法相比，具有如下优点：

1、使用多流数据融合方式处理输入数据

很多基于骨架的动作识别方法，只是用了原始数据进行驱动，训练模型。但是原始的骨架数据缺少对数据二阶信息(骨骼的方向和长度)以及它们的动态信息的挖掘和利用。这些信息是区分不同动作的重要依据。本发明提出的多流数据融合方式，将骨架数据的四种模式融合，能探索骨架动作数据中更多的动作信息，提升动作识别效率。

2、采用图卷积结合SRU，并引入注意力网络提取特征

循环网络模型比如LSTM、GRU等都被应用于基于人体关节的动作分类中，都取得了一定的研究成果。由于存在计算上的顺序依赖，无法并行化计算，导致训练时间较长，这不利于超参数调整。本发明提出的GC-SRU方法，将简单循环单元与图卷积结合，并进一步引入空间注意力机制和多流数据融合方式，提出了MSAGC-SRU，克服了已有方法计算速度慢的问题，也保持了良好的动作识别准确率。

附图说明

图1为本发明方法的流程图。

图2为注意力图卷积简单循环网络(SAGC-SRU)的结构图。

图3图卷积的可视化操作。

图4空间注意力网络。

图5(a)、图5(b)和图5(c)分别为SRU、MSAGC-SRU、AGC-LSTM三种方法在骨架数据集Northwestern-UCLA上实验，得到的分类结果混淆矩阵图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方案和具体的操作过程。

如图1，本发明方法主要包括三个步骤：(1)多流数据融合方法处理原始数据；(2)将SRU门结构中的全连接计算替换成图卷积计算，构建图卷积简单循环网络(GC-SRU)；(3)在GC-SRU网络中引入空间注意力机制，最后得到动作分类结果。

下面逐一对各步骤进行详细说明。

步骤一：

本发明使用4种模式的数据流，分别为以原始关节点坐标为输入的节点流，以关节点空间坐标的差分为输入的骨骼流，以及基于节点流和骨骼流数据在时间维度上的差分得到的动态数据流。一般定义靠近骨架重心的关节点为父关节i，远离中心的节点为子关节j。在第t帧的骨架中，设父关节v_i,t＝(x_i,t,y_i,t,z_i,t)和子关节v_j,t＝(x_j,t,y_j,t,z_j,t),则骨骼可表示为

e_i,j,t＝(x_j,t-x_i,t,y_j,t-y_i,t,z_j,t-z_i,t) (1)

同样，设v_i,t＝(x_i,t,y_i,t,z_i,t)为第t帧的关节，v_i,t+1＝(x_i,t+1,y_i,t+1,z_i,t+1)为第t+1帧的关节，则两帧间关节点的动态流信息可以表示为:

m_i,t,t+1＝(x_i,t+1-x_i,t,y_i,t+1-y_i,t,z_i,t+1-z_i,t) (2)

如图1的数据融合部分所示，多流数据融合方法步骤如下：

1、原始骨架序列数据为关节点流数据，经过上述骨骼的定义(1),得到骨骼流信息数据；

2、将步骤1获得的两流数据拼接后，通过一个全连接层，将数据信息编码成高维向量，作为两流数据的融合特征；

3、将步骤2得到的两流融合数据通过式(2)获取其动态流数据，再和它拼接后经过全连接层和ReLU激活函数，得到要输入模型的多流融合数据。

步骤二：本发明选择图卷积与SRU结合。

设

表示第t帧的人体骨骼图,v_t＝{v_t1,v_t2,...,v_tN}是N个关节点的集合,则ε_t＝{(v_ti,v_tj):v_ti,v_tj∈v_t,v_ti～v_tj}可以表示成骨骼边的集合,v_ti～v_tj表示节点i和节点j是无向边连接.邻接矩阵A_t可以通过ε_t指定。

在一个骨架图上,定义节点v_ti的邻集B(v_ti)＝{v_tj|d(v_tj,v_ti)≤D},其中d(v_tj,v_ti)表示从节点v_ti到v_tj的任何路径的最小长度，可以给出在点v_ti上的图卷积公式：

其中X(v_tj)表示节点v_tj的特征,W(·)是一个权重函数,v_tj为与v_ti距离为1的相邻节点，l(·)是一个映射函数。因为邻集B(v_ti)的节点数量是变化的，权重函数数量是固定的，需要映射函数将所有相邻的节点映射到一个固定标签的子集中，每个子集都有一个唯一的关联权重向量。本发明的映射策略为：将B(v_ti)分为三个子集:第一个子集为v_tj本身，第二个为空间位置上比v_tj更靠近骨架重心的邻点集合，第三个则为更远离重心的邻点集合。Z_ti(v_tj)即为对应子集个数。引入邻接矩阵，图卷积可以表示为：

其中,k∈{1,2,...,k}是根据映射策略得到的子集的固定标签。A_k是标签k空间构型中的邻接矩阵,

是一个度矩阵。为了更好地理解空域图卷积在骨架序列数据中的计算过程，图2给出了其可视化形式。

SRU使用输入门、遗忘门、重置门完成结构功能，门计算使用全连接计算。如图3所示，为实现对骨架序列数据的建模，将SRU的输入门、遗忘门、重置门的全连接操作通过下面的公式替换成图卷积计算，来捕获骨架动作数据的空间信息：

其中,

表示图卷积算子，

表示W和x_t的图卷积，W_f、W_r、W_r表示可学习的参数权重矩阵，b_t、b_r表示偏置量。⊙表示哈达玛积，σ(·)是sigmoid激活函数，g(·)表示tanh激活函数。

步骤三：在GC-SRU网络中引入空间注意力机制，如图4为空间注意力网络。空间注意力网络的输入是GC-SRU网络的隐藏状态

首先将每个节点的输出信息通过一层全连接层和ReLU激活函数，聚合成一个查询向量Q_t：

N表示关节点个数，W表示权重矩阵，Q_t可以帮助模型给每个关节点不同程度的关注，可以通过以下公式计算：

α_t＝Sigmoid(W_qQ_t+b_q) (9)

其中,α_t＝(α_t1,α_t2,...,α_tN)表示每个关节点的注意力分数，W_q表示权重矩阵，b_q表示偏置量。

GC-SRU网络引入空间注意力机制后，得到空间注意力图卷积简单循环网络(SAGC-SRU)，如图4所示。得到输出为：

其中f_att(·)是一种能够选择关键节点信息的空间注意力网络。

在经过最后一层SAGC-SRU后，本发明将所有节点的聚合特征作为全局特征F_t ^g，将聚焦于节点加权后的特征作为局部特征F_t ^l，并根据F_t ^g和F_t ^l来预测动作类别。将每个时间步长的全局特征和局部特征转换成C类的分数

和

其中o_t＝{o_t1,o_t2,...,o_tC}，i类的预测可以表示成公式(13)的形式：

其中，N表示关节点个数，

表示第t帧第i个节点的GC-SRU网络隐藏层的输出，H_ti表示

经过注意力网络后的输出，见公式(10)。

采用下面的损失函数来监督模型：

其中，T_j表示第j层SAGC-SRU上的时间步长，j是网络层数，C是动作类别数，N表示关节点数量；α_tnj表示第j层SAGC-SRU上第t帧中的第n个关节点的注意力分数，y＝{y₁,y₂,...,y_C}表示动作的真实标签，与预测标签

进行对比；

表示在t时间步长时全局特征预测标签i的概率值,

表示局部特征预测标签i的概率值；λ和β是权重衰减系数，平衡了这两个正则化项的作用，减轻了反向传播中的梯度消失和过拟合现象。本发明分别设置λ和β为0.01和0.001。最后预测动作类别是只用

和

的最后一个时间步长的和概率来预测动作类别。

将经过上述步骤得到的MSAGC-SRU方法对骨架动作数据进行动作识别分类，并与AGC-LSTM等算法在相同的数据集上进行性能对比。

为了验证本发明方法的有效性，在相同参数设置和实验环境下，测试MSAGC-SRU、AGC-LSTM方法的每秒浮点运算次数(FLOPS)和在Northwestern-UCLA数据集、NTU RGB+D数据集上的分类准确率，实验结果如表1、表2所示：

表1 Northwestern-UCLA数据集上实验结果比较

从表1可以看出，MSAGC-SRU方法在Northwestern-UCLA数据集上实验得到的动作类别分类准确率达到93.1％，FLOPS为2.8G，分类准确率比GC-SRU、GC-LSTM两种方法得到结果都高，而且MSAGC-SRU方法的FLOPS值是GC-LSTM的3/5。与AGC-LSTM方法相比，MSAGC-SRU的分类准确率仅仅低了0.2％，但是FLOPS约是AGC-LSTM的1/4。上述结果说明在MSAGC-SRU在大大减小模型计算复杂度的情况下,只损失了较小的分类准确率。

为了验证本发明提出方法的泛化能力，继续在更大的骨架动作数据集NTU RGB+D上实验，结果如下：

表2在NTU RGB+D数据集上实验结果比较

从表2中的3种方法可以看出，在跨视角评估协议中，本发明提出的MSAGC-SRU方法比ST-GCN提高了5.2％的分类准确率；在跨受试者评估协议中，MSAGC-SRU方法提高了6.8％的准确率，并且每秒浮点次运算次数比ST-GCN低2.2G；与AGC-LSTM相比，跨视角评估协议中，MSAGC-SRU的分类精度低了1.5％，跨受试者评估协议中低了0.9％，但每秒浮点次运算次数值仅为AGC-LSTM的1/4。MSAGC-SRU方法在选择提高训练效率和测试效率时,仍然会损失一部分分类精度，但是明显降低了算法运算复杂度。在重视设备的运行效率的场景下,比如一些嵌入式或移动端的应用场景中,MSAGC-SRU可以尽可能保持损失很小的精度来满足非常高效的训练和测试任务。

在Northwestern-UCLA数据集的实验中用混淆矩阵分析训练模型的测试分类结果。从图5(a)中可以看到，SRU方法在“单手捡起”和“双手捡起”两种动作间分类精度不高，在“丢垃圾”和“四处走动”两个动作也不能很好的区分，尤其是“扔”的动作识别效果很差，主要因为这些动作间的相似度较高，普通的SRU方法不能很好的区分。而本发明提出的MSAGC-SRU方法很好的提高了对这些动作的分类精度，见图5(b)，即使与AGC-LSTM相比，在“自处走动”、“搬”等动作的分类精度会略微高一些，见图5(c)。这些结果表明MSAGC-SRU方法在骨架动作识别任务中是一种有效的方法。