CN109376720A

CN109376720A - 基于关节点时空简单循环网络和注意力机制的动作分类方法

Info

Publication number: CN109376720A
Application number: CN201811557815.4A
Authority: CN
Inventors: 佘青山; 穆高原
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-02-22
Anticipated expiration: 2038-12-19
Also published as: CN109376720B

Abstract

本发明涉及一种基于关节点时空简单循环网络和注意力机制的动作分类方法。首先，将普通的SRU模型进行空间维度扩展，设计了一种同时在时间和空间两个维度上进行迭代计算的ST‑SRU模型。然后，在所提ST‑SRU模型基础上，引入全局上下文注意力机制，提出了GCA‑ST‑SRU方法。最后，将所提方法用于人体行为识别，先用深度网络提取人体关节点的特征，再采用GCA‑ST‑SRU方法对提取的特征进行识别。本发明方法能够降低训练耗时和提升分类准确率，具有明显的效率优势。本发明方法快速地推断速度有利于实时动作识别系统的设计，适合运行在计算能力有限的平台上，在计算机视觉、智能监控、人机交互等领域具有广阔的应用前景。

Description

基于关节点时空简单循环网络和注意力机制的动作分类方法

技术领域

本发明属于模式识别领域，是一种利用时空简单循环网络对用关节点表示的动作进行建模、并结合注意力机制的优势进行动作分类的方法。

背景技术

动作识别广泛应用在智能视频监控、人机交互、医疗辅助、异常行为检测等领域。动作识别是指对一段视频中的人物的行为进行分类，一段视频可以分解为连续的多张图片，所以动作识别也可以看作是对图片序列进行分类的问题。近年来动作识别的一个热门研究方向是，通过深度相机等传感器捕获人在做动作时身体关节点的三维空间坐标，然后对人体关节点坐标序列分类，人体关节点坐标不受画面中人物的复杂背景环境等噪声的影响，提供了在一个动作中身体运动的高层次信息，基于人体关节点坐标的行为识别取得了很好的成果。

随着深度学习的发展，涌现了很多基于循环网络和人体关节点的行为动作识别研究，包括长短期记忆网络(LSTM)、门控循环单元(GRU)、简单循环单元(SRU)、时空长短期记忆网络(ST-LSTM)和全局上下文注意力长短期记忆网络(GCA-LSTM)。Zhu和Lan等人认为人在做动作时，一些关节点之间存在固有的共现性，即同时有多个关节点对判断动作的类别起到了关键作用，这些有共现性的关节点构成了一个集合，不同的行为动作有不同的关节点集合，采用叠加的LSTM学习关节点之间的共现性特征，实现了对行为动作的分类。FabianBaradel等人同时用到了RGB图像数据和人体关节点数据，从每一帧图像中截取手部区域的子图片，然后用卷积神经网络提取特征，再输入到GRU对该特征序列进行分类，最后引入了注意力机制，从手部关节点的运动中计算关节点的速度和加速度，从中学习到注意力权重赋给GRU的输入；从人体全部关节点运动的速度和加速度中得到注意力权重赋给GRU的输出。

由于普通的LSTM和GRU模型一般用于处理时间序列数据，而忽略了关节点之间的空间关系。ST-LSTM是一种对LSTM的空间维度扩展，认为人体关节点之间存在空间依赖，ST-LSTM将行为识别问题处理为有时空维度的二维序列分类问题，实验结果显示ST-LSTM在多个行为识别数据集上取得了很好的准确率。

Liu和Wang等人认为不同的关节点对动作识别提供的信息重要程度时不同的，在ST-LSTM的基础上引入了注意力机制，提出了GCA-LSTM方法，进一步提高了ST-LSTM的分类准确率，在五个流行的基于骨骼关节点的动作识别数据集上取得了目前最好的性能。Zheng和An等人是较早将SRU用于动作识别的研究，先用卷积神经网络对图片序列中的每张图片提取特征，然后用SRU对提取出的特征序列进行分类，和传统的CNN-RNN模型相比有更低的复杂度和更高的效率，在两个公开动作识别数据集上取得了目前最好的结果。

以上方法都很好的利用了各种循环网络模型进行基于人体关节点的行为识别的研究，但是基于LSTM、GRU的方法在处理人体关节点序列时，存在大量依赖于时序的计算，这些计算不能独立完成。例如LSTM、GRU在计算当前时间步的隐含状态时，由于存在依赖，必须先计算出上一个时间步的隐含状态，这限制了序列处理的速度，随着LSTM模型的规模和超参数数量的增加，训练时间也越来越长，对参数的调整也将花费更多的时间。

发明内容

针对上述问题，本发明提出了一种基于时空维度和注意力机制的GCA-ST-SRU方法，并应用于人体行为识别。本发明首先，将普通的SRU模型进行空间维度扩展，设计了一种同时在时间和空间两个维度上进行迭代计算的ST-SRU模型，相比ST-LSTM大幅减少了训练时间。然后，在所提ST-SRU模型基础上，引入全局上下文注意力机制，提出了GCA-ST-SRU方法。最后，将所提方法用于人体行为识别，先用深度网络提取人体关节点的特征，再采用GCA-ST-SRU方法对提取的特征进行识别。

为了实现以上目的，本发明方法主要包括以下步骤：

步骤(1)设有连续的T帧图像表示了一个动作，每帧图像对应J个关节点的三维坐标。将同一帧的不同关节点的坐标输入到特征提取层中，通过深度神经网络寻找关节点之间的关系，输出J个提取后的特征信息。对T帧的关节点坐标做同样的操作。

步骤(2)将特征提取层的输出作为第一层ST-SRU的输入，然后第一层ST-SRU的输出作为第二层ST-SRU的输入。ST-SRU单元在时间和空间两个方向上迭代，计算状态信息。

步骤(3)引入注意力机制，全局上下文记忆单元将控制第一层ST-SRU到第二层ST-SRU的信息流入，加大重要关节点所占信息的比重，同时减少不重要关节点所占信息的比重，从而进一步提高行为分类的准确率。

本发明与已有的基于人体关节点的动作分类方法相比，具有如下特点：

1、采用时空简单循环网络对基于人体关节点的动作进行特征分类

很多的循环网络模型都被应用于基于人体关节的动作分类中，都取得了一定的研究成果，其中包括：LSTM、GRU、ST-LSTM以及GCA-LSTM。但是这些方法由于存在计算上的顺序依赖，无法并行化计算，导致训练时间较长，这不利于超参数调整。同样，缓慢的推断速度也不利于实时行为识别系统的设计。本发明提出了ST-SRU方法，克服了已有方法计算速度慢的问题，并进一步引入全局上下文注意力模型，提出了GCA-ST-SRU，使得行为分类的准确率得以提升，所以本发明在提升模型计算速度的同时也提升了分类准确率。

2、使用深度学习方法从关节点坐标中提取特征

本发明提出的ST-SRU在时间和空间两个维度上迭代计算，每个时空步输入的原始数据是一个关节点的三维坐标，表示动作的关节点数据在时间维度按时间顺序排列，在空间维度上需要设计一种特征提取方法，从同一视频帧的不同关节点坐标上提取特征。与已有的手工设计特征的方法相比，本发明采用了深度学习方法挖掘关节点之间的空间关系，能够自动提取特征，可以提高行为分类的准确率。

附图说明

图1为本发明的实施流程图。

具体实施方式

下面结合附图详细描述本发明基于关节点时空简单循环网络和注意力机制的动作分类方法，图1为实施流程图。

如图1，本发明方法的实施主要包括三个步骤：(1)用深度学习方法从表示动作的关节点数据中提取特征；(2)将步骤(1)中提取的特征输入到两层ST-SRU模型中进行计算；(3)将步骤(2)中ST-SRU的输出用来更新全局上下文记忆单元的状态，对步骤(2)中第二层的ST-SRU的信息量流入起到门控作用，当注意力模型迭代更新过程结束，得到最后的分类结果。

下面逐一对各步骤进行详细说明。

步骤一：用深度学习方法从关节点数据中提取特征

将第k时刻的J个关节点的三维坐标x_1,k,x_2,k,...,x_J,k通过下面的公式转换为特征I_1,k,I_2,k,...,I_J,k：

其中W_U1、W_U2和W_U3是深度神经网络的全连接层的权重矩阵。当对双人交互动作进行识别时，输入的是两个人的骨架数据除了找出单个人的关节点之间的关系，还需要找出两个人的关节点之间的关系，则用下面的公式进行特征提取：

步骤二：在时空方向上迭代计算ST-SRU的隐含状态

用j＝1,2,...,J，t＝1,2,...,T表示关节点和图像帧的下标，时空简单循环单元(Spatio-Temporal Simple Recurrent Unit,ST-SRU)的隐含状态包含内部状态c_j,t和输出状态h_j,t。其中内部状态c_j,t的计算需要有三个输入：分别是第t帧图像中对应的第j个关节点的特征x_j,t、同一个关节点在上一帧的内部状态c_j,t-1以及前一个关节点在当前帧的内部状态c_j-1,t。ST-SRU从j＝1，t＝1时开始计算内部状态c_j,t，直到j＝J，t＝T时停止，迭代计算出所有的内部状态c_j,t和输出状态h_j,t，，计算公式如下：

r_j,t＝sigmoid(W_rx_j,t+b_r) (9)

h_j,t＝r_j,t⊙tanh(c_j,t)+(1-r_j,t)⊙x_j,t (11)

其中，ST-SRU拥有两个不同的遗忘门对应两个不同维度的历史信息：对应空间维度，对应时间维度。r_j,t是重置门，用于调整输出状态。sigmoid和tanh是激活函数，⊙表示矩阵点乘。

最后，将两个ST-SRU叠加起来，即对于j＝1,2,...,J，t＝1,2,...,T，将第一层ST-SRU的输出状态h_j,t作为第二层ST-SRU的输入x_j,t，然后重复步骤(2)计算第二层ST-SRU的隐含状态。

步骤三：更新全局上下文记忆单元的状态

将注意力模型结合到ST-SRU中，得到了全局上下文注意力简单循环单元(GlobalContext-Aware Attention ST-SRU,GCA-ST-SRU)。用F⁽ⁿ⁾表示第n次更新的全局上下文记忆单元，n＝1,2,...,N，N表示全局上下文记忆单元迭代更新的次数。

首先，计算初始值F⁽⁰⁾，公式如下：

其中，是第一层ST-SRU的输出状态，J是人体关节点个数，T是图像帧的帧数。

在第n次更新全局上下文记忆单元时，计算以下公式：

其中，W_e1和W_e2是待学习的参数矩阵，exp是以自然常数e为底的指数函数。对于第一层ST-SRUj＝1,2,...,J，t＝1,2,...,T的输出状态都计算得出一个对应的r_j,t，其中r_j,t∈(0,1)，它表示对判断动作类别的重要程度。然后，将代入到第二层ST-SRU的输入x_j,t中，为了将注意力模型和ST-SRU结合，将第二层ST-SRU对应的式(10)改为：

r_j,t越大，说明输入数据越有用，所以在更新c_j,t时，输入应该占更多的比重。反之，r_j,t越小，说明输入数据越没用，在更新c_j,t时应该抑制它。

最后，更新全局上下文记忆单元F⁽ⁿ⁾:

式(16)中o⁽ⁿ⁾表示第2层ST-SRU在j＝J,t＝T时的输出状态，是只用于第n次迭代更新时的矩阵参数。当n＝N时，全局上下文记忆单元的N次迭代更新过程结束，行为分类的最终预测结果y_p为:

y_p＝softmax(W_c(F^N)) (17)

其中，W_c是全连接层的权重矩阵，softmax是归一化指数函数，即分类器。

采用步骤三得到的GCA-ST-SRU模型对新的关节点数据进行分类，并与ST-SLTM和GCA-LSTM等算法在相同数据集上进行性能上的对比。

为了验证本发明方法的有效性，体现出ST-SRU相比ST-LSTM提升了推断速度，减少了训练时间，在相同参数设置和实验环境下，测试两种方法在UT-Kinect数据集上训练1000次所花费的时间，实验结果如表1所示：

表1 ST-SRU和ST-LSTM训练1000次耗时对比

由表1可知，ST-SRU的训练速度是ST-LSTM的4倍左右，具有明显的计算效率优势。接下来为了验证本发明方法的真实分类性能，利用该算法在UT-Kinect单人动作数据集和SBU-Kinect双人交互动作数据集上进行实验验证，并与ST-LSTM、GCA-LSTM等方法进行比较，实验结果如表2所示：

表2各类算法在公开数据集上测试分类准确率

通过表2可以看出，本发明方法的分类准确率略高于已有的方法，所以本发明方法兼顾训练耗时的降低和分类准确率的提升，具有较好的实用性。

Claims

1.基于关节点时空简单循环网络和注意力机制的动作分类方法，其特征在于该方法包括以下主要步骤：

步骤(1)：用深度学习方法从关节点数据中提取特征

其中，W_U1、W_U2和W_U3是深度神经网络的全连接层的权重矩阵，ReLu是激活函数；

步骤(2)：在时空方向上迭代计算时空简单循环单元的隐含状态

用j＝1,2,...,J，t＝1,2,...,T表示关节点和图像帧的下标，时空简单循环单元的隐含状态包含内部状态c_j,t和输出状态h_j,t，其中内部状态c_j,t的计算有三个输入：分别是第t帧图像中对应的第j个关节点的特征x_j,t、同一个关节点在上一帧的内部状态c_j,t-1以及前一个关节点在当前帧的内部状态c_j-1,t；

时空简单循环单元从j＝1，t＝1时开始计算内部状态c_j,t，直到j＝J，t＝T时停止，迭代计算出所有的内部状态c_j,t和输出状态h_j,t，计算公式如下：

r_j,t＝sigmoid(W_rx_j,t+b_r) (9)

h_j,t＝r_j,t⊙tanh(c_j,t)+(1-r_j,t)⊙x_j,t (11)

其中，时空简单循环单元拥有两个不同的遗忘门对应两个不同维度的历史信息：对应空间维度，对应时间维度；r_j,t是重置门，用于调整输出状态；sigmoid和tanh是激活函数，⊙表示矩阵点乘；

最后，将两个时空简单循环单元叠加起来，即对于j＝1,2,...,J，t＝1,2,...,T，将第一层时空简单循环单元的输出状态h_j,t作为第二层时空简单循环单元的输入x_j,t，然后重复步骤(2)计算第二层时空简单循环单元的隐含状态；

步骤(3)：更新全局上下文记忆单元的状态

将注意力模型结合到时空简单循环单元中，得到了全局上下文注意力简单循环单元；用F⁽ⁿ⁾表示第n次更新的全局上下文记忆单元，n＝1,2,...,N，N表示全局上下文记忆单元迭代更新的次数；

首先，计算初始值F⁽⁰⁾，公式如下：

其中，是第一层时空简单循环单元的输出状态，J是人体关节点个数，T是图像帧的帧数；

在第n次更新全局上下文记忆单元时，计算以下公式：

其中，W_e1和W_e2是待学习的参数矩阵，exp是以自然常数e为底的指数函数；

对于第一层时空简单循环单元的输出状态都计算得出一个对应的r_j,t，其中r_j,t∈(0,1)，它表示对判断动作类别的重要程度；

然后，将代入到第二层时空简单循环单元的输入x_j,t中，为了将注意力模型和时空简单循环单元结合，将第二层时空简单循环单元对应的式(10)改为：

最后，更新全局上下文记忆单元F⁽ⁿ⁾:

其中，o⁽ⁿ⁾表示第2层时空简单循环单元在j＝J，t＝T时的输出状态，是只用于第n次迭代更新时的矩阵参数；

当n＝N时，全局上下文记忆单元的N次迭代更新过程结束，行为分类的最终预测结果y_p为:

y_p＝softmax(W_c(F^(N))) (17)

2.根据权利要求1所述的基于关节点时空简单循环网络和注意力机制的动作分类方法，其特征在于：当对双人交互动作进行识别时，输入的是两个人的骨架数据除了找出单个人的关节点之间的关系，还需要找出两个人的关节点之间的关系，则用下面的公式进行特征提取：