CN108776796A

CN108776796A - 一种基于全局时空注意力模型的动作识别方法

Info

Publication number: CN108776796A
Application number: CN201810675198.1A
Authority: CN
Inventors: 韩云; 吕小英
Original assignee: Neijiang Normal University
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2018-11-09
Anticipated expiration: 2038-06-26
Also published as: CN108776796B

Abstract

本发明公开了一种基于全局时空注意力模型的动作识别方法，属于动作识别领域；首先，构建全局时空注意力模型，所述全局时空注意力模型包括依次连接的全局空间注意力模型、累加式曲线模型ALC和分类层；再利用人体动作序列对所述全局时空注意力模型依次进行训练、验证和测试；当测试效果最佳的模型精度达到设定的阈值，则完成训练并将测试效果最佳的模型作为最终模型，否则继续进行训练；最后将待检测人体动作序列输入所述最终模型进行动作识别，得出识别结果；将全局空间注意力模型、全局时间注意力模型和主干网融为一体，结构更加简单、训练更加容易、收敛速度更快，直接采用end to end的训练方式即可，无需任何额外的步骤。

Description

一种基于全局时空注意力模型的动作识别方法

技术领域

本发明涉及动作识别领域，具体涉及一种基于全局时空注意力模型的动作识别方法。

背景技术

随着人工智能的快速发展，基于深度学习的动作识别获得了越来越多研究群体的关注。其中，注意力模型能有效提升动作识别的精度，获得了广泛的应用。目前，在动作识别领域，主要有两类注意力模型：一类是时间注意力模型，它的主要作用是标识出动作序列中哪些帧在识别中具有更重要的作用，哪些帧的作用相对较小；另一类是空间注意力模型，它主要是标识出人体哪些关节点在识别动作中具有更加重要的作用，哪些关节点具有的作用相对较小。同时，按采用信息的不同，注意力模型还可分为：局部注意力模型和全局注意力模型。所谓局部注意力模型是指以局部的两帧或多帧序列来构建注意力。与之相对的是全局注意力模型，以整个动作序列为基础来构建注意力。

目前在动作识别领域中，常用的是局部注意力模型，该类模型主要存在以下问题：

其本质上是利用动作序列的前后两帧或多帧之间的差异来实现注意力，对动作序列来说，只有全部看完整个序列后才能准确的给出每帧动作的重要性、每个关节点的重要性，局部注意力模型无法给出准确的注意力权重；用于动作识别的局部时空注意力模型(包括局部空间注意力模型和局部时间注意力模型)由主干网、空间注意力和时间注意力3部分构成，结构复杂，训练过程繁琐，导致识别效果一般较差。

发明内容

本发明的目的在于：提供一种基于全局时空注意力模型的动作识别方法，解决了目前利用局部时空注意力模型进行动作识别，模型结构复杂、训练过程繁琐、识别效果差的技术问题。

本发明采用的技术方案如下：

一种基于全局时空注意力模型的动作识别方法，包括以下步骤：

步骤1：构建全局时空注意力模型，所述全局时空注意力模型包括依次连接的全局空间注意力模型、累加式曲线模型ALC和分类层；

步骤2：利用人体动作序列对所述全局时空注意力模型依次进行训练、验证和测试；

步骤3：当测试效果最佳的模型精度达到预设的阈值时，则完成训练并将测试效果最佳的模型作为最终模型，否则继续进行训练；

步骤4：将待检测人体动作序列输入所述最终模型进行动作识别，得出识别结果。

进一步的，所述步骤1中全局时空注意力模型的构建方法如下：

步骤11：构建全局空间注意力模型，用于输入人体动作序列X，输出人体动作序列X的空间注意力权重a，a＝(a₁，...，a_i，...，a_K)＝f(X)，

人体动作序列X表示为：

X＝{X_t＝(X_t，1，...，X_t，i...，X_t，K)|t＝1，...，n}，

其中，t表示人体动作序列中动作的时刻，n表示人体动作序列的长度，K表示人体关节点的个数，i表示人体关节点的序号；

步骤12：构建累加式曲线模型ALC，用于输入利用空间注意力权重a进行权重分配后的人体动作序列X′，输出人体动作序列具有时间注意力权重β_t的特征o_t，

步骤13：构建分类层，用于输入特征ot，输出人体动作序列X分类结果。

进一步的，所述步骤11中，全局空间注意力模型包括依次连接的LSTM层、全连接层、ReLU层和Normalize层；

LSTM层：用于提取所述人体动作序列X中每一动作的特征；

全连接层：用于对输入该层的特征进行降维；

ReLU层：用于增强全局空间注意力模型的非线性化；

Normalize层：用于规格化数据。

进一步的，所述步骤12中，累加式曲线模型ALC包括依次连接的三层LSTM层和权重层，

三层LSTM层：用于对X′进行动作特征提取，得到提取的特征h_t；

权重层：用于对所述特征h_t赋予权重β_t，得到结果o_t，o_t＝β_th_t。

进一步的，所述分类层包括全连接层和Softmax分类层。

进一步的，所述步骤2中，训练、验证和测试的具体步骤如下：

步骤21：将由人体关节点数据形成的人体动作序列分为训练集、验证集和测试集；

步骤22：将所述训练集中的人体动作序列输入全局时空注意力模型中进行训练，得到H个模型；

步骤23：将所述验证集输入所述H个模型进行测试，将准确率排名前Q的模型作为测试模型；

步骤24：将所述测试集中的测试数据输入所述测试模型，得到测试效果，若测试效果最佳的测试模型精度达到阈值，则完成训练得到最终模型并跳转至步骤25；否则跳转至步骤22；

步骤25：将待识别动作序列输入所述最终模型，得到识别结果。

进一步的，所述步骤22中，对所述利用全局时空注意力模型进行训练时，采用二阶正则化策略来缓解过拟合，其中，带有二阶正则化的损失函数为：

其中，y_i表示所述人体动作序列的真实动作类型，C表示动作的类别数量；

表示全局时空注意力模型预测出的动作类型，i表示人体关节点的序号，

表示全局空间注意力模型参数的二阶正则化，表示累加式曲线模型ALC参数的二阶正则化，λ₁和λ₂均表示平衡因子。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.利用整个序列来决定空间注意力和时间注意力的权重，使得注意力的权重更加准确，也更符合人类的认知。

2.将全局空间注意力模型、全局时间注意力模型和主干网融为一体，结构更加简单、训练更加容易、收敛速度也更快，直接采用end to end的训练方式即可，无需任何额外的步骤。

3.整体计算量更小，稳定性好，识别精度的更高，在多个主流的数据集上进行了测试，在单流架构下，实现了目前最好的识别效果，具体为：在目前最大的RGB-D动作数据集NTU RGB+D上，仅仅使用LSTM架构的识别率为66.8％，采用局部时空注意力的识别率是73％，本发明的识别率达到80％。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的整体流程图；

图2是本发明中全局时空注意力模型的整体架构图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1、图2对本发明作详细说明。

步骤3：当测试效果最佳的模型精度达到设定的阈值，则完成训练并将测试效果最佳的模型作为最终模型，否则继续进行训练；

人体动作序列X表示为：

X＝{X_t＝(X_t，1，...，X_t，i...，X_t，K)|t＝1，...，n}，

步骤13：构建分类层，用于输入特征o_t，输出人体动作序列X分类结果。

LSTM层：用于提取所述人体动作序列X中每一动作的特征；

全连接层：用于对输入该层的特征进行降维；

ReLU层：用于增强全局空间注意力模型的非线性化；

Normalize层：用于规格化数据。

进一步的，所述分类层包括全连接层和Softmax分类层。

步骤22：将所述训练集中的数据输入全局时空注意力模型中进行训练，得到H个模型；

步骤23：将所述验证集中的数据输入所述H个模型进行测试，将准确率排名前Q的模型作为测试模型；

步骤24：将所述测试集中的数据输入所述测试模型，得到测试效果，若测试效果最佳的测试模型的精度达到设定的阈值，则完成训练得到最终模型并跳转至步骤25；否则跳转至步骤22；

进一步的，所述步骤22中，对所述利用全局时空注意力模型进行训练时，采用二阶正则化策略缓解过拟合，其中，带有二阶正则化的损失函数为：

其中，y＝(y₁，...，y_c)^T表示所述人体动作序列的真实动作类型，C表示动作的类别数量；

具体实施例

步骤1：构建全局时空注意力模型，将由人体关节点数据形成的人体动作序列分为训练集、验证集和测试集；

全局时空注意力模型的构建方法如下：

步骤11：构建全局空间注意力模型，用于输入人体动作序列X，输出人体动作序列X空间注意力权重a，a＝(a₁，...，a_i，...，a_K)＝f(X)，

人体动作序列X表示为：

X＝{X_t＝(X_t，1，...，X_t，i...，X_t，K)|t＝1，...，n}，

全局空间注意力模型包括依次连接的LSTM层、全连接层、ReLU层和Normalize层；

LSTM层：用于提取所述人体动作序列X中每一动作的特征；

全连接层：用于对输入该层的特征进行降维；

ReLU层：用于增强全局空间注意力模型的非线性化；

Normalize层：用于规格化数据，防止数据变化过于分散。

累加式曲线模型ALC包括依次连接的三层LSTM层和权重层，

步骤13：构建分类层，用于输入特征_ot，输出人体动作序列X分类结果。

步骤2：将所述训练集中的人体动作序列输入全局时空注意力模型中进行训练，得到H个模型；

训练的步骤具体为：

步骤21：将所述人体动作序列X输入全局空间注意力模型进行训练；

步骤211：将人体动作序列X输入全局空间注意力模型的LSTM层进行特征提取；

步骤212：将所述步骤211提取得到的特征输入深度学习架构，利用BP算法训练得到函数f，进而根据公式a＝(a₁，...，a_i，...，a_K)＝f(X)得到空间注意力权重a；

其中ReLU层采用公式来逼近所述空间注意力权重a，w_hs表示全局空间注意力模型中全连接层采用的权重，b_s表示全局空间注意力模型中全连接层采用的偏置参数；

采用Normalize层对数据进行规格化后，使空间注意力权重a表示为：

j表示人体关节点的序号；

步骤22：将人体动作序列X赋予所述空间注意力权重a后，得到X′＝Xa，将X′输入累加式曲线模型ALC进行训练；

步骤221：将X′输入累加式曲线模型ALC中的三层LSTM层进行特征提取，得到每个时刻的特征h_t，其中，

h_t＝LSTM(LSTM(LSTM(X_t′)))；

步骤222：将所述特征h_t输入权重层，利用BP算法进行训练后，得到权重β_t。

步骤23：将所述特征h_t赋予训练得到的权重β_t，得到结果o_t，o_t＝β_th_t；

步骤24：将所述结果o_t输入分类层，进行分类，分类层包括全连接层和Softmax分类层，

所述全连接层采用的公式为：

w_h～表示分类层中全连接层的权重，b_～表示分类层中全连接层的偏置参数.

Softmax分类层采用的公式为：

α＝1，...，C表示分类效果，C表示动作的类别数，b与α的含义相同。

步骤25：相对单独的空间注意力和时间注意力而言，该架构更加复杂，训练起来将会更加困难，也更容易出现过拟合；为了缓解上述情况，本发明在损失函数上，采用二阶正则化策略来实现；其损失函数为：

表示全局时空注意力模型预测出的动作类型，

步骤3：将所述验证集输入所述H个模型测试，将准确率排名前Q的模型作为测试模型；

步骤4：将所述测试集中的测试数据输入所述Q个测试模型，得到测试效果，若测试效果最佳的测试模型精度达到阈值，则完成训练并跳转至步骤5；否则跳转至步骤2；

步骤5：将待识别动作序列输入所述测试效果最佳的测试模型，得到识别结果；

识别的步骤为：

步骤51：将待识别动作序列X_t输入全局空间注意力模型中，由于函数f已通过训练得到，因此可直接计算出空间注意力权重a；

步骤52：对待识别动作序列中的每帧动作进行权重分配，得到X_t′＝X_ta；

步骤53：将X′_t输入累加式曲线模型ALC中提取特征h_t，再赋予训练后的时间注意力权重β_t，得到h_tβ_t；

步骤54：将h_tβ_t送入全连接层和Softmax层进行分类，分类得到动作序列的类型。

Claims

1.一种基于全局时空注意力模型的动作识别方法，其特征在于：包括以下步骤：

步骤4：将待检测人体动作序列输入所述最终模型进行动作识别，得出动作序列的识别结果。

2.根据权利要求1所述的一种基于全局时空注意力模型的动作识别方法，其特征在于：所述步骤1中全局时空注意力模型的构建方法如下：

人体动作序列X表示为：

X＝{X_t＝(X_t，1，...，X_t，i...，X_t，K)|t＝1，...，n}，

步骤13：构建分类层，用于输入特征o_t，输出人体动作序列X的分类结果。

3.根据权利要求2所述的一种基于全局时空注意力模型的动作识别方法，其特征在于：所述步骤11中，全局空间注意力模型包括依次连接的LSTM层、全连接层、ReLU层和Normalize层；

LSTM层：用于提取所述人体动作序列X中每一动作的特征；

全连接层：用于对输入该层的特征进行降维；

ReLU层：用于增强全局空间注意力模型的非线性化；

Normalize层：用于规格化数据。

4.根据权利要求2所述的一种基于全局时空注意力模型的动作识别方法，其特征在于：

所述步骤12中，累加式曲线模型ALC包括依次连接的三层LSTM层和权重层，

5.根据权利要求2所述的一种基于全局时空注意力模型的动作识别方法，其特征在于：所述分类层包括全连接层和Softmax分类层。

6.根据权利要求1所述的一种基于全局时空注意力模型的动作识别方法，其特征在于：所述步骤2中，训练、验证和测试的具体步骤如下：

7.根据权利要求6所述的一种基于全局时空注意力模型的动作识别方法，其特征在于：所述步骤22中，对所述全局时空注意力模型进行训练时，采用二阶正则化策略来缓解过拟合，其中，带有二阶正则化的损失函数为：