CN112597921B

CN112597921B - 一种基于注意力机制gru深度学习的人体行为识别方法

Info

Publication number: CN112597921B
Application number: CN202011580202.XA
Authority: CN
Inventors: 袁友伟; 彭瀚; 赵奇; 鄢腊梅
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-02-02
Anticipated expiration: 2040-12-28
Also published as: CN112597921A

Abstract

本发明公开一种基于注意力机制GRU深度学习的人体行为识别方法。本发明设计了改进Inception卷积构造人体行为数据预处理模块，改进Inception卷积提升了对多尺度数据的分析能力，以更好地筛选出主要关键信息，忽略异常信息，提升了本方法的鲁棒性。本发明设计了添加注意力机制的GRU深度学习网络构造人体行为识别模块，能够更好地记忆并处理时序信息，避免传统行为识别方法仅考虑空间信息，而难以对数据之间的时间关联属性进行有效分析的问题，从而极大提升了本方法对于持续性动作的预测与识别能力。

Description

一种基于注意力机制GRU深度学习的人体行为识别方法

技术领域

本发明涉及计算机科学和人体行为识别技术领域，具体涉及一种基于注意力机制GRU深度学习的人体行为识别方法。

背景技术

随着便携式设备得到了快速发展，人体行为识别技术可以利用嵌入式传感器收集的大数据，对用户进行动作识别和行为分析，从而检测出用户的活动状态。目前该技术已经广泛应用于医疗卫生、智能家居、体育竞赛等诸多领域，而为了使得分析结果更加精确，合理的学习分类算法已经成为了人体行为识别领域发展的迫切需要。

常用的人体行为识别方法包括数理统计、模式识别、数据挖掘和人工神经网络等，近年来，决策树、支持向量机等机器学习算法与卷积神经网络、循环神经网络等深度学习算法经常被使用来提升行为识别的准确性。

然而机器学习高度依赖人们的经验和领域知识以进行人工特征提取，很难在大规模行为活动数据库中训练出强大的模型，并且无法对输入数据样本的时间特征进行分析，无法进行更准确的结果预测。深度学习也同时存在着对训练数据要求过高、对时间特征关注度不高等缺点，会综合导致对于连续性动作的预测结果远远不如预期，最终无法进行准确的行为识别。此外，注意力机制也有着因为是对序列的所有元素并行处理，所以无法考虑输入序列的元素顺序的缺点。因此，本发明针对上述问题，为人体行为识别提供新的深度学习方法，改进现有技术方案中的不足。

发明内容

为了克服现有的人体行为识别方法存在的缺陷，本发明公开了一种基于注意力机制GRU深度学习的人体行为识别方法。

本发明的目的在于，针对当前人体行为识别方法中缺乏对时间属性关注导致识别准确率较低，缺乏数据预处理导致受异常信息影响较大的两个问题，提供一种精度高、鲁棒性强、效率快的人体行为识别方法，克服现有的人体行为识别中存在的缺陷。

为了实现上述目的，本发明提出了一种基于注意力机制GRU深度学习的人体行为识别方法，命名为A-GRU(注意力机制GRU)。特别的，注意力机制很少用于人体行为识别的原因在于，其通过在神经元外部建立注意力模块的方式对序列的所有元素并行处理，这将会使得网络无法考虑输入序列的元素顺序，而持续性动作的关键属性之一就是人体行为数据的输入顺序。因此，本发明方法在神经元内部，即GRU单元的构建中加入了元素注意门以模拟注意力机制，既保留了注意力机制能有效避免长期依赖问题出现的优点，又使得网络能够获取到人体行为数据的输入顺序，避免了丧失时序信息的缺点。

针对识别率较低问题，本发明设计了添加注意力机制的GRU深度学习网络构造人体行为识别模块，能够更好地记忆并处理时序信息，避免传统行为识别方法仅考虑空间信息，而难以对数据之间的时间关联属性进行有效分析的问题，从而极大提升了本方法对于持续性动作的预测与识别能力。

针对异常信息影响较大的问题，本发明设计了改进Inception卷积构造人体行为数据预处理模块，改进Inception卷积提升了对多尺度数据的分析能力，以更好地筛选出主要关键信息，忽略异常信息，提升了本方法的鲁棒性。

为了解决现有技术的问题，本发明的技术方案如下：

包括以下步骤：

步骤(1)：获取带时序信息的不同人体行为数据，并标注标签信息；所述的人体行为数据包括人体各关节部位的加速度数据、陀螺仪数据和磁力计数据，以及对应空间位置信息；

使用智能传感设备对不同场景下的行为进行采集，并将传感器信号转化为数据信息，给对应行为贴上标签，生成数据集，包括以下子步骤：

步骤(1.1)：使用phyphox物理工坊程序，设定实验采集参数。

步骤(1.2)：将多个传感器设备绑定至待测定人体，对多种不同行为动作进行数据采集。

步骤(1.3)：在不同行为场景下采集生成多组带标签的PHAD数据集(a_ij，g_ij，r_ij，k)。其中a、g、r分别表示传感器获取的加速度数据、陀螺仪数据和磁力计数据，k表示行为状态，i、j分别表示数据集(a，g，r)对应x、y、z三轴和对应传感器装置安装位置的空间信息标签，同时多组数据是依据行为顺序采集的，即数据集的数据顺序记录了行为的时序信息。

步骤(2)：将人体行为数据集分配为训练样本和测试样本；

为每个行为动作进行切分，总计生成多组信号样本，在生成的样本中进行随机抽取，切分出带标签的训练集与测试集作为网络输入。

步骤(3)：采用由改进Inception卷积结构构成的深度学习网络对训练样本进行数据预处理；

改进Inception卷积结构包括输入层、第一至四卷积层、最大池化层、特征拼接层；第一层的输出接第一卷积层的输入、第二卷积层的输入、第三卷积层的输入、最大池化层的输入；最大池化层的输出接第三卷积层的输入；第一至四卷积层的输出接特征拼接层的输入；

第一卷积层从输入至输出由串联的1×1卷积、2×2卷积构成；第二卷积层从输入至输出由串联的1×1卷积、2×2卷积、3×3卷积构成；第三卷积层为3×3卷积；第四卷积层为1×1卷积；

最大池化层采用2×2最大池化层联通；

改进Inception卷积结构构成的深度学习网络利用卷积池化方法对数据集的样本数据进行特征提取与数据处理，降低异常信息影响力，压缩了数据量，得到特征更明显且异常信息更少的人体行为数据序列，包括以下步骤：

步骤(3.1)：构造改进Inception卷积结构，公式如下：

其中是第l层第j个神经元的输出，b^l是偏置值，σ是非线性激活函数，/>是卷积核的F×P权重矩阵，F代表第l层的特征图数量，P代表第l层的卷积核的长度。

步骤(3.2)：构建数据预处理网络。

利用Inception卷积结构所具有良好的Batch Normalization数据归一化特点，使用卷积神经网络中的卷积和池化操作，建立可以精准提取出待分类数据的重要信息特征的数据预处理网络。

步骤(3.3)：使用Flatten层扁平化处理的输出数据结果，生成序列数据l。

步骤(4)：利用A-GRU网络对步骤(3)预处理后的样本进行行为分析。

A-GRU包括更新门、重置门、元素注意门；

a)元素注意门用于赋予GRU神经元注意能力

其中a_t表示元素注意门的输出，即响应矢量；代表Sigmoid的激活函数；W_xa表示由x_t到a_t的关系矩阵,W_ha表示由h_t-1到a_t的关系矩阵,ε_a代表a_t对应的偏置向量；x_t表示t状态的输入，即步骤(3)深度学习网络的输出；h_t-1表示t-1状态的隐藏层输出；

b)重置门用于控制忽略h_t-1信息的程度

r_t＝σ(W_r⊙[h_t-1,a_t⊙x_t]+ε_r)

其中W_r代表r_t的权重矩阵，ε_r代表r_t对应的偏置向量。

c)更新门z_t用于控制h_t-1被带入到当前状态中的程度

z_t＝σ(W_z⊙[h_t-1,a_t⊙x_t]+ε_z)

其中z_t是隐藏状态的输出向量，W是代表z_t的权重矩阵，ε_z是z_t对应的偏置向量。

d)整合元素注意门、重置门和更新门，计算公式如下：

式中，h_t是当前状态的输出向量，a_t作为当前状态的响应矢量，W是当前状态的权重矩阵，ε_h代表h_t对应的偏置向量，tanh()表示tanh激活函数，表示受到tanh激活后的向量，仅存在于当前状态转移过程中。

步骤(5)：利用分类器对步骤(4)结果进行分类，得到具体行为分类结果。

步骤(6)：利用测试样本对步骤(3)-(4)模型进行测试。

本发明的另一个目的是提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实上述述的方法。

本发明的又一个目的是提供一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述的方法。

与现有技术相比，本发明方法具有以下优点：

1.高精度：基于注意力机制的GRU深度学习网络，通过新加入的元素注意门能够进行自适应调整，对输入的不同元素进行不同程度的分析，以获得了更准确的结果。本发明克服了对数据分析不考虑关联性导致的完全忽视持续性动作的本身所带有时间属性的时序遗漏问题，以及循环输入数据会导致越早输入的数据影响越小的长期依赖问题，在对持续性简单人体行为的预测中，本发明有着更好的表现。

2.高效性：通过改进Inception卷积对多尺度数据的良好分析能力，本发明可以更好地进行特征提取和异常信息处理，有效减少了训练过程中模型受到的非常规数据影响。具体地，将数据处理作为该模块主要目的之后，不会如同卷积神经网络一样再进入全连接层进行分析，因此网络的高计算速率是能够得到严格保障的，不会因为投入过大的计算量导致影响本发明的实际使用。所述改进Inception卷积结构采用多个偶数小卷积核代替大卷积核的方式，克服了时间复杂度过高的问题，通过对池化层的替换，也可以在一定程度上减少特征的损失，并且相比来说特征表达能力也没有过大降低，完全满足特征提取的主要需求。进一步的，传统Inception卷积结构不使用偶数卷积是由于此类卷积会导致featuremap偏移量叠加，致使要素扭曲到空间一角。但是在本发明场景中，目的是对信号数据信息的特征提取而非传统应用场景中对图像进行要素分析，因此偶数卷积造成的负面影响可忽略，而所提升的计算效率大大提升了本发明的使用性能。

3.鲁棒性：通过改进Inception卷积对多尺度数据的良好分析能力，数据预处理网络可以更好地进行特征提取和异常信息处理，有效减少了训练过程中模型受到的非常规数据影响。

附图说明

图1为基于注意力机制GRU深度学习的人体行为识别方法的总流程图；

图2为原始Inception卷积的结构图；

图3为改进Inception卷积的结构图；

图4为基于注意力机制GRU深度学习的网络结构图；

图5为本发明人体行为识别方法进行对比实验的流程图；

图6为一个步行行为样本的三轴加速度计数据；

图7为A-GRU深度学习网络迭代训练中的准确率数据图；

图8为PHAD数据集上本方法与SVM、DCL、IN人体行为识别方法的准确率对比图；

图9为PHAD数据集上本方法与SVM、DCL、IN人体行为识别方法的召回率对比图；

图10(1)-(2)分别为A-GRU方法与原始GRU方法的混淆矩阵对比图。

具体实施方式

下面结合说明书附图，对本发明的实施步骤进行进一步说明，但本发明并不局限于以下实施例。

参见图1为本发明实施例提供的基于注意力机制GRU深度学习方法的流程示意图，具体方法包括以下步骤：

步骤(1)：获取带时序信息的不同人体行为数据，并标注标签信息；

步骤(1.1)：使用phyphox物理工坊程序，设定实验采集参数，包括加速度、陀螺仪、磁力计等，其中加速度包括线性加速度、角加速度、重力加速度，采样频率为20hz。

步骤(1.2)：将多个传感器设备绑定至人体如手臂、大腿、腰腹等能够生成对于不同行为采集数据敏感，且互相关联性较小的位置。

步骤(1.3)：使用智能传感设备对不同场景下的行为进行采集，并将传感器信号转化为数据信息，给对应行为贴上标签，生成数据集。

给多名志愿者绑定采集设备后，进行步行、跑动、静坐、站立、上楼、下楼等行为，生成多组带标签的数据集PHAD(a_ij，g_ij，r_ij，k)。其中a、g、r分别表示传感器获取的加速度数据、陀螺仪数据和磁力计数据，k表示行为状态标签，i、j分别表示数据集(a，g，r)对应x、y、z三轴和对应传感器装置安装位置的空间信息标签，同时多组数据是依据行为顺序采集的，因此数据集的数据顺序也记录了行为的时序信息。

步骤(2)：将人体行为数据集分配为训练样本和测试样本；

为每个行为动作进行切分，总计生成20000组信号样本，在生成的样本中进行随机抽取，其中训练集70％，测试集30％，生成数据样本。

最大池化层采用2×2最大池化层联通；

步骤(3.1)：构造改进Inception卷积结构。

参考图2为原始卷积结构，图3为本发明实施例提供的改进卷积结构。本发明设计的卷积结构将替换原始的卷积结构以获得更好的特征提取效果，主要实现方式为使用偶数小卷积块替换大卷积块，公式如下：

步骤(3.2)：构建数据预处理网络。

本发明设计了添加元素注意门的A-GRU单元结构替换GRU原始结构，以使得行为识别模块拥有更好的分析能力，具体结构参考图4，A-GRU包括更新门、重置门、元素注意门；

a)元素注意门用于赋予GRU神经元注意能力

b)重置门用于控制忽略h_t-1信息的程度

r_t＝σ(W_r⊙[h_t-1,a_t⊙x_t]+ε_r)

其中W_r代表r_t的权重矩阵，ε_r代表r_t对应的偏置向量。

c)更新门z_t用于控制h_t-1被带入到当前状态中的程度

z_t＝σ(W_z⊙[h_t-1,a_t⊙x_t]+ε_z)

d)整合元素注意门、重置门和更新门，计算公式如下：

步骤(5)：利用softmax分类器计算人体行为类别结果对应的概率值，选取类别概率最大值对应的类别作为人体行为识别的输出结果。

步骤(6)：利用测试样本对步骤(3)-(4)模型进行测试。

步骤(6.1)：设置训练基于注意力机制GRU深度学习网络模型的超参数，包括网络结构初始学习率learning_rate、一次的批次样本数量batch_size、逐轮迭代次数training_step、最大迭代轮次iteration_round等，对训练集的输入序列信息进行交叉验证学习，针对验证结果与模型训练时间综合调整，最终设定模型参数。

所述交叉验证训练过程，包含两种终止条件：模型在训练集的预测结果准确率达到设定的预期阈值标准、模型的训练迭代轮次到达设定的最大值。

步骤(6.2)：对模型训练结果的优化函数进行效果对比，包括BGD、SGD、Momentum、Adadelta、RMSprop、Adam等，在本实施例对PHAD数据集的识别过程中，确定了Adam优化器应用于行为分析模型，以达到最高的精度结果，该优化算法的公式如下：

u_t＝au_t-1+(1-a)DJ(W_t)

v_t＝bv_t-1+(1-b)[DJ(W_t)]²

式中，a和b是矩估计的指数衰减率，设置为0.9和0.999。u_t和v_t分别代表有偏差的第一矩估计和第二原始矩估计，ΔJ(W_t)代表代价函数的梯度，

式中，W_t是状态t的模型参数,a和b是矩估计的指数衰减率，设置为0.9和0.999。u_t和v_t分别代表有偏差的第一矩估计和第二原始矩估计，和/>是它们各自的修正值，η代表学习率，设置为0.001，ε是一个非常小的参数，作用是为了防止在实现中进行除以零的操作，设置为10^-8。

步骤(6.3)：计算精确率作为评估模型人体行为识别能力的指标。

精确率代表了正确样本中被分类为阳性的样本比例，代表了所有样本中北分类为阳性的样本比例，人体行为识别的精确率计算如下：

式中，tp_i代表分类i的TPR真正率,fp_i代表FPR假正率，t代表分类总数。

步骤(6.4)：计算召回率作为评估模型人体行为识别鲁棒性的指标。

召回率是针对样本而言，表示的是样本中的正例被正确预测的比例，人体行为识别的召回率计算如下：

式中，tp_i代表分类i的TPR真正率,fn_i代表FNR假负率，t代表分类总数。

以下对基于注意力机制GRU深度学习的人体行为识别方法与其他传统方法进行比较：

本发明的实验在Intel(R)Xeon(R)Silver4108,GeForce RTX 2080Ti,Ubuntu18.04系统下，使用基于TensorFlow2.0和CUDA10.0的TensorFlow-GPU，进行模型构建与数据训练。训练的样本数据集为自采集的PHAD人体行为数据集，Initial learningrate设置为0.002。对比方法分别为本发明方法，机器学习主流方法支持向量机(SVM)，深度学习主流方法Inception Neural Network HAR(IN)和Deep Convolutional and LSTMRecurrent Neural Networks(DCL)。

参考图5为本发明人体行为识别方法进行对比实验的流程图。为体现本发明方法的实验效果，选取机器学习与深度学习领域的其他算法在相同的PHAD数据集上使用自身的实验流程进行对比。具体的,参考图6为一个步行样本的三轴加速度计的数据，在获取人体行为的传感器信号，包括加速度、陀螺仪、磁力计等数据之后，机器学习方法的实现流程是通过人工提取特征的方法进行滤波器过滤，并输入到机器学习网络之中进行分类预测。我们使用了Artificial neural network(人工神经网络)、SupportVector Machine(支持向量机)、K-Means(K均值聚类)、Random forest(随机森林)、Bayes(朴素贝叶斯)等机器学习算法进行预测，最终采用识别效果最好的支持向量机方法(SVM)作为机器学习方法的代表与本发明进行对比实验。深度学习方法的实现流程是通过对传感器数据进行数据预处理进行自动提取特征，并且输入对应的深度学习网络中，最后使用Softmax分类方法进行结果分类，我们选取了人体行为识别领域的代表性深度学习方法Inception Neural NetworkHAR(IN)和Deep Convolutional and LSTM RecurrentNeural Networks(DCL)进行与本发明方法的对比实验。

在同数量级训练样本输入后，对机器学习SVM方法不进行运行约束，以模拟收敛得到的最终结果为准。对本发明方法、IN、DCL三类深度学习方法进行迭代总数限制，将最大迭代总量，即逐轮迭代次数training_step与迭代轮次iteration_round相乘的结果统一为100000、200000、400000来进行对比试验，各优化函数都使用相关方法论文中提出的方法MBGD小批量梯度下降和momentum优化方法，各自具体的初始学习率learning_rate、一次的批次样本数量batch_size将进行10次人工调参，采取最优的分类预测结果进行对比。参考图7为本发明深度学习网络通过不断迭代使得人体行为识别准确率不断提升的数据图。

表1：本发明方法与SVM、IN、DCL方法的准确率对比。

结合表1和图8所示，本发明方法在步行、上楼、下楼、静坐、站立、跑步六个动作的分类预测准确率分别为97.5、94.2、93.6、99.1、97.6、91.8，除了站立情况下比IN方法略低以外，均高于进行对比的三种方法。通过得到了总体预测准确率，四种方法分别为95.6、82.7、92.7、92.1，可以看到本发明方法分别有着12.9、2.9、3.5的准确率提升，同时95.6的整体准确率基本保证了本发明可以在实际场景中进行有效地行为预测，具有着较好的实践性。参考图9召回率对比图所示，本发明在各个行为的识别结果上，也有着很高的召回率。参考图10(1)-(2)本发明改进的A-GRU与标准GRU的混淆矩阵对比，在代表动作正确预测的对角线单元格上，本发明混淆矩阵的颜色更深，非对角线着色单元格更少且更浅，代表本发明的分类正确率更高。

综上所述，本发明通过设计基于注意力机制的A-GRU深度学习网络，结合使用小偶数卷积的改进Inception卷积结构，能够针对人体行为识别场景中对持续性动作的预测分类有着较好的分析能力。改进Inception卷积在对异常信息处理与特征提取方面有良好表现的同时，提升了模型的数据预处理速度。A-GRU深度学习网络在拥有注意力机制能力的同时，也保留传统注意力机制所没有的，对持续性动作的时序信息分析的能力，有效提升了人体行为识别的准确率。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本公开将不会被限制于本公开所示的这些实施例，而是要符合与本公开所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力机制GRU深度学习的人体行为识别方法，其特征在于包括以下步骤：

步骤(2)：将人体行为数据集分配为训练样本和测试样本；

改进Inception卷积结构包括输入层、第一至四卷积层、最大池化层、特征拼接层；第一层的输出接第一卷积层的输入、第二卷积层的输入、第三卷积层的输入、最大池化层的输入；最大池化层的输出接第三卷积层的输入；第一至四卷积层的输出接特征拼接层的输入；所述改进Inception卷积结构中第一卷积层由串联的1×1卷积、2×2卷积构成；第二卷积层由串联的1×1卷积、2×2卷积、3×3卷积构成；第三卷积层为3×3卷积；第四卷积层为1×1卷积；最大池化层采用2×2最大池化层连接；

步骤(4)：利用A-GRU网络对步骤(3)预处理后的样本进行行为分析；

A-GRU包括更新门、重置门、元素注意门；

a)元素注意门用于赋予GRU神经元注意能力

b)重置门用于控制忽略h_t-1信息的程度

r_t＝σ(W_r [h_t-1,a_t x_t]+ε_r)

其中W_r代表r_t的权重矩阵，ε_r代表r_t对应的偏置向量；

c)更新门z_t用于控制h_t-1被带入到当前状态中的程度

z_t＝σ(W_z [h_t-1,a_t x_t]+ε_z)

其中z_t是隐藏状态的输出向量，W是代表z_t的权重矩阵，ε_z是z_t对应的偏置向量；

d)整合元素注意门、重置门和更新门，计算公式如下：

h_t＝tanh(W [r_t×h_t-1,a_t x_t]+ε_h)

h_t＝h_t-1+z_t(h_t-h_t-1)

式中，h_t是当前状态的输出向量，a_t作为当前状态的响应矢量，W是当前状态的权重矩阵，ε_h代表h_t对应的偏置向量，tanh()表示tanh激活函数，h_t表示受到tanh激活后的向量，仅存在于当前状态转移过程中；

步骤(5)：利用分类器对步骤(4)结果进行分类，得到具体行为分类结果；

步骤(6)：利用测试样本对步骤(3)-(4)模型进行测试。

2.根据权利要求1所述的一种基于注意力机制GRU深度学习的人体行为识别方法，其特征在于所述的人体行为数据包括人体各关节部位的加速度数据、陀螺仪数据和磁力计数据，以及对应空间位置信息。

3.根据权利要求1所述的一种基于注意力机制GRU深度学习的人体行为识别方法，其特征在于改进Inception卷积结构具体是：

4.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-3任一项所述的方法。

5.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1-3任一项所述的方法。