CN117115911A

CN117115911A - 一种基于注意力机制的超图学习动作识别系统

Info

Publication number: CN117115911A
Application number: CN202311090556.XA
Authority: CN
Inventors: 马楠; 吴祉璇; 梁晔; 郭聪; 汪成
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-24

Abstract

本发明公开了一种基于注意力机制的超图学习动作识别系统，实现对人体动作进行识别的功能，其中包括如下步骤：首先通过可学习阈值构建时间注意力模块，将不同视角视频动作帧输入到时间注意力模块中，从而提取动作的关键帧，为后续网络学习降低计算成本；然后将动作的关键帧输入到基于动态时空注意力机制的超图卷积模块中，获取动作的显著性区域，通过多尺度时空残差模块学习时空高阶语义特征；再进行数据划分、训练模型和保存模型等操作。在调用模型检测过程中，通过加载模型，由网络的识别部分输出动作识别结果。本发明解决了视频序列中行为动作的时空特征存在网络计算参数量大的问题，获取人体关节点信息完备性，提高动作识别准确率。

Description

一种基于注意力机制的超图学习动作识别系统

技术领域

本发明涉及深度学习、机器视觉、动作识别的技术领域，具体地说是一种基于注意力机制的超图学习动作识别系统。

背景技术

动作识别是智能时代机器视觉研究领域的热点，使得人和机器之间形成自然的交互认知，并在众多智能化领域得到应用，其中对于如行人、交警等行为精准识别是无人驾驶应用落地要解决的重要实际问题。目前一些方法采用注意力机制帮助神经网络关注视频中重要区域，提取关键特征，从而避免了噪声干扰与信息冗余，有效提升模型性能。一些研究人员采用时空注意力机制，不仅包含空间域的静态信息，还包含时间域的运动信息，有效聚合了时间和空间维度的全局和局部关系。基于这些想法，本系统设计时空超图注意力模块，可通过获取不同帧关节点之间的高阶语义特征，实现高效行为识别任务。

发明内容

针对上述现有技术中的不足，本发明提出一种基于注意力机制的超图学习动作识别系统引入可学习阈值选择视频中的关键帧，从而去除不相关冗余帧的信息；将动作的关键帧输入到基于动态时空注意力机制的超图卷积模块中，获取动作的显著性区域，区分类内相似动作对；最后通过多尺度时空残差模块有效实现了行为动作识别。

本发明采用的技术方案为一种基于注意力机制的超图学习动作识别系统，包括基于可学习阈值的时间注意力模块、基于动态时空注意力机制的超图卷积模块、多尺度时空残差模块和动作识别模块；

所述基于可学习阈值的时间注意力模块包括计算运动信息、设置可学习阈值、计算关键帧运动特征各类操作以及1×1卷积核增强关键帧特征图，计算动态时间特征图形成时间注意，以获得最终关键帧特征集合；

所述基于动态时空注意力机制的超图卷积模块包括时空超图构建、自注意力机制和时空超图卷积，从关键帧特征集合中以不同帧相同部位的人体关节点构建时空超图，然后通过自注意力机制更新关联矩阵，得到关节点之间的相关性，引入时空超图卷积对行为动作的显著区域进行特征提取；

所述多尺度时空残差模块包括一个多尺度超图卷积层和五个基于多尺度特征表示的卷积模块用于提取和学习时空特征，最终实现动作识别；

所述动作识别模块对训练的模型进行验证，输入动作视频数据，通过保存的模型输出动作识别结果。

进一步地，基于可学习阈值的时间注意力模块，采用可学习阈值提取多视视频中的关键帧信息。首先计算当前帧和相邻帧特征图的时间差以提取运动信息，再通过与可学习的阈值进行比较，得到关键帧特征图集合；然后通过1×1卷积核增强关键帧特征图；最后与当前帧的特征连接起来，聚合当前帧的特征，获得最终关键帧特征集合。

进一步地，基于动态时空注意力机制的超图卷积模块，是从关键帧特征集合将不同帧的人体关节点分为躯干、手、腿三部分构建时空超图，并提取人体关节点多视时空超图的高阶特征，输入到自注意力机制模块中进行人体关节点的全局建模，最后通过时空超图卷积获得动作的显著性区域。

进一步地，多尺度时空残差模块首先将动作的显著性区域特征采用多尺度超图卷积层捕捉不同帧之间的时序信息变化，再将特征输入基于多尺度特征表示的卷积模块建模长时间和短时间的语义信息，然后将残差连接放置在相邻的两个模块之间，以获取局部和非局部关节之间的依赖关系，最终实现动作识别。

进一步地，采用NTU RGB+D和自采集的交警手势数据集的训练集进行训练，为了客观反映动作识别结果，使用交叉熵损失函数来衡量训练效果，经过多次迭代后当损失值趋于稳定后，保存为训练模型。进一步地，动作识别模块采用NTU RGB+D和自采集的交警手势数据集的测试集进行验证。

本方法一种基于注意力机制的超图学习动作识别系统，可以在pc端交互设备上进行行人、动作识别。该系统不仅提高了复杂场景下动作识别问题，提高了无人驾驶环境中对车辆周围行人、交警动作的识别速度，并在交叉领域提供准确的动作识别算法。

附图说明

图1是一种基于注意力机制的超图学习动作识别系统总体流程图。

图2是一种基于注意力机制的超图学习动作识别系统总体网络结构图。

具体实施方式

以下参照附图及实施例对本方法进行详细的说明：

本发明系统通过可学习阈值构建时间注意力模块，将不同视角视频动作帧输入到时间注意力模块中，从而提取动作的关键帧，为后续网络学习降低计算成本；然后将动作的关键帧输入到基于动态时空注意力机制的超图卷积模块中，获取动作的显著性区域，通过多尺度时空残差模块学习时空高阶语义特征；再进行数据划分、训练模型和保存模型等操作。在调用模型检测过程中，通过加载模型，由网络的识别部分输出动作识别结果。本发明解决了视频序列中行为动作的时空特征存在网络计算参数量大的问题，获取人体关节点信息完备性，提高动作识别准确率。

附图1可知，按照一种基于注意力机制的超图学习动作识别系统的一优选实施例，包括：

(1)使用基于可学习阈值的时间注意力模块，该模块使用视频序列的运动信息并引入可学习阈值选择视频中的关键帧，从而去除不相关冗余帧的信息；

(2)构建基于动态时空注意力机制的超图卷积模块，该模块捕获动作中不同帧关节点之间的高阶语义关系，输入到动态时空注意力模块中，学习身体部位关节点特征之间关联以获得动作的显著性区域；

(3)采用多尺度时空残差模块结合残差连接结构对视频数据的长短距离进行关联，从而获取局部和非局部关节之间的依赖关系。

(3)NTU RGB+D和自采集的交警手势数据集分为训练集和测试集，训练模型并保存模型；

(4)输入待识别的动作视频数据并加载模型进行动作识别；

(5)输出识别结果。

附图2可知，按照一种基于注意力机制的超图学习动作识别系统的一优选实施例，包括：

(1)基于可学习阈值的时间注意力模块和基于动态时空注意力机制的超图卷积模块输入特征通道数为64，输出特征通道数为64。

(2)多尺度时空残差模块输入特征通道数为64，输出特征通道数为128，最终的分类通过Softmax函数计算得到。

上述方案中优选的是，所述基于可学习阈值的时间注意力模块，通过获得动态时间特征图形成时间注意。分为以下四个步骤：

(1)将多视数据中每帧关节点信息作为输入，其中p＝1，2，…，P表示视角，t＝1，2，…，T表示时间，I表示人体关节点数，C表示坐标即为(x,y)；/>表示集合中的数都属于实数。

(2)计算动作的运动信息m_p(t)，用公式表示为：

m_p(t)＝x_p(t)-x_p(t-1)＝x[:,t]-x[:,t-1]

其中，关节点坐标集合C_in表示坐标信息，T_in表示帧。

(3)设置一个可学习阈值核其中特征均值/>其中m_p(t)表示动作的运动信息，/>表示特征均值，t＝1，2，…，T表示时间。

(4)将运动m_p(t)与TF的差值进行比较，以确定第t帧是否为关键帧，如果两者比较结果为正，则将第t帧标记为关键帧；否则不是。最终被选为关键帧的特征集合KF(t)＝{m_p(t)|m_p(t)-TF＞0}。

上述方案中优选的是，所述基于动态时空注意力机制的超图卷积模块对于每个节点的查询向量/>关键向量/>和值向量/>分别通过线性变换得到节点特征/>通过SoftMax函数对每对节点之间的相关性/>运用/>更新，再将这些矢量加权求和得到最终的结果/>用公式表示为：

其中，

采用多头注意力机制提取H次特征得到最终组合结果

再通过时空超图卷积对关联特征进行提取，用公式表示为：

其中，f_out(·)表示输出，K是预定义的最大节点之间距离，W_k和M_k表示卷积运算和调整权重值可学习参数，表示更新后的拉普拉斯矩阵，其中/>和/>分别表示第p个时空超图中超边度和顶点度的对角矩阵。

上述方案中优选的是，所述多尺度时空残差模块是通过有序堆叠一个多尺度超图卷积层和五个基于多尺度特征表示的卷积模块层用于提取和学习时空特征。主要分为以下两个个步骤：

(1)多尺度超图卷积层添加了一个简单的可学习超图剩余掩码动态地加强、削弱、添加或删除边。

其中，用零附近的随机值初始化，允许每个多尺度上下文选择最合适的掩码。

(2)将上面的变换进行连接操作，基于多尺度特征表示的卷积模块是由五个分支组成，每个分支包含1×1卷积以减少通道维数；第二、三和四分支分别包含三种不同伸缩因子的深度可分离卷积，在减少参数数量的同时提取不同时间特征信息；第五分支用于将特征集中在单个帧内。

上述方案中优选的是，所述一种基于注意力机制的超图学习动作识别系统使用交叉熵损失函数：其中y_i为One-Hot向量，表示动作类的groundtruth。经过多次迭代后当损失值趋于稳定后，保存为训练模型。

上述方案中优选的是，所述一种基于注意力机制的超图学习动作识别系统训练过程中批量大小为64，训练时用SGD优化算法(动量为0.9)，权重衰减设为0.0005，训练时epoch设置为70，初始学习率设为0.1。在NTU RGB+D和自采集的交警手势数据集上进行训练。

Claims

1.一种基于注意力机制的超图学习动作识别系统，其特征在于，包括基于可学习阈值的时间注意力模块、基于动态时空注意力机制的超图卷积模块、多尺度时空残差模块和动作识别模块；

2.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统，其特征在于：基于可学习阈值的时间注意力模块，采用可学习阈值提取多视视频中的关键帧信息；首先计算当前帧和相邻帧特征图的时间差以提取运动信息，再通过与可学习的阈值进行比较，得到关键帧特征图集合；然后通过1×1卷积核增强关键帧特征图；最后与当前帧的特征连接起来，聚合当前帧的特征，获得最终关键帧特征集合。

3.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统，其特征在于：基于动态时空注意力机制的超图卷积模块，是从关键帧特征集合将不同帧的人体关节点分为躯干、手、腿三部分构建时空超图，并提取人体关节点多视时空超图的高阶特征，输入到自注意力机制模块中进行人体关节点的全局建模，最后通过时空超图卷积获得动作的显著性区域。

4.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统，其特征在于：多尺度时空残差模块首先将动作的显著性区域特征采用多尺度超图卷积层捕捉不同帧之间的时序信息变化，再将特征输入基于多尺度特征表示的卷积模块建模长时间和短时间的语义信息，然后将残差连接放置在相邻的两个模块之间，以获取局部和非局部关节之间的依赖关系，最终实现动作识别。

5.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统，其特征在于：采用NTU RGB+D和自采集的交警手势数据集的训练集进行训练，为了客观反映动作识别结果，使用交叉熵损失函数来衡量训练效果，经过多次迭代后当损失值趋于稳定后，保存为训练模型。

6.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统，其特征在于：动作识别模块采用NTU RGB+D和自采集的交警手势数据集的测试集进行验证。