CN116363757A

CN116363757A - 一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法

Info

Publication number: CN116363757A
Application number: CN202310351328.7A
Authority: CN
Inventors: 李玉军; 张默研; 权振振
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-06-30

Abstract

本发明涉及一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，属于神经网络技术领域，利用包括注意力机制、空间图卷积、多尺度残差网络、时间图卷积的骨骼网络模型提取骨骼模态特征；使用CNN卷积神经网络提取传感器特征，最后根据在验证集上的准确性为其分配权重将各模态后期融合，通过softmax层从而判断行为类别。本发明不仅可以提高单一模态在行为识别上的准确度，而且所需参数量较少，对硬件要求小。在智能监控、行为识别等应用中有很大的意义。引入注意力机制可以获得更多的需要关注目标的细节信息，并抑制其它无用信息。

Description

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法

技术领域

本发明涉及一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，属于神经网络技术领域。

背景技术

近年来，伴随着高新科技的快速发展，作为信息最为直观、生动的表现方式，视频逐渐占据信息表达的主导地位。各大视频应用软件在手机平台上发展的如火如荼，每分每秒都有大量的视频产生和传播，同时，随着人们安全意识的不断提高，视频监控系统也逐渐普及。因此，目前的视频资源空前丰富。但对于一段冗长的视频，投入大量的人力物力去分析研究显然效率过低。如何在海量的视频数据中快速提取有效信息是目前很多学者都在研究的课题。

人类动作识别的研究在过去十年中取得了重大进展，并产生了商业化的产品。基于视频的人体动作识别是目前计算机视觉领域最活跃的研究领域之一。人体动作、手势识别具有广泛的应用，包括智能视频监控，家庭监控，人机界面，视频存储和检索，辅助生活，以及辅助机器人等。它涉及计算机视觉的各种研究课题，包括视频中的人体检测、人体姿势估计、人体跟踪、人体活动分析和理解。各种研究表明，动作识别的性能高度依赖于提取的特征类型和动作的表示方式。行为识别是视频理解的核心任务。

现有的研究探索了各种特征表示的模式，如RGB帧、光流、音频波和人类骨骼。在这些模式中，基于RGB的动作识别一直处于主导地位。而随着Kinect、Asus Xtion和IntelRealSense等低成本深度相机的开发，以及Openpose、SDK等估计关节点坐标算法趋于成熟，获取关节点位置信息变得相对容易。此外，相较于视频数据、深度数据等易受光线亮度、观察视角、身体遮挡、背景杂乱等因素干扰，骨骼数据不易受人体外观、光照和视角变化等因素影响，且能很好地避免噪声干扰，从而使得基于骨骼数据的人体行为识别受到了研究者青睐。

与此同时，不同的传感器可以提供关于同一环境的互补信息。多模态融合可以从不同模态中提取和组合相关信息，从而比仅使用一种模态提高性能。该技术被广泛应用于各种机器学习任务中，如视频分类、动作识别、情感识别、视听语音增强。结合传感器数据与骨骼数据的识别方法，旨在通过利用两种数据的互补性训练模型，来对视频中人体行为进行识别。与基于可见光视频的行为识别相关算法相比而言，结合传感器数据与骨骼数据的相关算法相对较少，数据量缺乏。

发明内容

针对现有技术的不足，本发明提供一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，不仅可以提高单一模态在行为识别上的准确度，而且所需参数量较少，对硬件要求小。在智能监控、行为识别等应用中有很大的意义。引入注意力机制可以获得更多的需要关注目标的细节信息，并抑制其它无用信息。

本发明采用以下技术方案：

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，利用包括注意力机制、空间图卷积、多尺度残差网络、时间图卷积的骨骼网络模型提取骨骼模态特征；使用CNN卷积神经网络提取传感器特征，最后根据在验证集上的准确性为其分配权重将各模态后期融合，通过softmax层从而判断行为类别。

优选的，具体包括如下步骤；

S1：提取人体骨骼序列创建数据集；

S2：搭建骨骼网络模型，用于获取骨骼特征；

S3：通过对骨骼序列坐标值进行数值运算，得到不同的特征流，将特征流输入骨骼网络模型进行特征提取；

S4：将传感器一维数据根据时间关系转换为二维活动图像，搭建CNN卷积神经网络以提取二维活动图像的数据特征，得到传感器特征；

S5：将提取出的骨骼特征和传感器特征进行融合得到双模态网络模型，以提高模型识别准确率；

S6：利用训练集来训练整个双模态网络模型；

S7：利用训练完的双模态网络模型对视频中的人体进行行为识别。

优选的，步骤S1中，对于已经标注过各个骨骼点的数据集可以直接使用实现行为识别，比如NTU-RGB+D，该数据集包含60个种类的动作，共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作；

对于RGB视频，需要对其进行预处理，首先将视频截成5s左右的片段，并对视频中的动作类别进行标注，保证样例和标注一一对应，将标记后的数据按一定比例划分为训练集和测试集，使用openpose开源项目处理视频片段，提取视频中人体骨骼数据帧序列；

NTU-RGB+D数据集中采集到的骨骼点共25个，经过openpose算法提取视频中人体骨骼点共18个，关节点顺序如图1所示。其中，点对应关节点，边对应骨骼，将其置于三维空间中，点的属性就是其对应的三维空间坐标(x,y,z)。根据给定的关节连接信息和顺序构造一个以关节坐标为图节点，人体结构的连接和时间帧的连接为边的时空图作为模型的输入。

分析动态骨骼首先需要根据骨骼结构建立邻接矩阵，以便后续计算，在确定一个中心节点后，将其邻居节点编号分类，将每个邻居节点按照与骨骼重心距离大小为准分到子集中并依序编号，以中心节点与骨骼重心的距离为准(label＝0)，即基准值，在所有邻居节点到重心距离中，小于基准值的视为向心节点(label＝1)，大于基准值的视为离心节点(label＝2)，邻接矩阵的创建规则如下式，其中r_j表示邻居节点到重心距离，r_i表示中心节点与重心的距离，即基准值l表示对应的子集标签：

将节点分为3组后，构建邻接矩阵A，将骨骼帧中的人体骨骼看作一个整体，构造关节连接图G(x,A)，其中x表示N个关节点的位置信息，即三维坐标值，A表示邻接矩阵；单帧内关节的体内连接由邻接矩阵A和表示自连接的单位矩阵I表示：

优选的，步骤S2中，骨骼网络模型包括BN层、9个基础模块、池化层Pool和全连接层FC；

每个基础模块由注意力机制(ATT)、空间图卷积(GCN)、多尺度残差网络(MSR)、时间图卷积(TCN)依次连接构成；注意力机制和多尺度残差网络可以使模型更多关注目标的细节信息，空间图卷积、时间图卷积分别提取人体骨骼的空间特征和时序特征。在空间图图卷积模块中，本发明引入了注意力机制，从而捕获更准确的运动信息。其中，空间图卷积用于对不同关节点给予不同程度的关注，帮助模型根据输入样本增强判别特征。

9个基础模块中，前三层的输出通道为64，中间三层的输出通道为128，最后三层的输出通道为256；最后将输出的张量送至全局平均池化层Pool、全连接层FC得到256维特征向量。

优选的，步骤S3中，根据骨骼数据，提取多特征流。在运动过程中，骨骼和关节点一直处于变化状态，且相互之间往往存在一定的联系。以往方法种仅仅关注关节点和骨骼的变化，遗漏了大量信息。因此在本专利中，分别对骨骼的三维坐标数据采用不同的计算方式，从而得到不同特征流，特征流包括关节点、骨骼、骨骼动态、关节点动态、和骨骼余弦距离；

骨骼序列坐标本质上是三维坐标，对应得点即为关节点，关节点之间的连线即为骨骼；骨骼动态特征可以通过同一骨骼在时间维度上连续两帧位置之差表示；关节点动态特征可以通过同一关节点在时间维度上连续两帧位置之差表示；计算骨骼与包括该骨骼在内的所有骨骼之间的余弦距离，作为骨骼余弦距离特征，该方法提供了一组丰富的角度和方向特性。

将五个特征流输入骨骼网络模型分别进行特征提取，得到的结果相加即得骨骼特征。

优选的，步骤S4具体包括：

搭建CNN卷积神经网络提取传感器特征，可穿戴设备中的传感器包括一个加速度计和一个陀螺仪，分别测量三轴加速度和角速度的强度，首先，将传感器捕捉到的一维信号逐行堆叠成二维活动图像，如果有维度不对齐的情况，用零值补充。以此作为CNN卷积神经网络的卷积层的输入，之后，被馈送到两块卷积层中提取特征，其中第一块卷积层设置有128个过滤器，第二个卷积层设置有256个过滤器，内核为(2×2)，步幅为1；最后，接入到全连接神经网络。CNN有相对于transformer更少的参数量、更小的模型，因此大大节省了计算成本。

优选的，步骤S5具体为：

保存骨骼特征和传感器特征最后全连接层的输出；根据每个模态在验证集上的准确性为其分配权重，并将其与权重相加，作为最终预测得分：

q＝α₁q_skel+α₂q_sensor

其中，q表示最终预测得分，其中q_skel、q_sensor分别为骨骼特征和传感器特征的结果，α₁、α₂为根据验证集精度进行调整的超参数，优选的，α₁＝1，α₂＝0.4；最后使用argmax()运算符找到最大分数的索引作为最终预测类。

优选的，步骤S6中利用训练集训练双模态网络模型，后将验证集送至模型中计算验证预测结果，取效果最好的一次训练参数作为最后的模型参数，由此得到最优化模型。

步骤S7利用训练完的双模态网络模型对视频中的人体进行行为识别。通过该发明可以显著提高人体行为识别的准确度，具有广泛的应用前景。

本发明中未详尽之处，均可采用现有技术进行。

本发明的有益效果为：

1.本发明提出了一种基于传感器与人体骨骼的双模态网络模型。该模型最大的贡献在于提取人体骨骼数据，避免可见光视频中光线亮度、观察视角、身体遮挡、背景杂乱等因素干扰，同时通过传感器数据提供关于同一环境的互补信息，补充骨骼数据在行为识别上的缺陷。融合双模态，互补缺陷，大大提高了模型的识别准确率。

2.本发明在数据预处理、网络设计上设计精巧，旨在充分利用可用数据、有效提高模型性能。

从骨骼数据中提取五种特征流，充分有效的利用骨骼信息，提供了一组丰富的角度和方向特性。根据关节点的三维坐标构建出骨骼，经过数值计算处理，得到骨骼、关节点、骨骼动态、关节点动态、骨骼余弦距离五个特征流，分别经过模型提取特征、分类预测，最后计算这5个softmax分类评分的加权和，得到骨骼分支的分类结果；

对于传感器模态分支，针对以往用于活动识别的特征通常以手工的方式从多个时间序列传感器信号中独立提取，不同信号之间的相关性通常被忽视的问题。本发明提出将加速度计和陀螺仪的所有时间序列信号转换为一个新的活动图像，其中包含任何一对信号之间的隐藏关系。将加速度计和陀螺仪的信号序列组合成一个新的二维活动图像，这使得卷积神经网络(CNN)能够自动从活动图像中学习活动识别任务的最佳特征，充分利用了不同传感器之间的联系。

在网络中引入注意力机制、空间图卷积、多尺度残差网络、时间图卷积四个模块，在时空图卷积中插入注意力机制、多尺度残差网络模块，更多关注目标的细节信息。使用引入注意力机制后、多尺度感受野的时空图卷积模型对骨骼数据进行处理，先后从空间、时间两个维度提取骨骼特征，提高了模型识别准确度。优化模型，减少参数量。

3.本发明由于使用骨骼数据和传感器数据，相较于可见光视频需要更少的存储和处理空间；模型中使用GCN、CNN，有着与transformer等工具更少的参数量，因此本发明对硬件要求低，可移植性强。

4.本发明中的特征融合模型，不仅可以在行为识别的领域进行应用，还可以应用于图像分类、目标检测等场景中，应用十分广泛。

附图说明

图1为人体骨骼图，其中(a)为NTU-RGB+D骨骼节点标注图，(b)为Openpose处理后骨骼节点标注图；

图2为传感器模态的特征提取网络；

图3为骨骼模态特征提取网络。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

实施例1

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，利用包括注意力机制、空间图卷积、多尺度残差网络、时间图卷积的骨骼网络模型提取骨骼模态特征；使用CNN卷积神经网络提取传感器特征，最后根据在验证集上的准确性为其分配权重将各模态后期融合，通过softmax层从而判断行为类别。具体包括如下步骤；

S1：提取人体骨骼序列创建数据集；

S2：搭建骨骼网络模型，用于获取骨骼特征；

S6：利用训练集来训练整个双模态网络模型；

实施例2

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，如实施例1所述，所不同的是，步骤S1中，对于已经标注过各个骨骼点的数据集可以直接使用实现行为识别，比如NTU-RGB+D，该数据集包含60个种类的动作，共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作；

实施例3

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，如实施例2所述，所不同的是，步骤S2中，骨骼网络模型包括BN层、9个基础模块、池化层Pool和全连接层FC，如图3所示；

实施例4

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，如实施例3所述，所不同的是，步骤S3中，根据骨骼数据，提取多特征流。在运动过程中，骨骼和关节点一直处于变化状态，且相互之间往往存在一定的联系。以往方法种仅仅关注关节点和骨骼的变化，遗漏了大量信息。因此在本专利中，分别对骨骼的三维坐标数据采用不同的计算方式，从而得到不同特征流，特征流包括关节点、骨骼、骨骼动态、关节点动态、和骨骼余弦距离；

实施例5

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，如实施例4所述，所不同的是，步骤S4具体包括：

实施例6

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，如实施例5所述，所不同的是，步骤S5具体为：

q＝α₁q_skel+α₂q_sensor

其中，q表示最终预测得分，其中q_skel、q_sensor分别为骨骼特征和传感器特征的结果，α₁、α₂为根据验证集精度进行调整的超参数，α₁＝1，α₂＝0.4；最后使用argmax()运算符找到最大分数的索引作为最终预测类。

实施例7

一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，如实施例6所述，所不同的是，步骤S6中利用训练集训练双模态网络模型，后将验证集送至模型中计算验证预测结果，取效果最好的一次训练参数作为最后的模型参数，由此得到最优化模型。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，利用包括注意力机制、空间图卷积、多尺度残差网络、时间图卷积的骨骼网络模型提取骨骼模态特征；使用CNN卷积神经网络提取传感器特征，最后根据在验证集上的准确性为其分配权重将各模态后期融合，通过softmax层从而判断行为类别。

2.根据权利要求1所述的基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，具体包括如下步骤；

S1：提取人体骨骼序列创建数据集；

S2：搭建骨骼网络模型，用于获取骨骼特征；

S6：利用训练集来训练整个双模态网络模型；

3.根据权利要求2所述的基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，步骤S1中，对于已经标注过各个骨骼点的数据集直接使用实现行为识别；

对于RGB视频，需要对其进行预处理，首先将视频截成5s的片段，然后利用开源项目openpose获取人在执行目标动作下的人体骨架数据帧序列，对待识别的人体骨骼序列创建数据集；

分析动态骨骼首先需要根据骨骼结构建立邻接矩阵，在确定一个中心节点后，将其邻居节点编号分类，将每个邻居节点按照与骨骼重心距离大小为准分到子集中并依序编号，以中心节点与骨骼重心的距离为准，即基准值，在所有邻居节点到重心距离中，小于基准值的视为向心节点，大于基准值的视为离心节点，邻接矩阵的创建规则如下式，其中r_j表示邻居节点到重心距离，r_i表示中心节点与重心的距离，即基准值l表示对应的子集标签：

4.根据权利要求2所述的基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，步骤S2中，骨骼网络模型包括BN层、9个基础模块、池化层Pool和全连接层FC；

每个基础模块由注意力机制、空间图卷积、多尺度残差网络、时间图卷积依次连接构成；

5.根据权利要求4所述的基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，步骤S3中，特征流包括关节点、骨骼、骨骼动态、关节点动态、和骨骼余弦距离；

骨骼序列坐标本质上是三维坐标，对应得点即为关节点，关节点之间的连线即为骨骼；骨骼动态特征通过同一骨骼在时间维度上连续两帧位置之差表示；关节点动态特征通过同一关节点在时间维度上连续两帧位置之差表示；计算骨骼与包括该骨骼在内的所有骨骼之间的余弦距离，作为骨骼余弦距离特征；

6.根据权利要求5所述的基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，步骤S4具体包括：

搭建CNN卷积神经网络提取传感器特征，可穿戴设备中的传感器包括一个加速度计和一个陀螺仪，分别测量三轴加速度和角速度的强度，首先，将传感器捕捉到的一维信号逐行堆叠成二维活动图像，以此作为CNN卷积神经网络的卷积层的输入，之后，被馈送到两块卷积层中提取特征，其中第一块卷积层设置有128个过滤器，第二个卷积层设置有256个过滤器，内核为(2×2)，步幅为1；最后，接入到全连接神经网络。

7.根据权利要求6所述的基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，步骤S5具体为：

q＝α₁q_skel+α₂q_sensor

8.根据权利要求7所述的基于自注意图卷积的骨骼和传感器双模态人体行为识别方法，其特征在于，步骤S6中利用训练集训练双模态网络模型，后将验证集送至模型中计算验证预测结果，取效果最好的一次训练参数作为最后的模型参数，由此得到最优化模型。