CN113343901A

CN113343901A - 基于多尺度注意力图卷积网络的人体行为识别方法

Info

Publication number: CN113343901A
Application number: CN202110719880.8A
Authority: CN
Inventors: 宋涛; 杨鑫; 赵明富; 刘冠廷; 雷雨; 刘帅; 吴德操; 龙邹荣; 邢影
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-09-03

Abstract

本发明涉及人体行为识别技术领域，具体涉及基于多尺度注意力图卷积网络的人体行为识别方法，包括：获取待识别的原始3D骨架图序列；将所述原始3D骨架图序列输入经过预先训练的人体行为识别模型中：首先通过多分支输入模块从所述原始3D骨架图序列中提取关节信息、骨架信息和运动信息作为行为特征数据；然后通过多尺度注意力图卷积模块基于所述行为特征数据学习3D骨架关节点的相关性，提取各种行为在不同持续时间的时序信息；最后通过全局注意力池化层识别原始3D骨架图序列对应的人体行为；输出对应的人体行为识别结果。本发明中的人体行为识别方法能够兼顾人体行为识别的准确性和效率，从而能够保证人体行为识别的识别效果。

Description

基于多尺度注意力图卷积网络的人体行为识别方法

技术领域

本发明涉及人体行为识别技术领域，具体涉及基于多尺度注意力图卷积网络的人体行为识别方法。

背景技术

基于视频信息的人体行为识别是计算机视觉领域的热点问题，其主要利用图像处理、图像分析与计算机视觉等技术对视频序列进行目标检测、分类和跟踪，并对视频信息中的行为进行理解和描述。人体行为识别一般包括特征提取以及分类识别两个关键环节。第一个环节是指构建特征描述子来表达视频中的目标行为的信息，第二个环节是指利用特征描述子对目标行为分类，进而识别出目标行为的类别。想要对人体行为进行识别，首先需要用特征信息对目标人体的行为进行表达，因此，提取出的特征需要能够反映视频中目标人体在某一方面的关键信息。

随着低成本RGB-D传感器的普及，3D骨架关节点凭借其清晰的3D结构、不易受环境影响以及对光照的鲁棒性等优点在人体行为识别领域得到了大量的研究。3D骨架包含丰富的运动信息，能够准确的反映出人体的运动轨迹。例如，公开号为CN109858390A的中国专利就公开了《一种基于端到端时空图学习神经网络的人体骨架的行为识别方法》其包括：获取用于训练的人体3D骨骼关键点位置数据集，定义算法目标；对每一帧基于空间位置进行聚类表达，得到空间节点关系；计算每一关节点的时间轨迹，并据此进行关系度量，得到时间节点关系；建立所述时空图学习与图卷积神经网络的联合学习框架；使用所述学习框架估计连续人体3D骨架的行为类别。

上述现有方案中的人体骨架行为识别方法基于图卷积网络及全连接层进行体骨架行为识别，能够在一定程度上保证人体行为识别的准确率。然而，申请人发现上述现有识别方法通过构建人体3D骨架时空图来探索人体关节间的时空依赖关系，但是，3D骨架图结构是预定义的，其无法表现出人体在不同行为下多变的关节间关联信息，使得其提取的特征信息难以准确表达人体行为，导致人体行为识别的准确性不好；同时，高度表达特定行为的运动信息往往只需要几个关键节点的时空特征即可，使得其存在骨架序列中关节特征冗余性的问题，导致人体行为识别的效率均偏低。因此，如何设计一种能够兼顾人体行为识别的准确性和效率是急需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够兼顾人体行为识别的准确性和效率的人体行为识别方法，从而能够保证人体行为识别的识别效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

1、基于多尺度注意力图卷积网络的人体行为识别方法，包括以下步骤：

S1：获取待识别的原始3D骨架图序列；

S2：将所述原始3D骨架图序列输入经过预先训练的人体行为识别模型中：

首先通过多分支输入模块从所述原始3D骨架图序列中提取关节信息、骨架信息和运动信息作为行为特征数据；然后通过多尺度注意力图卷积模块基于所述行为特征数据学习3D骨架关节点的相关性，提取各种行为在不同持续时间的时序信息；最后通过全局注意力池化层识别所述原始3D骨架图序列对应的人体行为；

S3：输出对应的人体行为识别结果。

优选的，步骤S2中：

关节信息，通过将原始3D骨架图序列中的3D骨架关节点集合v_t和相对位置集合R_t连接成一个序列得到；

其中，原始3D骨架图序列具有T帧的3D骨架关节点集合v_t，3D骨架关节点集合v_t中第t帧的3D骨架图源节点表示为v_tc＝(x_tc,y_tc,z_tc)；第t帧的3D骨架关节点v_ti的相对位置向量r_tic表示为r_tic＝v_ti-v_tc＝(x_ti-x_tc,y_ti-y_tc,z_ti-z_tc)，v_ti＝(x_ti,y_ti,z_ti)；第t帧的3D骨架关节点v_ti的相对位置集合R_t表示为R_t＝{r_tic|t∈T,i∈N}；c表示3D骨架图的源节点标号；i表示某一帧的3D骨架关节点标号。

优选的，步骤S2中：

骨架信息，通过将原始3D骨架图序列中的3D骨架边集合L_t和3D骨架间角度集合A_t连接成一个序列得到；

其中，第t帧的3D骨架边l_tij表示为l_tij＝v_ti-v_tj＝(x_ti-x_tj,y_ti-y_tj,z_ti-z_tj)；3D骨架边集合L_t表示为L_t＝{l_tij|t∈T,(i,j)∈N}；3D骨架间角度a_til表示为

3D骨架间角度集合A_t表示为A_t＝{a_t(v_ti)|t∈T,i∈N}；i表示一阶领域的关节点，j表示关节点；N表示3D骨架关节点数。

优选的，步骤S2中：

运动信息，通过将原始3D骨架图序列中的各个骨架关节点的时间差异B_t和两帧时间差异E_t连接成一个序列得到；

其中，各个3D骨架关节点的连续两帧间的时间差异B_t表示为B_t＝{b_ti|t∈T,i∈N}，b_ti＝v_(t+1)i-v_ti＝(x_(t+1)i-x_ti,y_(t+1)i-y_ti,z_(t+1)i-z_ti)；各个3D骨架关节点间隔一帧的两帧时间差异E_t表示为E_t＝{e_ti|t∈T,i∈N}，e_ti＝v_(t+2)i-v_ti＝(x_(t+2)i-x_ti,y_(t+2)i-y_ti,z_(t+2)i-z_ti)。

优选的，步骤S2中，所述多分支输入模块包括分别用于输入关节信息、骨架信息和运动信息的三条时空图卷积通路，以及分别与三条时空图卷积通路的输出端连接且能够将关节信息、骨架信息和运动信息连接在一起形成行为特征数据的连接模块。

优选的，所述时空图卷积通路均包括输出端、输入端依次顺序连接的三个基本时空图卷积模块B1、B2和B3；其中，时空图卷积模块B1的输入通道为6，输出通道为64；时空图卷积模块B2和B3的输入通道为64，输出通道分别为64和32。

优选的，步骤S2中：所述多尺度注意力图卷积模块包括输入端与所述多分支输入模块的输出端连接的自适应图卷积层，输入端与所述自适应图卷积层的输出端连接的多尺度注意力模块，以及输入端与所述多尺度注意力模块的输出端连接的Inception时间卷积层；所述Inception时间卷积层的输出端与所述全局注意力池化层的输入端连接；

所述自适应图卷积层和所述多尺度注意力模块用于学习所述行为特征数据中3D骨架关节点的相关性；所述Inception时间卷积层用于基于所述行为特征数据提取各种行为在不同持续时间的时序信息。

优选的，所述自适应图卷积层的操作基本公式表示为：

式中：A_k表示人体骨架的自然连接图，其为N×N的邻接矩阵；Λ_k用于规范化Α_k；B_k表示从行为特征数据中学习到的全局图；C_k表示每个行为特征数据中学习唯一拓扑的自适应关联图；W_k表示可学习的权重参数；X_in表示输入特征映射的C×T×N维度的张量，C表示通道数，T表示帧数，N表示3D骨架关节点数。

其中，全局图B_k使得所述人体行为识别模型能够学习各种行为动作的特征；

自适应关联图C_k通过高斯函数计算两个3D骨架关节点的相似度，能够判断两个3D骨架关节点之间是否存在连接以及对应的连接强度，具体表示为：

式中：Φ(v_i)＝W_Φv_i、Ψ(v_j)＝W_Ψv_j均表示嵌入的高斯函数，W_Φ和W_Ψ表示设置的权重值。

优选的，所述多尺度注意力模块包括用于自适应地对行为特征数据中的骨架关节、帧和通道的状态进行重新校准和注意力增强、且输出端、输入端依次顺序连接的空间注意力模块、时间注意力模块和通道注意力模块；通过残差连接的方式将空间注意力模块、时间注意力模块和通道注意力模块按照SAM、TAM和CAM的顺序依次连接；

所述空间注意模块M_t表示为：M_t＝σ(g_t(AvgPool(X_in)))；

所述时间注意模块M_s表示为：M_s＝σ(MLP(AvgPool(X_in)))；

所述通道注意模块M_c表示为：M_c＝σ(ReLU(AvgPool(X_in)W_α)W_β)；

式中：g_t表示空间一维卷积操作函数；MLP表示多层感知器函数；W_α、W_β表示全连接层的权重；AvgPool表示卷积中的平均池化操作；RELU表示线性整流函数，为网络中的激活函数；X_in表示输入特征映射的C×T×N维度的张量，C表示通道数，T表示帧数，N表示3D骨架关节点数。

优选的，所述Inception时间卷积层首先通过信道权值自适应地选择不同的时间卷积核模块来收集特征；然后将输入的行为特征数据并行的输入到5×1、9×1、13×1三种卷积核大小的卷积操作中；最后连接三种卷积核的输出，通过三种卷积核获取输入行为特征数据不同级别的时序动态特征。

本发明中的人体行为识别方法与现有技术相比，具有如下有益效果：

在本发明中，通过多尺度注意力图卷积网络学习3D骨架关节点的相关性、并提取各种行为在不同持续时间的时序信息，使得能够捕捉3D骨架关节之间的相关性和时间上的连续性，进而能够有效的表现出人体在不同行为下多变的关节间关联信息，能够提升人体行为识别的识别准确性，从而能够保证人体行为识别的识别效果。同时，本发明通过提取行为特征的方式，解决了骨架序列中关节特征冗余性的问题，进而能够有效的获取关键节点的时空特征，从而能够提升人体行为识别的识别效率。最后，本发明的人体行为识别模型能够提取关节信息、骨架信息和运动信息作为行为特征，使得能够有效表达骨架变化和运动变化的多尺度信息，进而能够更好的表达人体的行为动作，从而能够进一步提升人体行为识别的识别准确性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为实施例中人体行为识别方法的逻辑框图；

图2为实施例中人体行为识别模型的网络结构示意图；

图3为实施例中多分支输入模块的网络结构示意图；

图4为实施例中多尺度注意力图卷积模块的网络结构示意图；

图5为实施例中自适应图卷积层的网络结构示意图；

图6为实施例中多尺度注意力模块的网络结构示意图；

图7为实施例中Inception时间卷积层的网络结构示意图；

图8为实施例中人体行为识别模型跨样本分类结果的混淆矩阵图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

申请人在实际研究中发现，图卷积网络通过构建人体3D骨架时空图来探索人体关节间的时空依赖关系，但是，骨架图结构是预定义的，其无法表现出人体在不同行为下多变的关节间关联信息；同时，高度表达特定行为的运动信息往往只需要几个关键节点的时空特征即可，故，骨架序列中的关节特征存在着冗余性的问题，需要对各个关节点增加不同程度的注意力以判定其重要性。此外，现有的人体识别方法中，通常采用只包含3D骨架关节点的特征向量，缺乏能够表达骨架变化和运动变化的多尺度信息，无法完全表达人体的行为动作。

基于上述发现，申请人设计了如下的人体行为识别方法，其能够从原始3D骨架图序列中提取关节信息、骨架信息、运动信息作为行为特征数据，以图卷积作为基础网络，利用嵌入式操作的高斯函数自适应地学习各3D骨架关节点之间的物理连接关系与非连接关系，同时引入了多尺度注意力模块衡量各关节点之间的贡献，增加了模型的识别率和泛用性，并加强了对拓扑图结构的灵活性。

如图1和图2所示，基于多尺度注意力图卷积网络的人体行为识别方法，包括以下步骤：

S1：获取待识别的原始3D骨架图序列。

S2：将原始3D骨架图序列输入经过预先训练的人体行为识别模型中：

首先通过多分支输入模块从原始3D骨架图序列中提取关节信息、骨架信息和运动信息作为行为特征数据；然后通过多尺度注意力图卷积模块基于行为特征数据学习3D骨架关节点的相关性，提取各种行为在不同持续时间的时序信息；最后通过全局注意力池化层识别原始3D骨架图序列对应的人体行为。具体的，根据原始3D骨架图序列中3D骨架关节点及其空间相对位置、骨架边及角度、速度五种行为特征提取关节信息、骨架信息和运动信息。人体行为识别模型中包括6个并行设置的多尺度注意力图卷积模块；全局注意力池化层为现有的能够根据行为特征分类、识别得到具体人体行为的全连接层，其分别于6个多尺度注意力图卷积模块的输出端连接。

S3：输出对应的人体行为识别结果。

具体实施过程中，关节信息，通过将原始3D骨架图序列中的3D骨架关节点集合v_t和相对位置集合R_t连接成一个序列得到；

在本发明中，通过上述方式能够有效的提取关节信息、骨架信息和运动信息作为行为特征，一方面，解决了骨架序列中关节特征冗余性的问题，进而能够有效的获取关键节点的时空特征，从而能够提升人体行为识别的识别效率；另一方面，能够有效表达骨架变化和运动变化的多尺度信息，进而能够更好的表达人体的行为动作，从而能够进一步提升人体行为识别的识别准确性。

具体实施过程中，多分支输入模块(MIB)包括分别用于输入关节信息、骨架信息和运动信息的三条时空图卷积通路，以及分别与三条时空图卷积通路的输出端连接且能够将关节信息、骨架信息和运动信息连接在一起形成行为特征数据的连接模块。具体的，结合图3所示，时空图卷积通路均包括输出端、输入端依次顺序连接的三个基本时空图卷积模块B1、B2和B3；其中，时空图卷积模块B1的输入通道为6，输出通道为64；时空图卷积模块B2和B3的输入通道为64，输出通道分别为64和32。

具体的，原始3D骨架图序列中每帧的时空图卷积网络(ST-GCN)操作可以表示为：

式中：Α_k表示用图距离k标及关节对的k阶邻接矩阵，Λ_k用于规范化Α_k，W_k与M_k表示可学习的权重参数。时空图卷积网络的基本结构由一个空间图卷积层和一个时间卷积层(TCN)构成，对于TCN层，采用的是Γ×1的卷积核来聚合嵌入在相邻帧中的前后关联信息特征，Γ通常为9。时间卷积与空间图卷积层后为BN和ReLU操作。

在本发明中，为了降低人体行为识别模型的复杂度，多分支输入模块使用多分支输入方法在网络的早期阶段融合输入分支，并在分支连接后输入到单流网络中学习特征，这种体系结构不仅保留了丰富的输入特征，而且显著抑制了模型的复杂性，使模型的训练过程更容易收敛，从而能够很好的兼顾人体行为识别的识别准确性和识别效率。

具体实施过程中，结合图4所示，多尺度注意力图卷积模块(IAGCN-MAM)包括输入端与多分支输入模块的输出端连接的自适应图卷积层(AGCN)，输入端与自适应图卷积层的输出端连接的多尺度注意力模块(MAM)，以及输入端与多尺度注意力模块的输出端连接的Inception时间卷积层(I-TCN)；Inception时间卷积层的输出端与全局注意力池化层的输入端连接。

具体的，自适应图卷积层和多尺度注意力模块用于学习行为特征数据中3D骨架关节点的相关性；Inception时间卷积层用于基于行为特征数据提取各种行为在不同持续时间的时序信息。其中，自适应图卷积层(AGCN)的输出经过BN和ReLU操作后输入多尺度注意力模块(MAM)，Inception时间卷积层(I-TCN)的输出经过BN和ReLU操作后输入全局注意力池化层。

在本发明中，通过上述方式构建的多尺度注意力图卷积模块能够有效学习3D骨架关节点的相关性、并提取各种行为在不同持续时间的时序信息，使得能够捕捉3D骨架关节之间的相关性和时间上的连续性，进而能够有效的表现出人体在不同行为下多变的关节间关联信息，从而能够提升人体行为识别的识别准确性。

具体实施过程中，自适应图卷积层将拓扑图结构参数化，通过将拓扑图结构与网络的其他参数一起以端到端的学习方式进行优化，不仅可以学习多层次的语义信息还能够极大增加模型的灵活性。为构建自适应图卷积层，利用卷积神经网络提取高层次特征的能力将邻接矩阵A_k再为两个自适应矩阵B_k、C_k，所构建的自适应图卷积层结构如图5所示，除原始图结构外，还提出了全局图和自适应关联图两种图结构，并在自适应层中加入了残差结构，采用1×1卷积操作，使输入与输出维度一致，在输出的高层特征中也保留了低层原始的特征。

自适应图卷积层的操作基本公式表示为：

其中，全局图B_k使得人体行为识别模型能够学习各种行为动作的特征；

式中：Φ(v_i)＝W_Φv_i、Ψ(v_j)＝W_Ψv_j均表示嵌入的高斯函数，W_Φ和W_Ψ表示设置的权重值。对于C×T×N维的输入特征，通过两个嵌入函数执行双路并行的1×1卷积操作，然后将两路的输出特征矩阵相乘，使用softmax函数分类，可以表示为：

C_k被归一化后的值在[0.1]。C_k可以用于判别两个关节但是否连接，也可以用于表示两关节点之间的连接强度，与A_k相比，C_k根据输入的3D骨架关节特征建立新的连接关系，增加了非自然连接的骨架关节点之间的关联，使模型更加灵活。

具体实施过程中，结合图6所示，多尺度注意力模块包括用于自适应地对行为特征数据中的骨架关节、帧和通道的状态进行重新校准和注意力增强、且输出端、输入端依次顺序连接的空间注意力模块、时间注意力模块和通道注意力模块；通过残差连接的方式将空间注意力模块、时间注意力模块和通道注意力模块按照SAM、TAM和CAM的顺序依次连接；

空间注意模块M_t表示为：M_t＝σ(g_t(AvgPool(X_in)))；式中：g_t表示空间一维卷积操作函数。具体的，将输入的用于训练的3D骨架关节特征，使用一维的平均池化操作将骨架关节信息聚合，经过空间一维卷积操作g_t和sigmoid激活函数后生成空间注意模型M_t；AvgPool表示卷积中的平均池化操作；X_in表示输入特征映射的C×T×N维度的张量，C表示通道数，T表示帧数，N表示3D骨架关节点数。

时间注意模块M_s表示为：M_s＝σ(MLP(AvgPool(X_in)))；式中：MLP表示多层感知器函数。具体的，将输入的用于训练的3D骨架关节特征，使用一维的平均池化操作聚合时间信息，然后将其输入多层感知器(Multi-layer perceptron，MLP)中学习时间相关性并生成时间注意模型M_s；AvgPool表示卷积中的平均池化操作；X_in表示输入特征映射的C×T×N维度的张量，C表示通道数，T表示帧数，N表示3D骨架关节点数。

通道注意模块M_c表示为：M_c＝σ(ReLU(AvgPool(X_in)W_α)W_β)；式中：W_α、W_β表示全连接层的权重。具体的，将输入的用于训练的3D骨架关节特征，使用平均池化操作将所有输入特征信息进行平均汇集，用一个具有ReLU函数的全连接层生成通道注意模块M_c；AvgPool表示卷积中的平均池化操作；RELU表示线性整流函数，为网络中的激活函数；X_in表示输入特征映射的C×T×N维度的张量，C表示通道数，T表示帧数，N表示3D骨架关节点数。

具体实施过程中，如图7所示，Inception时间卷积层使用几个大小不同的卷积核代替现有时间卷积层所使用的9×1卷积核，通过信道权值自适应地选择不同的时间卷积核模块来收集特征；为了减少参数量和计算量，使用1×1卷积操作来降维并调成输出信道的数量。

Inception时间卷积层首先通过信道权值自适应地选择不同的时间卷积核模块来收集特征；然后将输入的行为特征数据并行的输入到5×1、9×1、13×1三种卷积核大小的卷积操作中；最后连接三种卷积核的输出，通过三种卷积核获取输入行为特征数据不同级别的时序动态特征。

为了进一步说明本发明中基于多尺度注意力图卷积网络的人体行为识别方法的优势，本实施例还设计了如下实验。

本实验在Pytorch深度学习框架下进行，采用牛顿动量为0.9的随机梯度下降优化策略，使用交叉熵损失函数作为梯度反向传播误差的计算，权重衰减系数设置为0.0001；将采样范围D设置为3阶邻域；初始学习率设置为0.1，并在训练中的第30和第60周期衰减0.1倍，训练过程在第80周期结束，每个批处理大小设置为64。

一、NTU-RGB+D数据集

NTU-RGB-D数据集作为大型人体行为数据集，包含了又三台角度不同的MicrosoftKinect传感器采集的56880个视频样本，超过400万帧，40位表演者，60种不同的行为动作。并捕获了每个样本的RGB视频、深度图序列、3D骨架关节点数据和红外视频。

NTU-RGB+D数据集由于其视角以及人物行为动作的多样性，定义了跨样本(CS)和跨视角(CV)两种类行的行为分类评估的精确标准。在跨样本评估中，将40位表演者分为训练集和测试集，其中训练集由20位表演者的40320个样本构成，而测试集则是由余下20位表演者的16560个样本构成。在跨视角评估中，将三台传感器分为训练集和测试集，其中将传感器2和3采集的34920个样本作为训练集，即训练集由行为动作的正面和侧面视图构成，将传感器1采集的18960个样本作为测试集，即测试集由包含行为动作性能的左40°视图和右40°视图。

二、网络性能分析

为验证本发明中人体行为识别模型(多尺度注意力图卷积网络模型，M-IAGCN-MAM)中各模块的有效性，以ST-GCN(时空图卷积网络)为基础网络结构，分别增加了AGCN(自适应图卷积层)模块、MIB(多分支输入模块)模块以及MAM(多尺度注意力模块)模块，在NTU-RGB+D数据集的识别率如表1所示。

表1M-IAGCN-MAM在NTU-RGB+D数据集上与不同方法的识别率对比

根据表1可知，对于NTU-RGB+D数据集的CS评估中，加入自适应模块后模型的识别率提升了2.3％；加入MIB模块后识别率提升了4.9％；加入MAM模块后识别率提升了4.4％。在CV评估中也有类似结果，实验结果表明所使用的各模块均能有效提升整体模型性能。

多尺度注意力图卷积网络(IAGCN-MAM)模型在NTU-RGB+D数据集上跨样本评估分类的混淆矩阵如图8所示。

结合图8可知：绝大多数的行为的识别率超过了95％，其中“读书”、“写字”、“穿鞋”、“拖鞋”、“玩手机”和“打字”这四个行为的识别率相对其他行为动作较低；由于这四类行为的主要区别在于双手关节，而NTU-RGB+D数据集中的双手数量的分布使得其类间距离较小，通过3D骨架数据来区分这类行为具有一定的挑战性；这四类行为均与环境变量对象相关，若加入RGB数据，则可精确区分。

三、与先进方法对比

本实施例所提出的M-IAGCN-MAM模型在NTU-RGB+D数据集上取得了跨样本评估识别率90.4％和跨视角评估识别率95.3％的结果。表2展示了该模型在NTU-RGB+D数据集上与其他先进方法识别率的对比。

表2M-IAGCN-MAM在NTU-RGB+D数据集上与不同方法的识别率对比

根据表2可知：在NTU-RGB+D数据集中，与SGN相比，本发明提出的模型在跨样本评估识别率上领先1.4％，在跨视角评估识别率上领先0.8％；与2s-GCN相比，跨样本评估识别率领先1.9％，跨视角评估识别率领先0.2％；与DGNN相比，跨样本评估识别率领先0.5％，跨视角评估识别率落后0.8％。

这几个方法都利用了多阶的骨架信息以及多流的模型，而本发明的模型只包含一个主流，这些模型相对于本章的模型结构更为复杂，但本章的模型在识别率上并不弱于这些方法，反而在大多数的情况下更优。

四、结论

本发明中提出了一种多分支输入的多尺度注意力图卷积(M-IAGCN-MAM)模型。首先将从原始3D骨架图序列获得的关节、骨架和速度三类时空特征序列单独输入并在网络早期融合为一流，使得模型能够提取足够的多尺度特征；然后引入了自适应图卷积结构自主学习关节间的相关性，同时为处理多尺度数据提出时空通道的多尺度注意力模块，以捕捉关节之间的相关性和时间上的连续性并加强通道对不同数据的注意力；最后将时空图卷积网络的时间卷积模块改进为具有多个内核的并行结构。

在NTU-RGB+D数据集上的实验结果表明，本发明中多尺度特征输入与改进后的人体行为识别模型(多尺度注意力图卷积网络模型，M-IAGCN-MAM)能够显著提高识别率，达到当前较先进的水准。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于，包括以下步骤：

S1：获取待识别的原始3D骨架图序列；

S3：输出对应的人体行为识别结果。

2.如权利要求1所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于，步骤S2中：

3.如权利要求2所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于，步骤S2中：

4.如权利要求3所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于，步骤S2中：

5.如权利要求1所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于：步骤S2中，所述多分支输入模块包括分别用于输入关节信息、骨架信息和运动信息的三条时空图卷积通路，以及分别与三条时空图卷积通路的输出端连接且能够将关节信息、骨架信息和运动信息连接在一起形成行为特征数据的连接模块。

6.如权利要求5所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于：所述时空图卷积通路均包括输出端、输入端依次顺序连接的三个基本时空图卷积模块B1、B2和B3；其中，时空图卷积模块B1的输入通道为6，输出通道为64；时空图卷积模块B2和B3的输入通道为64，输出通道分别为64和32。

7.如权利要求1所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于，步骤S2中：所述多尺度注意力图卷积模块包括输入端与所述多分支输入模块的输出端连接的自适应图卷积层，输入端与所述自适应图卷积层的输出端连接的多尺度注意力模块，以及输入端与所述多尺度注意力模块的输出端连接的Inception时间卷积层；所述Inception时间卷积层的输出端与所述全局注意力池化层的输入端连接；

8.如权利要求7所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于，所述自适应图卷积层的操作基本公式表示为：

9.如权利要求7所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于：所述多尺度注意力模块包括用于自适应地对行为特征数据中的骨架关节、帧和通道的状态进行重新校准和注意力增强、且输出端、输入端依次顺序连接的空间注意力模块、时间注意力模块和通道注意力模块；通过残差连接的方式将空间注意力模块、时间注意力模块和通道注意力模块按照SAM、TAM和CAM的顺序依次连接；

所述空间注意模块M_t表示为：M_t＝σ(g_t(AvgPool(X_in)))；

所述时间注意模块M_s表示为：M_s＝σ(MLP(AvgPool(X_in)))；

所述通道注意模块M_c表示为：M_c＝σ(ReLU(AvgPool(X_in)W_α)W_β)；

10.如权利要求7所述的基于多尺度注意力图卷积网络的人体行为识别方法，其特征在于：所述Inception时间卷积层首先通过信道权值自适应地选择不同的时间卷积核模块来收集特征；然后将输入的行为特征数据并行的输入到5×1、9×1、13×1三种卷积核大小的卷积操作中；最后连接三种卷积核的输出，通过三种卷积核获取输入行为特征数据不同级别的时序动态特征。