CN116246338B

CN116246338B - 一种基于图卷积和Transformer复合神经网络的行为识别方法

Info

Publication number: CN116246338B
Application number: CN202211649047.1A
Authority: CN
Inventors: 龚勋; 吕金荣
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-10-03
Anticipated expiration: 2042-12-20
Also published as: CN116246338A

Abstract

本发明公开了一种基于图卷积和Transformer复合神经网络的行为识别方法，通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据；图处理模块将人体部位关键节点坐标数据处理成图数据结构，得到人体骨架序列特征矩阵，作为图卷积模型的输入；通过图卷积模型建模空间维度上的特征；通过输入端适配模块进行Transformer模块的输入端适配；通过Transformer模型建模时间维度上的特征；通过分类头部输出模型的预测结果；迭代训练和优化得到最终的复合神经网络，输出最终的动作识别结果。本发明结合了图卷积神经网络和Transformer神经网络各自的优点，提供了一种既满足输入数据轻量、抗干扰能力强，又能够有效建模持续时间较长的视频行为识别方法。

Description

一种基于图卷积和Transformer复合神经网络的行为识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于图卷积和Transformer复合神经网络的行为识别方法。

背景技术

如何让机器理解人类行为是迈向通用人工智能所必须解决的问题之一，所以行为识别一直是人工智能领域的一个重要研究课题。根据数据的模态以及深度神经网络结构的不同，现有基于深度学习的行为识别方法主要分为三类。

第一类方法是基于视频RGB帧、深度图或光流的2D或者3D卷积神经网络，例如：TSN、I3D、SlowFast、R(2+1)D、X3D等。这类方法能够很好的对视频中的运动特征进行短时建模。但是，由于卷积核是专门为捕获短程时空信息而设计的，想要进一步扩大感受野就必须增加网络的深度。这样的网络结构无法有效建模持续时间较长的视频片段，而且过于深的模型不仅难以训练，而且还会使模型的计算成本成倍地递增，很难落地应用在具有实时性需求的真实场景中。

第二类方法是基于视频RGB帧的Transformer网络，例如：TimeSformer、MViT、CoVeR等。这类方法是由于Transformer网络结构在自然语言处理领域的优异表现而发展出来的新方法。由于Transformer的核心算子多头自注意力可以同时处理局部和全局信息，并且可以并行计算，所以这类方法的推理速度优于2D或者3D卷积神经网络，而且也能建模更长时间的视频。但是相比于图卷积和普通2D、3D卷积，多头自注意力本身并不具备平移不变性，这使得它的空间建模能力要弱于2D、3D卷积和图卷积。

第三类方法是基于人体骨架序列的图卷积神经网络，例如：ST-GCN、AGCN、2S-AGCN、MS-G3D、CTR-GCN等。这些方法的输入是人体骨架序列，它可以通过人体姿态估计算法或者专门的Kinetic相机获得的人体部位关键点构建。这类方法的优点是不受背景、光线、衣着打扮等环境因素的干扰，算法可以专注于行为本身。而且对于大幅度的肢体行为，它的泛化性比前一种方法要好。另外，由于输入数据与视频的分辨率大小没有直接关系，仅包含17-25个人体部位关键点，因此即使使用相同的网络结构，这种方法推理速度也普遍比基于视频RGB帧的两种方法更快。但是，现有的可实施的所有先进方法都是使用一个超大的2D或者3D卷积来建模时间维度的特征的，这也需要不菲的计算量，并且同样受限于卷积核感受野的大小而无法有效地建模持续时间较长的视频片段。

这三类方法各有优缺点，目前，还缺少一种既满足输入数据轻量、抗干扰能力强，又能够有效建模持续时间较长的视频的行为识别方法。

发明内容

为解决现有技术中存在的问题，本发明提供了一种基于图卷积和Transformer复合神经网络的行为识别方法，针对卷积的感受野受限于卷积核的大小的问题，设计了结合图卷积神经网络和Transformer神经网络两种网络结构的复合神经网络，解决了上述背景技术中提到的问题。

为实现上述目的，本发明提供如下技术方案：一种基于图卷积和Transformer复合神经网络的行为识别方法，包括如下步骤：

S1、通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据；

S2、通过图处理模块将人体部位关键节点坐标数据处理成图数据结构，得到人体骨架序列特征矩阵，作为图卷积模型的输入；

S3、通过图卷积模型建模空间维度上的特征；

S4、通过输入端适配模块进行Transformer模块的输入端适配；

S5、通过Transformer模型建模时间维度上的特征；

S6、通过一个包含全局平均池化层和全连接层的分类头部来输出模型的预测结果；

S7、迭代训练和优化网络超参数，得到最终的复合神经网络，输出最终的动作识别结果。

优选的，步骤S1中，将远程摄像头的视频数据以视频流的方式作为OpenPose的输入，得到当前视频每一帧上的各个人体部位关键点坐标和置信度，保存在集合V＝{v_ti|t＝1，...，T，i＝1，...，N}中，其中，T为当前视频帧数，N为每一帧的人体部位关键点数目，v_ti为第t帧上的第i个人体部位关键点，人体部位关键点上的特征向量F(v_ti)由第t帧上的第i个关节的坐标向量和姿态估计置信度组成。

优选的，步骤S2中，图处理模块具体包括：将关节点集合V＝{v_ti|t＝1，...，T，i＝1，...，N}中的节点用边连接起来保存在边集合E＝{v_tiv_tj|(i，j)∈H}中，其中，H是自然连接的人体关节的集合；

然后，将V和E结合起来，得到每一帧的人体骨架图G＝(V，E)，使用邻接矩阵A来表示；

最后，把每一帧上所有节点的特征向量拼接成一个特征矩阵作为图卷积模型的输入。

优选的，在步骤S3的图卷积模型中，采用改进的CTR-GCN，在节点特征的通道维度上对邻接矩阵进行参数化，删除了多尺度时间卷积模块，并对多层的图卷积进行了层数削减和分组，避免图卷积过度参数化；图卷积模型建模空间维度上的特征具体表达公式如下：

其中，是输入张量；A是一个可学习的邻接矩阵，初始值为人体骨架图G＝(V，E)邻接矩阵的归一化值；M是一个相关性矩阵，M的值由人体骨架图G＝(V，E)中的节点vti和vtj两两计算相似度得到；W是一个可学习的参数矩阵。

优选的，所述步骤S4的输入端适配具体包括如下：

S41、将步骤S3中图卷积模型输出的特征张量进行维度转换，将通道维度和节点维度相乘得到一个新的特征维度；

S42、对上一步得到的特征做线性变化，将它投影到更高维的空间中转换成Token序列，作为Transformer模型的输入。

优选的，所述Transformer模型包含两个Transformer块；每一个Transformer块由一个位置编码层、2个LayerNorm归一化层以及一个包含GELU激活函数的MLP构成。

优选的，在步骤S5的Transformer模型中，采用分类模型ViT并通过基于均匀分布的位置编码初始化方式，ViT中的多头自注意力计算公式如下：

其中，h表示多头自注意力的head数量，H是它的最大值；Q_h、K_h、V_h分别由图卷积模型的输出经过输入端适配后分别乘上一个参数矩阵W_Q、W_K、W_V得到。

优选的，在步骤S7中，将步骤S6得到的预测结果与真实标签计算交叉熵损失，并通过Adam优化器和反向传播算法迭代训练优化网络超参数，交叉熵损失函数的计算公式如下：

其中，M为类别数，y_ic代表来自目标域样本i的标签，如果样本i的真实类别等于c则为1，不等于c则为0，p_i，c为样本i被预测为类别c的概率。

优选的，所述的网络超参数包括批大小、学习率、优化器、权重衰退和Dropout。

本发明的有益效果是：

1)本发明针对卷积的感受野受限于卷积核的大小的问题，设计了结合图卷积神经网络和Transformer神经网络两种网络结构的复合神经网络架构。

2)本发明使用人体骨架序列作为输入，以保证输入数据的轻量化和抗干扰能力；使用图卷积神经网络结构来建模空间维度的信息，以克服Transformer网络结构空间建模能力弱的缺点；使用Transformer网络结构来建模时间维度的信息，以克服图卷积受限于卷积核大小无法有效建模持续时间较长的视频片段的缺陷。

3)本发明是一种既满足输入数据轻量、抗干扰能力强，又能够有效建模持续时间较长的视频的行为识别方法。

附图说明

图1为本发明行为识别方法的步骤流程示意图；

图2为本发明行为识别方法的整体工作流程图；

图3为本发明图卷积和Transformer复合神经网络的整体网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供一种技术方案：一种基于图卷积和Transformer复合神经网络的行为识别方法，如图1所示，具体包括如下步骤：

S1、通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据。

对于步骤S1中的人体姿态估计，本发明选择被广泛使用的实时人体姿态估计框架OpenPose作为人体姿态估计工具。实施步骤如下：首先，把远程摄像头的视频数据作为OpenPose的输入，从而得到当前视频每一帧上的各个人体部位关键点坐标和置信度。然后，把它们保存在一个集合V＝{v_ti|t＝1，...，T，i＝1，...，N}中，其中T为当前视频帧数，N为每一帧的人体部位关键点数目，v_ti为第t帧上的第i个人体部位关键点。人体部位关键点上的特征向量F(v_ti)由第t帧上的第i个关节的坐标向量和姿态估计置信度组成。

S2、通过图处理模块将人体部位关键节点坐标数据处理成图数据结构，得到人体骨架序列特征矩阵，作为图卷积模型的输入。

步骤S2的图处理模块的具体做法如下：首先，根据人体骨架的自然连通性，将步骤S1得到的关节点集合V＝{v_ti|t＝1，...，T，i＝1，...，N}中的节点用边连接起来保存在一个边集合E＝{v_tiv_tj|(i，j)∈H}中，其中H是自然连接的人体关节的集合。然后，将V和E结合起来，得到每一帧的人体骨架图G＝(V，E)，本发明中使用邻接矩阵A来表示这个图。最后，把每一帧上所有节点的特征向量拼接成一个特征矩阵就得到了所述步骤S3的图卷积模块的输入。

S3、通过图卷积模型建模空间维度上的特征。

对于步骤S3设计的图卷积模型的实现，本发明借鉴了基于人体骨架序列的图卷积神经网络的最先进方法之一CTR-GCN。简而言之，图卷积所做的操作就是不断地聚合邻居节点的特征信息，CTR-GCN的改进就是在节点特征的通道维度上对邻接矩阵进行参数化，并通过节点相关性矩阵进行参数更新，这样的设计可以使模型在训练过程中从不同的通道维度上学习跨越人体自然连接的边(例如，手部关节点和脚部关节点之间的连接)。模型学习到的新连接可以更好地表示一些多个身体部位共同参与的行为(例如：下床、跑步)，一定程度上减小节点缺失带来的负面影响。本发明对CTR-GCN做出改进，保留了CTR-GCN通道细化的邻接矩阵参数化设计，删除了其中的多尺度时间卷积模块，因为其内部包含一个9×9的超大卷积核，这会带来不菲的计算开销。另外，本发明还对多层的图卷积进行了层数削减和分组设计，从原来的10层减为了9层，并且分为了三组，每一组内部通道维数相同。这一步的目的是为了进一步减少模型的参数量，避免图卷积过度参数化。这一步骤的公式描述如下：

其中，是输入张量，它可以通过所述步骤S2得到；A是一个可学习的邻接矩阵，初始值为所述步骤S2得到的人体骨架图G＝(V，E)的邻接矩阵的归一化值；M是一个相关性矩阵，M的值由所述步骤S2得到的人体骨架图G＝(V，E)中的节点v_ti和v_tj两两计算相似度得到；α是一个可训练的参数，用于调整通道细化的强度；W是一个可学习的参数矩阵，使用Xavier初始化方法进行初始化。

S4、通过输入端适配模块进行Transformer模块的输入端适配。

步骤S4的输入端适配模块的具体实现方式分为两步。第一步，将所述步骤S3中的图卷积模块所输出的5维的张量进行维度转换，具体地，它将通道维度和节点维度相乘得到一个新的特征维度使得5维的张量变成一个4维的张量；第二步，对上一步得到的特征做一个线性变化，将它投影到更高维的空间中。如此一来，人体骨架序列就转换成了Token序列可以直接作为Transformer模块的输入。

S5、通过Transformer模型建模时间维度上的特征。

步骤S5中Transformer模型的网络结构设计部分借鉴了图像分类领域第一个使用Transformer神经网络结构的分类模型ViT，只是为了结合图卷积神经网络并且更好地适配行为识别任务，本发明设计了新的位置编码的初始化方式：在时间维度上，本发明不采用基于高斯分布的初始化，而是采用基于均匀分布的初始化。本发明对ViT和原始的Transformer中的多头自注意力实现进行了对比，发现ViT在训练和推理时并行化做的更好，所以在设计我们的Transformer网络模块的时候，我们保留了ViT中的多头自注意力实现，它的计算公式如下：

其中h表示多头自注意力的head数量，H是它的最大值。Q_h、K_h、V_h分别由步骤S3的输出经过输入端适配后分别乘上一个参数矩阵W_Q、W_K、W_V得到。这一模块的每一个Transformer块都用GELU激活函数激活。

S6、通过一个包含全局平均池化层和全连接层的分类头部来输出模型的预测结果。

步骤S6用一个小型神经网络作为整个复合神经网络的分类头部。该网络由一个全局平均池化层和一个具有n个神经元的全连接层组成，n表示训练数据集中的类别数。本发明使用Softmax来激活每个神经元，并使用n个神经元的输出作为预测向量，向量的值表示识别为该行为的概率。

将步骤S6得到的预测结果与真实标签计算交叉熵损失，并通过Adam优化器和反向传播算法迭代训练调优化网络参数，交叉熵损失函数的计算公式如下：

其中，N为样本个数，M为类别数，y_ic代表来自目标域样本i的标签，如果样本i的真实类别等于c为1，不等于则为0，p_i，c为样本i被预测为类别c的概率。

本发明使用人体骨架序列作为输入，以保证输入数据的轻量化和抗干扰能力；使用图卷积神经网络结构来建模空间维度的信息，以克服Transformer网络结构空间建模能力弱的缺点；使用Transformer网络结构来建模时间维度的信息，以克服图卷积受限于卷积核大小无法有效建模持续时间较长的视频片段的缺陷。

实施例2

本实施例提供了一种基于图卷积及Transformer复合神经网络的行为识别方法，其工作流程图如图2所示，整体复合网络结构图如图3所示，行为识别方法具体步骤如下：

1、人体姿态估计和数据预处理

将自建的行为识别数据集ICUAction-8中的所有视频分辨率调整为340*250，并将帧率转换为30fps，然后以视频流的方式输入到OpenPose人体姿态估计框架对视频中的每一帧进行人体姿态估计，再通过图处理模块将每一帧上的人体姿态估计的结果处理成图数据结构，并将节点上的特征处理成维度为(256，3，500，18，2)的张量作为模型的输入，其中256为批大小，3为节点特征的通道维数，500为视频的最大帧数，18为人体关节点的数量，2为视频中人物的个数。

2、训练基于图卷积及Transformer的复合神经网络提取空间和时间维度上的特征。

将处理好的数据按照7:2:1的比例划分为训练集、验证集和测试集。设置初始学习率为0.1，进行120轮的迭代训练。

首先，将训练集中的数据输入到图卷积模块进行空间维度特征的提取。图卷积模块一共包含9个图卷积块，每个图卷积块由一个卷积核为9x9的图卷积网络层、一个BatchNorm归一化层以及一个Tanh激活层组成。

其次，通过输入端模块的维度转换操作将维度为(256,3,500,18,2)的张量转换为维度为(512,500,54)并通过一个全连接层做映射将最后一维上升到1024得到维度为(512,500,1024)的张量作为Transformer模块的输入。

然后，将上一步得到的张量输入到Transformer模块进行时间维度特征的提取。Transformer模块一共包含两个Transformer块组成，每一个Transformer块又由一个位置编码层、2个LayerNorm归一化层以及一个包含GELU激活函数的MLP构成。

最后，将Transformer模块的输出既提取到的时空交互特征输入到识别头部进行动作类别预测。将预测结果与真实标签计算交叉熵损失，并通过Adam优化器和反向传播算法迭代训练优化网络参数。识别头部由一个全局平均池化层和一个包含400个神经元的全连接层构成。

3、通过验证集优化超参数设置。

将上一步在训练集上面训练得到的模型放到验证集上面进行测试，分析结果并适当调整批大小、学习率、优化器、权重衰退、Dropout等超参数后重复步骤2的训练过程。

4、使用测试集测试识别性能。

将测试集的视频通过人体姿态估计算法OpenPose和图处理模块处理后出入到训练和优化好的复合神经网络中得到最终的动作识别结果。

本发明针对卷积的感受野受限于卷积核的大小的问题，设计了结合图卷积神经网络和Transformer神经网络两种网络结构的复合神经网络架构，是一种既满足输入数据轻量、抗干扰能力强，又能够有效建模持续时间较长的视频的行为识别方法。

文中未详细说明的算法、计算步骤均为本领域的通用技术，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图卷积和Transformer复合神经网络的行为识别方法，其特征在于，包括如下步骤：

S3、通过图卷积模型建模空间维度上的特征；

在步骤S3的图卷积模型中，采用改进的CTR-GCN，在节点特征的通道维度上对邻接矩阵进行参数化，删除了多尺度时间卷积模块，并对多层的图卷积进行了层数削减和分组，避免图卷积过度参数化；图卷积模型建模空间维度上的特征具体表达公式如下：

其中，是输入张量；A是一个可学习的邻接矩阵，初始值为人体骨架图G＝(V,E)邻接矩阵的归一化值；M是一个相关性矩阵，M的值由人体骨架图G＝(V,E)中的节点v_ti和v_tj两两计算相似度得到；W是一个可学习的参数矩阵；

S4、通过输入端适配模块进行Transformer模块的输入端适配；

所述步骤S4的输入端适配具体包括如下：

S42、对上一步得到的特征做线性变化，将它投影到更高维的空间中转换成Token序列，作为Transformer模型的输入；

S5、通过Transformer模型建模时间维度上的特征；

所述Transformer模型包含两个Transformer块；每一个Transformer块由一个位置编码层、2个LayerNorm归一化层以及一个包含GELU激活函数的MLP构成；

在步骤S5的Transformer模型中，采用分类模型ViT并通过基于均匀分布的位置编码初始化方式，ViT中的多头自注意力计算公式如下：

其中，h表示多头自注意力的head数量，H是它的最大值；Q_h、K_h、V_h分别由图卷积模型的输出经过输入端适配后分别乘上一个参数矩阵W_Q、W_K、W_V得到；

2.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法，其特征在于：步骤S1中，将远程摄像头的视频数据以视频流的方式作为OpenPose的输入，得到当前视频每一帧上的各个人体部位关键点坐标和置信度，保存在集合V＝{v_ti|t＝1,…,T,i＝1,…,N}中，其中，T为当前视频帧数，N为每一帧的人体部位关键点数目，v_ti为第t帧上的第i个人体部位关键点，人体部位关键点上的特征向量F(v_ti)由第t帧上的第i个关节的坐标向量和姿态估计置信度组成。

3.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法，其特征在于：步骤S2中，图处理模块具体包括：将关节点集合V＝{v_ti|t＝1,…,T,i＝1,…,N}中的节点用边连接起来保存在边集合E＝{v_tiv_tj|(i,j)∈H}中，其中，H是自然连接的人体关节的集合；

然后，将V和E结合起来，得到每一帧的人体骨架图G＝(V,E)，使用邻接矩阵A来表示；

4.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法，其特征在于：在步骤S7中，将步骤S6得到的预测结果与真实标签计算交叉熵损失，并通过Adam优化器和反向传播算法迭代训练优化网络超参数，交叉熵损失函数的计算公式如下：

其中，M为类别数，y_ic代表来自目标域样本i的标签，如果样本i的真实类别等于c则为1，不等于c则为0，p_i,c为样本i被预测为类别c的概率。

5.根据权利要求4所述的基于图卷积和Transformer复合神经网络的行为识别方法，其特征在于：所述的网络超参数包括批大小、学习率、优化器、权重衰退和Dropout。