CN117238034A

CN117238034A - 一种基于时空Transformer的人体姿态估计方法

Info

Publication number: CN117238034A
Application number: CN202311322501.7A
Authority: CN
Inventors: 苏鹏翔; 盖迪; 饶泓; 鲁文博; 刘璇; 封润洋
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2023-12-15

Abstract

本发明公开了一种基于时空Transformer的人体姿态估计方法，使用个性化特征提取模块提取和调整单个帧特征以适应不同的人体形状，并整合单帧特征以获得时空特征；通过目标帧特征优化模块对目标帧自身信息建立相关空间线索建模，以获得细化特征；应用交叉时间特征提取模块从全局时空特征中搜索与含有目标帧信息的局部特征最密切相关的信息，利用浅层细节和深层语义表示加强目标帧与短视频序列特征之间的交互作用；采用解耦合关键点检测器提取每个关键点的差异性特征并对人体结构对进行编码，辅助模型合理准确地估计出关键点热图。所述方法能够编码时空相关信息，降低由于特征缺失或模糊带来的干扰，有效提升视频中人体姿态估计的准确性。

Description

一种基于时空Transformer的人体姿态估计方法

技术领域

本发明涉及视频处理领域，特别是涉及一种基于时空Transformer的人体姿态估计方法。

背景技术

人体姿势估计任务是从图像或视频中检测所有的实例并估计出运动关键点的位置信息。它是计算机视觉领域的一项基本任务，具有广泛的应用，包括运动识别，人体重建，人体运动预测和人机交互等。

大多数早期的人体姿态估计方法主要从静态图像中估计人体姿态，采用概率图形模型或树状模型来模拟人体结构。然而这些方法需要对大量的特征进行人工标注，并且难以处理复杂背景所带来的挑战。随着深度学习技术的发展，研究人员利用深度卷积神经网络来解决姿势估计任务。Deep Pose通过迭代架构来估计关键点的坐标信息，直接获得最终结果。由于静态的人体图像可能存在模糊和遮挡，这会导致部分图像的信息损失。因此，将此类方法直接应用于视频任务，所表现出的泛化能力较差，估计出的关键点位置的准确率较低，并常表现出时间上的不连续性。

在监控跟踪和人类行为理解等实际场景中，需要模型具备从视频数据中精确估计人类的能力。因此，如何有效地利用视频中所包含的时间信息来提升人体估计精度是亟待解决的问题。最近，研究人员通过融合相邻帧所包含的相关时间上下文信息对目标图像的缺失部分进行补充，以提高基于视频的人体估计模型的性能。比如，基于长短期记忆网络(LPM)的链式网络结构模型。此外，基于卷积-循环神经网络的方法可以从视频中提取时间和空间特征，辅助模型输出更为准确的估计结果。尽管如此，此类模型过于关注人体的局部特征，难以从全局的角度充分理解人体姿态信息。目前，基于Transformer的图像识别模型具有构建全局关系的能力，并表现出良好的性能，研究人员提出将其用于处理姿态估计问题。

基于Transformer的模型在通过在每个Patch之间建立语义关系而表现出良好的长距离信息的关联建模能力，可以对人类姿态实现较好的全局信息理解。然而，现有的方法倾向于直接从短视频序列中聚合相邻帧的时间特征，导致模型过多关注于全局特征。使全局特征与目标帧特征的空间相似性未被合理的建模，并且每帧信息都被平等的处理，未对密切相关特征进行额外的关注，造成目标信息的削弱。此外，当前最先进的算法仅采用深度网络所捕捉的深度语义特征图进行学习，而忽略了对浅层特征图中所隐含的细节信息的提取，导致部分关键特征被丢失。

发明内容

本发明目的是在于提供一种基于时空Transformer的人体姿态估计方法，能够更加有效的利用视频中的局部和全局信息提高模型对人体关键点估计的精度，辅助研究人员更为准确的分析人体运动。

本发明的目的通过如下技术方案实现：

一种基于时空Transformer的人体姿态估计方法，包括以下步骤：

步骤一：将多帧连续的原始人体姿态视频帧输入改进的个性化特征捕捉模块获得相应的特征图；

步骤二：将获取的每帧个性化特征通过基本块聚合成浅层全局特征；

步骤三：采用基于Transformer的目标帧特征优化模块从目标帧捕捉局部优化特征；

步骤四：对步骤二和步骤三获取的浅层全局特征和局部优化特征输入交叉时间特征提取模块的多头自注意力机制分别进行多尺度特征提取与融合生成键矩阵、值矩阵和查询矩阵；

步骤五：将步骤四所编码的特征分别作为键矩阵、值矩阵和查询矩阵输入多层交叉注意力层生成深层全局特征；

步骤六：将步骤五所获取的深层全局特征输入解耦合关键点检测器，使用一系列并行的卷积网络分别提取每个关键点的信息；

步骤七：将步骤六中获取的每个关键点信息按照人体铰接关系进行拼接和建模以模拟人体结构信息，并经卷积操作后拼接成包含所有关键点信息的热图。

进一步的，步骤一中所述的个性化特征捕捉模块，公式如下：

其中，表示输入的每帧图像的尺寸，/>表示输入的视频帧序列，/>表示经骨干网络和可形变卷积处理后的特征序列。

进一步的，步骤二包括：通过基本块将个性化特征捕捉模块所提取的特征序列进行融合，形成包含局部序列信息的时空特征，具体操作如下：

其中，表示每帧图像的特征图尺寸，/>是聚合成的全局时空特征图。

进一步的，步骤三所述的基于Transformer的目标帧特征优化模块，首先将目标帧特征图分为N个Patch，然后再将其输入多头注意力机制层，最后将特征输入标准化层和多层感知器生成捕捉局部优化特征，具体操作如下：

目标帧特征图被重塑为/>其中(H,W,C)表示特征图尺寸，(P,P,C)表示每个Patch尺寸，N＝HW/P²是Patch的数量，通过线性映射将Patch序列变为尺寸N×D的特征图；

其中，表示经过目标帧特征优化模块处理后的局部优化特征，MSA(·)表示多头注意力机制，LN(·)表示标准化层，MLP(·)表示多层感知器。

进一步的，步骤四所述的捕捉浅层全局特征和局部优化特征来更好的适应时间相关特征的提取，来解决大多现有方法仅可关注浅层全局特征或局部优化特征的缺陷，公式化为：

其中，表示相加操作，W_q、W_k和W_v分别表示Transformer的映射矩阵。该部分通过将局部特征和全局特征分别作为生成键矩阵、值矩阵或查询矩阵的方式来提升模型对特征的捕捉能力。

进一步的，为了更为有效的从全局特征中查找与局部特征最为相关的信息，在步骤五中通过交叉注意力机制从局部特征中得到全局特征上的投影，增强了模型的表示能力，具体操作如下：

其中，softmax(·)表示激活函数，d是矩阵的维度。

进一步的，为了减少不同关键点运动特征为模型准确估计带来的干扰，采用一种解耦合的关键点检测器，通过并行的卷积网络针对每个关键点的特点分别提取信息，具体操作如下：

其中，表示步骤五进行信息增强的特征，/>表示第n帧图像中第i个人的j关键点经相应卷积处理后的特征。

进一步的，为了模拟人体的实际结构辅助模型更为准确理解人体信息，首先根据人体关键点铰接关系进行特征建模，然后使用卷积神经网络完整信息提取并拼接成包含所有关键点信息的热图，具体操作如下：

其中，⊙表示拼接操作，表示与/>存在铰接关系的特征，/>表示卷积核拼接操作，/>是生成的包含目标帧中所有关键点信息的热图。以此完成人体的关键点估计任务。

本发明的有益效果：

本发明提供了一种有效的用于解决人体姿态估计任务的时空特征学习Transformer框架。通过提出一个个性化的特征提取模块，利用视频序列中每帧中人体的个体特征来适应人体外形的复杂性和可变性。目标帧特征优化模块对目标帧中的人体空间信息进行编码，对局部相关语义信息进行细粒度提取。为解决现有方法在局部序列中捕获时空特征时，平等对待序列中每帧的信息，导致目标帧信息被弱化的问题，设计交叉时间特征提取模块，通过从局部序列的时空特征中挖掘与目标帧密切相关的线索来强化局部特征。此外，解耦合关键点检测器通过对铰接关节对进行建模，再提取每个关节的特征实现姿态估计。大量的实验证实，此发明可在两个大型的基准数据集中表现出较高的估计精度。

附图说明

图1为本发明所述的一种基于时空Transformer的人体姿态估计方法的整体框图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字后加以实施。

如图1所示，本发明通过将目标帧与相邻帧组成视频短片段，获取时空相关信息来训练深度学习模型，有效降低因目标帧部分信息缺少或丢失带来的负面影响。采用基于Transformer框架执行视频中的多人姿态估计任务，其中包括四个部分。1)首先通过目标检测器获取连续帧序列中的人物i，并将其提供给个性化特征提取模块，从而导出局部序列的时空特征/>2)然后使用目标帧特征优化模块对目标帧特征/>进行细粒度特征捕捉获得特征图/>3)将目标帧的细粒度特征/>与局部序列的时空特征/>输入交叉时间特征提取模块，得到综合特征/>4)将综合特征/>传递给解耦合关键点检测器，输出关键点的热图/>

实施例1

本发明的实施例1以PoseTrack2017数据集人体姿态估计为例，对视频中的人体关键点进行估计。首先，通过提取每帧的个性化特征，然后再聚合成全局特征的方式可以有效保留帧间特征的差异性。其次，通过对目标帧特征进行深层优化提取，获取细粒度的局部信息。再次，通过对局部信息和全局信息的交叉建模，有效捕捉与目标帧密切相关的综合特征。最后，针对不同关键点的特性进行解耦合估计，避免特征间的相互干扰。其步骤如下：

步骤101：逐帧获取个性化的人体姿态信息；

通过向个性化特征捕捉模块输入包含目标帧和邻近帧的视频短序列进行特征提取，其定义见下式所示：

其中，表示输入的第n帧图像，尺寸为3×384×288；/>表示输入的视频帧序列；/>表示经骨干网络和可形变卷积处理后的特征序列。步骤102：采用基本块将序列特征聚合；

为了使模型采集视频短序列中所包含的全局特征，使用基本块对获取的特征序列进行融合，操作公式如下：

其中，表示第n帧特征图，尺寸为48×96×72；/>为获取的局部序列的浅层全局时空特征。

步骤103：采用基于Transformer的目标帧特征优化模块优化局部特征；

将含有目标帧信息的局部信息作为自注意力机制的Q，K和V，分别是查询矩阵，键矩阵和值矩阵。以此对局部信息进行深层优化，具体操作如下：

MSA(Q,K,V)＝Concat(head₁,...,head_h)W^O，

其中，d_k表示查询矩阵和键矩阵的维度，W^O，W_i ^Q，W_i ^K和W_i ^V表示可学习的参数矩阵，Concat表示拼接操作。

步骤104：对浅层全局特征和局部优化特征进行特征编码；

为了更好的捕捉与目标帧密切相关的全局特征，来更好的配合相关特征的准确提取，进而解决大多现有方法仅可关注浅层全局特征或局部优化特征的缺陷，分别将浅层全局特征和局部优化特征分别作为生成键矩阵、值矩阵或查询矩阵来提升模型对特征的捕捉能力，具体操作如下：

其中，表示相加操作，W_q、W_k和W_v分别表示Transformer的映射矩阵。

步骤105：采用交叉注意力模块编码深层全局特征；

为了更为有效的从全局特征中查找与局部特征最为相关的信息，在步骤五中通过交叉注意力机制从局部特征中得到全局特征上的投影，增强了模型的表示能力，具体操作如下：

其中，softmax(·)表示激活函数，d是矩阵的维度。

步骤106：解耦合关键点检测器获取关键点差异性特征；

为了减少不同关键点运动特征为模型准确估计带来干扰，采用解耦合的关键点检测器，通过并行的卷积网络针对每个关键点的特点分别提取信息，具体操作如下：

步骤107：模拟人体结构并估计出关键点；

为了强化模型对人体结构的理解能力，提升姿态估计的稳定性。将获取的每个关键点信息按照人体铰接关系进行拼接和建模以模拟人体结构信息，然后经卷积操作后拼接成包含所有关键点信息的热图。具体操作如下：

本发明使用平均精度(AP)作为评价指标对不同算法的性能进行检验。另外，分别计算每个关键点的平均精度，并将所有关键点估计精度的平均值作为最终的平均AP(mAP)。

通过在PoseTrack2017验证集上测量模型得到的每个姿态的估计精度结果总结于表1。从结果分析中可以明显看出，本发明方法在Elbow，Wrist，Hip，Knee和Ankle等相对复杂关键点的姿态估计中取得了较好的检测精度。在与现有姿态估计算法PoseTracker、PoseFlow、JointFlow、FastPose、TML++、simple baseline(ResNet50)、simple baseline(ResNet152)、STEmbedding、HRNet、MDPN、Dynamic-GNN、PoseWarper、DCPose、IMAPose和GLPose的比较中发现，本发明的估计精度在7种重要关键点和平均精度方面显著高于上述算法。Wrist，Knee和Ankle等小尺度关键点的估计准确率分别比最先进的GLpose算法预高出1.8％、3.3％、2.2％。本发明提出的交叉特征提取模块极大提高了对遮挡部位和小尺度关键点具有重要辅助功能的特征信息提取，从而获得了较好的估计效果。

表1 PoseTrack2017数据集定量比较结构

实施例2

为了进一步评估算法的性能，使用PoseTrack2018验证集对模型性能进行检测。共采用10种方法进行了评价，包括STAF、AlphaPose、TML++、MDPN、PGPT、Dynamic-GNN、PoseWarper、DCPose、IMAPose、GLPose等。从表2的实验结果来看，人体姿态估计精度达到81.5mAP，超过了目前最先进的方法。值得一提的是，对于那些难以估计的具有挑战性的关节(例如，Wrist和Ankle)，所提出的方法也获得了明显的提升，Wrist的估计精度为78.5AP比排名第二的方法高0.5AP，Ankle的估计精度74.4AP比之前最先进方法提升0.6AP。

表2PoseTrack2018数据集定量比较结构

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.一种基于时空Transformer的人体姿态估计方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于时空Transformer的人体姿态估计方法，其特征在于，步骤一中所述的个性化特征捕捉模块，公式如下：

其中，表示输入的每帧图像的尺寸，/>表示输入的视频帧序列，表示经骨干网络和可形变卷积处理后的特征序列。

3.如权利要求2所述的一种基于时空Transformer的人体姿态估计方法，其特征在于，步骤二包括：通过基本块将个性化特征捕捉模块所提取的特征序列进行融合，形成包含局部序列信息的时空特征，具体操作如下：

4.如权利要求3所述的一种基于时空Transformer的人体姿态估计方法，其特征在于，步骤三所述的基于Transformer的目标帧特征优化模块，首先将目标帧特征图分为N个Patch，然后再将其输入多头注意力机制层，最后将特征输入标准化层和多层感知器生成捕捉局部优化特征，具体操作如下：

5.如权利要求4所述的一种基于时空Transformer的人体姿态估计方法，其特征在于，步骤四所述对步骤二和步骤三获取的浅层全局特征和局部优化特征输入交叉时间特征提取模块的多头自注意力机制分别进行多尺度特征提取与融合生成键矩阵、值矩阵和查询矩阵，具体操作如下：

6.如权利要求5所述的一种基于时空Transformer的人体姿态估计方法，其特征在于，步骤五包括：通过交叉注意力机制从局部特征中得到全局特征上的投影，具体操作如下：

其中，softmax(·)表示激活函数，d是矩阵的维度。

7.如权利要求6所述的一种基于时空Transformer的人体姿态估计方法，其特征在于，步骤六将步骤五所获取的深层全局特征输入解耦合关键点检测器，采用并行的卷积网络针对每个关键点的特点分别提取信息，具体操作如下：

8.如权利要求7所述的一种基于时空Transformer的人体姿态估计方法，其特征在于，步骤七根据人体关键点铰接关系进行特征建模并拼接成包含所有关键点信息的热图，具体操作如下：

其中，⊙表示拼接操作，表示与/>存在铰接关系的特征，/>表示卷积核拼接操作，是生成的包含目标帧中所有关键点信息的热图。