CN116704552B

CN116704552B - 基于主要次要特征的人体姿态估计方法

Info

Publication number: CN116704552B
Application number: CN202310697045.8A
Authority: CN
Inventors: 仇梓峰; 白慧慧; 陈韬亦; 张小龙; 孙夕越; 王雅涵
Original assignee: Beijing Jiaotong University; CETC 54 Research Institute
Current assignee: Beijing Jiaotong University; CETC 54 Research Institute
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2024-03-12
Anticipated expiration: 2043-06-13
Also published as: CN116704552A

Abstract

本发明公开了基于主要次要特征的人体姿态估计方法，属于人工智能技术领域。本发明首先构建人体姿态估计模型，然后使用训练数据集对人体姿态估计模型进行训练，最后，使用训练好的人体姿态估计模型进行人体姿态估计，得到人体关键点热图。本发明的人体姿态估计模型引入了一种主次特征划分机制，对于主要、次要特征引入了基于自注意力机制的特征增强模块，对次要特征进行动态激活从而获得完整的目标特征，能够提高人体姿态估计的准确率。

Description

基于主要次要特征的人体姿态估计方法

技术领域

本发明涉及人工智能技术领域，特别是指一种基于主要次要特征的人体姿态估计方法。

背景技术

人体姿态估计是动作识别、行人重识别和人机交互等计算机视觉任务的重要基础。然而，由于拍摄视角的变化、复杂的人体姿势以及来自拥挤场景或者人体自身的遮挡等因素，它仍然面临着许多挑战。遮挡问题对人体姿态估计的性能造成重大的影响，它通常通过影响深度特征的提取而混淆网络，使其产生错误的人体姿态估计结果。

多人姿态估计的方法根据算法流程可以归纳为两类，即自顶向下和自底向上。自底向上的姿态估计算法先检测关键点再分组，大多数的方法侧重于关键点的识别和分组。最近的自底向上的一些工作通过人的中心点密集地回归人体姿势，这些方法存在人体中心遮挡问题以及长距离和密集回归的问题。自顶向下的方法先使用Yolo、Faster R-CNN等方法先检测人体边界框然后再进行姿态估计，现有的许多方法侧重设计更加精细的人体姿态估计网络。但是由于遮挡场景和拥挤场景的存在，自顶向下的算法在这些场景中会存在性能的下降。CrowdPose关注到人员密集场景的问题，提出全局关联来处理拥挤场景，并且提出了一个大型拥挤姿态估计基准数据集。OASNet提出特征擦除和重建网络，先擦除目标无关的混淆特征再重建出被擦除的特征，并且使用孪生网络架构学习未被遮挡的特征。然而，由于孪生网络的存在，训练过程中需要训练多个网络。为了获取更精细的人体特征表示，Kim等人提出一种局部和全局推理的特征提取方式，从两种更精确的定位遮挡下的人体关键点。Zhang等人提出决策级信息融合，通过聚合不同视角的决策级信息，生成更加全面的估计结果。

与卷积神经网络相比，图网络在处理人体姿势建模问题时有着天然的优势：它们能更有效地捕捉关节之间的依赖关系，因此一些工作使用图卷积网络来解决遮挡问题。OPEC-Net使用图卷积神经网络从自上而下的模型中细化候选姿势。Jin等人提出种自下而上的方法，使用可微分图卷积进行联合关联获得最终的姿势。RSGNet预测所有的关键点，然后对这些关键点进行关系建模，之后再引入骨架图知识推理目标人体姿态。PINet提出姿势级别的推断网络，从可见人体部位直接推断出多个粗略的姿势，再将这些姿势融合生成最终的姿态结果。总之，基于图卷积的方法能利用人体结构关系推理遮挡关键点，但是中间需要生成多个姿态估计的结果，才能获得最终的姿态。

发明内容

有鉴于此，本发明提出一种基于主要次要特征的人体姿态估计方法，该方法引入了一种主次特征划分机制，对于主要、次要特征引入了基于自注意力机制的特征增强模块，对次要特征进行动态激活从而获得完整的目标特征，能够提高人体姿态估计的准确率。

为了实现上述目的，本发明采用的技术方案为：

基于主要次要特征的人体姿态估计方法，包括以下步骤：

步骤1，构建人体姿态估计模型；所述人体姿态估计模型包括特征提取主干网络、可调节空间注意力模块MAM、基于自注意力机制的特征增强模块FEM、上下文适应模块CAM、预测层；所述特征提取主干网络为高分辨率网络HRNet；所述可调节空间注意力模块MAM使用特征提取主干网络提取的高层特征学习空间权重图，自适应地学习划分主要特征和次要特征；特征增强模块FEM基于自注意力机制，通过计算主要特征和次要特征之间的相关性，将置信度高的主要特征作为指导，对置信度低的特征进行增强，获取完整的人体姿态特征表示；所述上下文适应模块CAM对来自特征提取主干网络的特征，使用多分支的并行空洞卷积来提取不同感受野的上下文信息；所述预测层通过卷积预测关键点热图；

步骤2，使用训练数据集对人体姿态估计模型进行训练，具体方式为：

步骤201，使用在ImageNet上预训练的模型对特征提取主干网络进行初始化，对可调节空间注意力模块MAM、特征增强模块FEM、上下文适应模块CAM、预测层进行随机初始化；

步骤202，在训练数据集中，将每个人体的标注框扩展到固定的长宽比，并从图像中裁剪出来，将裁剪后的区域图像调整为固定大小；

步骤203，采用数据增强策略，使用缩放因子[0.65,1.35]、水平翻转、随机旋转 [−45^◦,45^◦]以及半身增强对每个人样本进行随机增强，旋转角度正数角度为顺时针，负数角度为逆时针；

步骤204，设置初始学习率和最大训练迭代次数，使用Adam优化器进行训练，得到训练好的人体姿态估计模型；

步骤3，使用训练好的人体姿态估计模型进行人体姿态估计，得到人体关键点热图。

进一步地，步骤1中，可调节空间注意力模块MAM对于特征提取主干网络提取的高层特征，使用1×1卷积和sigmoid激活函数，学习特征权重图/>，将特征权重图/>中大于设定阈值/>的部分保留原值，小于阈值/>的部分设置为0，获得特征空间权重图/>，对应主要特征；最后，将上下文适应模块输出的特征/>与特征空间权重图/>进行点乘，获取主要特征/>和次要特征/>。

进一步地，特征增强模块FEM使用矩阵和/>分别对/>进行线性映射，获取键向量/>和值向量/>，并使用矩阵/>对/>进行线性映射，获取查询向量/>，/>，/>为三个1×1卷积层；

将、/>、/>展开至维度/>，根据自注意力机制，通过矩阵乘法计算/>和/>之间的相关性，获取相关性权重图/>：

其中，，/>是特征向量的维度，上标T表示矩阵转置；/>表示归一化激活函数，/>表示/>和/>的每个像素之间有多少信息相关，对于相关性权重图中的每一个权重/>，/>，反映了/>中每一个特征向量与/>中所有特征向量之间的相关性，这些相关性反映了特征像素与像素之间的依赖程度，权重越大，相关程度越高，反之越低；

根据查找/>中的相关性较强的信息，进而填充/>中的信息，得到原特征/>与填充的特征的特征和/>：

将特征和送入前馈模块进行计算，所述前馈模块由多层感知机和层归一化组成，前馈模块的输入特征和输出特征之间具有一个残差连接，以保留主要特征/>；得到的输出特征/>为：

其中，表示多层感知机，/>表示层归一化，/>表示特征形状变换的操作；

特征增强模块FEM提取的特征输入给预测层，预测层输出预测的关键点热图，即模型的最终输出。

进一步地，上下文适应模块CAM由3路并行的空洞卷积和1路池化层组成，每一路空洞卷积的膨胀率不同，用于生成不同感受野的特征；对经过池化层的特征进行特征上采样，之后将3路空洞卷积和1路池化层的输出特征进行通道维度的聚合，并通过3×3卷积变换通道维度，获取上下文适应的特征。

进一步地，步骤3的具体方式为：

采集一张图片，通过目标检测方法检测出图片中的所有人体；

将所有检测到的人体进行裁剪，将裁剪后的区域图像调整为固定大小；

将固定大小的图像数据输入到训练好的人体姿态估计模型中，进行姿态估计，输出人体关键点的检测热图。

本发明的有益效果在于：

1、本发明引入了一种主-次特征划分机制，通过可调节空间注意力模块（Modulated Attention Module，MAM）自适应地学习特征权重图，响应强烈的高得分区域和响应稀疏的低得分区域对应主要特征（Primary Feature）和次要特征（SecondaryFeature）。对于主要、次要特征引入了基于自注意力机制的特征增强模块（FeatureEnhanced Module，FEM），建立主要和次要特征之间的相关性，以此对次要特征进行动态激活，从而获得完整的目标特征，进而学习目标完整的特征表示。

2、本发明引入了上下文适应模块（Context Adaption Module，CAM）并行地使用多种膨胀率的卷积来捕获多种感受野的上下文信息，进而适应人体结构和环境变化。

附图说明

图1为本发明实施例中人体姿态估计模型的原理示意图。

图2为本发明实施例中特征增强模块的原理示意图。

图3为本发明实施例中上下文适应模块的原理示意图。

实施方式

下面结合附图对本发明的技术方案作进一步的详细说明。

一种基于主要次要特征的人体姿态估计方法，包括以下步骤：

该方法针对遮挡问题对人体姿态估计模型进行了改进。遮挡问题主要通过影响目标人体特征的提取从而影响关键点的定位，因此解决遮挡人体姿态估计问题的重点是获取目标人体关键点相关的完整、清晰的特征。本方法从以下三个方面对遮挡情况下的姿态估计提出改进：

（1）当存在遮挡时，无遮挡区域的特征较为清晰，遮挡区域的特征响应会变得稀疏，因此仅仅靠有限的稀疏特征会导致不准确的结果，对于该区域需要过滤冗余的无关特征、增强人体相关特征；

（2）关键点之前存在天然的结构关系，因此人体的遮挡区域和未遮挡区域之间具有先验相关性。对于不同特征之间可以通过计算其相关程度，动态地将人体相关区域的特征进行激活，从而获取完整的特征；

（3）由于遮挡人体所处环境多样，形态多变，因此充分提取特征的上下文信息对人体关键点的正确定位同样具有重要意义。

本方法的人体姿态估计模型如图1所示，主要包括特征提取主干网络、可调节空间注意力模块MAM、基于自注意力机制的特征增强模块FEM、上下文适应模块CAM。具体来说：

（1）可调节注意力模块

当场景中存在遮挡时，特征提取过程中遮挡区域会变得稀疏，稀疏区域包含的信息有限，仅依靠有限的特征会造成关键点定位不准确的结果。因此对于提取的特征需要区分得分高的、清晰的主要特征和得分低的、稀疏的次要特征。之后，利用主要特征的信息对次要特征的信息进行指导激活，抑制无关冗余特征，增强相关特征，从而获取清晰、完整的姿态估计相关的特征表示。

由于遮挡往往是不规则且随机的，根据人体外观直接划分主次特征较为困难。对此，本方法提出可调节注意力模块MAM，使用主干网络提取的高层特征学习空间权重图，自适应地学习划分主次特征。本方法使用主干网络提取的高层特征，使用1×1卷积和sigmoid激活函数，学习特征权重图/>。之后通过将权重图/>中大于设定阈值/>地部分保留原值，小于阈值/>设置为0，获得特征空间权重图/>，对应主要特征。由于主要特征和次要特征之间互补，对应区域特征和为1，则空间权重图/>对应次要特征。获取空间权重图之后，通过经过上下文适应模块的特征/>与权重图空间域特征元素点乘获取主要、次要特征，分别为/>和/>。

（2）特征增强模块

经过上述主-次特征划分机制获取主次特征之后，为了将两组特征进行合理的聚合来获取完整的人体特征，并考虑到人体关键点结构之间天然的先验知识，本方法提出了特征增强模块FEM。FEM基于自注意力机制，通过计算主要特征和次要特征之间的相关性，将置信度更高的主要特征作为指导，对置信度低的特征进行增强，获取完整的人体姿态特征表示。特征增强模块可以显示地捕获人体之间各部分的全局依赖关系，以相关程度作为依据，对次要特征中的特征进行增强，其结构如图 2所示。

图 2中和/>分别表示输入的主要特征和次要特征，通过自注意力机制计算两者之间的相关性来增强特征。FEM使用两个参数可学习的矩阵/>和/>将/>通过线性映射获取/>和/>，分别对应和键向量key和值向量value，使用矩阵/>由获取/>，对应查询向量query，/>，在网络模型中使用三层1×1卷积层作为上述线性变换矩阵。之后，将/>、/>、/>展开至维度/>，/>，/>是特征向量的维度。根据自注意力机制的计算方式，通过矩阵乘法计算/>和/>之间的相关性，获取相关性权重图/>，具体计算方式如下：

其中，表示归一化激活函数，/>表示/>和/>的每个像素之间有多少信息相关，对于相关性权重图中的每一个权重/>，/>，反映了/>中每一个特征向量与/>中所有特征向量之间的相关性，这些相关性反映了特征像素与像素之间的依赖程度，权重越大，相关程度越高，反之越低。

根据可以查找/>中的哪些相关性较强的信息，进而填充/>中的信息：

表示原特征/>与填充的特征的特征和。之后将/>送入前馈模块，进行计算。前馈模块由多层感知机和层归一化（Layer Normalization）组成；并且在输入特征和输出特征之间设计了一个残差连接，以保留主要特征/>，输出特征/>获取过程如下：

在上述过程中，表示多层感知机，/>表示层归一化，/>表示特征形状变换（Reshape）的操作。

（3）上下文适应模块

上下文信息中包含着人体所处的全局位置和关键点之间的上下文关系，因此，对于不可见关键点来说，丰富的上下文信息可以帮助其更为准确地区分和精确地定位。因此本方法提出基于空洞空间金字塔池化（Atrous Spatial Pyramid Pooling，ASPP）的上下文适应模块，对来自特征提取骨干网络的特征，使用多分支的并行空洞卷积来提取不同感受野的上下文信息。较大感受野的特征能从全局反映人体所处环境，较小感受野的特征能更专注于细节和局部的关键点，从而适应特征提取过程中人体上下文信息的变化。

下文适应模块的具体结构如图 3所示，该模块由3路并行的空洞卷积和1路池化层组成，每一路空洞卷积的膨胀率不同，可以生成不同感受野的特征。经过池化层的特征需要进行特征上采样，之后来自四路的特征进行通道维度的聚合，并通过3×3卷积变换通道维度，获取上下文之后的特征。

下面对上述模型进行训练，并验证其实际效果：

（1）训练和测试过程

采用两个标准公共数据集CrowdPose和COCO进行模型的训练和评估，并且分别报告了AP、AP⁵⁰、AP⁷⁵、AP^M、AP^L、AR、AP^easy、AP^med、AP^hard等标准评价指标。

训练过程：所有的实验都是基于Pytorch深度学习框架并在两块NVIDIA GTX3090GPU上完成的。采用HRNe-W32和HRNe-W48作为骨干模型，使用在ImageNet上预训练的模型进行初始化，其余层随机初始化，分别在上述两个数据集上用各自的人物实例训练模型。遵循以往工作中常用的做法，将每个人体的标注框扩展到固定的长宽比(即高:宽=4:3)，并从图像中裁剪出来。然后将裁剪后的区域图像进一步调整为固定大小，如256×192或384×288。训练过程中采用数据增强策略，使用缩放因子[0.65,1.35]、水平翻转、随机旋转 [−45^◦,45^◦]以及半身增强对每个人样本进行随机增强，旋转角度正数角度为顺时针，负数角度为逆时针。训练使用Adam优化器，初始学习率为1e-3，训练过程在第210轮次终止，学习率在第170轮次和第200轮次分别下降到1e-4和1e-5。

测试过程：对于CrowdPose数据集，与现有的其他算法进行对比时，训练阶段使用训练/验证集进行模型训练，并在测试集上进行测试；消融实验对比使用训练集（train）进行训练，验证集进行验证。对于COCO数据集，与现有方法对比和消融实验对比，均使用训练集进行训练

测试的均遵循“先检测后估计”的算法流程。对于CrowdPose数据集，使用以ResNet101-FPN算法检测人体并获取的人体边界框和真值标注框进行测试；对于COCO数据集，使用Faster R-CNN检测器提供的人体边界框和真值标注框进行测试。

（2）实验结果比较

本方法与现有的基于卷积神经网络的算法Mask R-CNN、AlphaPose、SimpleBaseline和基于图网络的算法OPEC-Net、RSGNet等方法在CrowdPose测试集上进行了对比。实验中使用HRNet-W32作为特征提取的骨干网络，并在256×192和384×288两种分辨率下进行了实验对比。对于现有的方法，直接使用了原始文献中的实验结果以及相同数据集上其他引用论文的结果。实验结果及对比如表 1所示：

可见，使用HRNet-W32作为骨干网络时，对于分辨率为256×192的输入，相较于基线方法，本方法将平均准确率AP提高了2.3%，值得注意的是，AP^hard提高了2.8%；对于分辨率为384×288的输入，本方法在平均准确率AP提高了1.3%，AP^hard提高了1.8%。以上实验结果表明了，本发明的PSPose能够有效且准确地定位较为拥挤场景下遮挡人体的关键点。

下面，将本发明方法与近几年的自顶向下的算法Mask R-CNN、AlphaPose、SimpleBaseline、OPEC-Net、AFC以及Zhang等人的方法在COCO数据集上的性能进行对比，相比于CrowdPose数据集的多关注拥挤和遮挡等复杂场景来说，COCO数据集的场景同时包括简单和复杂的多种场景。实验结果如表 2所示：

可见，以HRNet-W32作为骨干网络，当输入分辨率为256×192时，将基线方法AP从73.5%提升到74.0%；当输入分辨率为384×288时，以HRNet-W32和HRNet-W48分别作为骨干网络，本方法分别将基线方法AP从74.9%提升到75.2%，从75.5提升到75.7%。以上实验结果均证明，本方法在COCO数据集上同样有效，因而具有泛化性。

除了从定量分析的角度对本方法进行了有效性的评估之外，本发明还对CrowdPose数据集和COCO数据集进行了主观结果可视化的定性分析。针对半身场景、遮挡场景和多人交互的场景，本方法能更加准确地定位关键点，减少错误定位和丢失的定位；对于不可见关键点，本方法能有效的从上下文信息中推断出关键点所在位置，并给出合理的预测结果。

Claims

1.基于主要次要特征的人体姿态估计方法，其特征在于，包括以下步骤：

步骤203，采用数据增强策略，使用缩放因子[0.65,1.35]、水平翻转、随机旋转[-45°,45°]以及半身增强对每个人样本进行随机增强，旋转角度正数角度为顺时针，负数角度为逆时针；

步骤3，使用训练好的人体姿态估计模型进行人体姿态估计，得到人体关键点热图；

步骤1中，可调节空间注意力模块MAM对于特征提取主干网络提取的高层特征F，使用1×1卷积和sigmoid激活函数，学习特征权重图A，将特征权重图A中大于设定阈值β的部分保留原值，小于阈值β的部分设置为0，获得特征空间权重图M，对应主要特征；最后，将上下文适应模块输出的特征F_A与特征空间权重图M进行点乘，获取主要特征F_P和次要特征F_S。

2.根据权利要求1所述的基于主要次要特征的人体姿态估计方法，其特征在于，特征增强模块FEM使用矩阵W_k和W_v分别对进行线性映射，获取键向量K和值向量V，并使用矩阵W_q对/>进行线性映射，获取查询向量Q，/>W_k,W_q,W_v为三个1×1卷积层；

将k、Q、V展开至维度根据自注意力机制，通过矩阵乘法计算K和V之间的相关性，获取相关性权重图/>

其中，d是特征向量的维度，上标T表示矩阵转置；Softmax(·)表示归一化激活函数，C表示Q和K的每个像素之间有多少信息相关，对于相关性权重图中的每一个权重反映了Q中每一个特征向量与K中所有特征向量之间的相关性，这些相关性反映了特征像素与像素之间的依赖程度，权重越大，相关程度越高，反之越低；

根据C查找F_P中的相关性较强的信息，进而填充F_S中的信息，得到原特征Q与填充的特征的特征和R：

R＝CV+Q

将特征和R送入前馈模块进行计算，所述前馈模块由多层感知机和层归一化组成，前馈模块的输入特征和输出特征之间具有一个残差连接，以保留主要特征F_P；得到的输出特征为：

其中，MLP(·)表示多层感知机，LN(·)表示层归一化，表示特征形状变换的操作；

3.根据权利要求2所述的基于主要次要特征的人体姿态估计方法，其特征在于，上下文适应模块CAM由3路并行的空洞卷积和1路池化层组成，每一路空洞卷积的膨胀率不同，用于生成不同感受野的特征；对经过池化层的特征进行特征上采样，之后将3路空洞卷积和1路池化层的输出特征进行通道维度的聚合，并通过3×3卷积变换通道维度，获取上下文适应的特征F_A。

4.根据权利要求3所述的基于主要次要特征的人体姿态估计方法，其特征在于，步骤3的具体方式为：