CN112597956B

CN112597956B - 基于人体锚点集合与感知增强网络的多人姿态估计方法

Info

Publication number: CN112597956B
Application number: CN202011607985.6A
Authority: CN
Inventors: 骆炎民; 张智谦; 欧志龙; 林躬耕
Original assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Current assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-06-02
Anticipated expiration: 2040-12-30
Also published as: CN112597956A

Abstract

本发明提供一种基于人体锚点集合与感知增强网络的多人姿态估计方法，包括：步骤1、构建感知增强网络，并利用训练数据集进行网络训练和调优；步骤2、对一张待测试图片，首先将该图片输入感知增强网络中进行关节检测热图和锚点嵌入热图的检测，接着基于这两类热图进行算法的后处理过程，得到多人的姿态估计结果。本发明的优点在于：基于人体划分的思想，通过将多人姿态估计任务划分为上下两个半身的姿态估计子任务，能够有效降低检测任务的建模难度；结合注意力机制与特征融合策略构建感知增强网络，能够充分挖掘神经网络模型的特征提取能力，最终得到更加精确的多人姿态估计结果。

Description

基于人体锚点集合与感知增强网络的多人姿态估计方法

技术领域

本发明涉及人体姿态估计技术领域，特别涉及一种基于人体锚点集合与感知增强网络的多人姿态估计方法。

背景技术

人体姿态估计技术是计算机视觉领域中研究人体行为的一项基础性工作，其目标是从单幅RGB图像中检测人体关节。这一研究可广泛应用于动作识别、人体跟踪和人的再识别等多种更高层次的视觉任务。由于实际场景中往往有很多人，因此如何解决多人的姿态估计任务在近年来逐渐受到更多重视。

目前现有的多人姿态估计方法主要可以分为两类：自顶向下和自底向上。由于自底向上的方法仅需使用单个神经网络来进行一次前向过程，因此往往具有更低的时间复杂度，受到了更为广泛的研究。

浙江大学在其申请的专利“一种使用边界框约束的自底向上的多人姿态估计方法”(专利公开号：CN109345504A)中公开了一种使用边界框约束的自底向上多人姿态估计算法，该算法重新改进了以往的多人姿态估计神经网络，使得可以得到更加精确的检测结果；同时提出了一种使用边界框信息的贪心算法用于姿态解析，并在此基础上设计了一种非极大值抑制重复姿态检测的去除算法和基于贪心的缺失关节点补全算法。该方法主要针对于神经网络和后处理算法进行了分别的改进，但是对于复杂场景下的多人姿态或是数据集中样本缺乏的姿态类型，并不能充分利用人体的空间信息来进行精确的估计。来自中国地质大学(武汉)申请的专利“基于对抗学习的多人姿态估计方法”(专利公开号：CN110598554A)发明了一种基于对抗学习机制的姿态估计方法。该方法首先基于双分支关键点特征提取子网络来进行初级特征的提取，接着基于此设计了网络生成器和网络判别器部分，通过在训练集上对该网络进行中继监督循环训练来得到优化后的网络，该网络能够同时输出准确的骨架热点图和关键点热点图；在后处理阶段，通过对两部分热图进行搜索分类后处理，能够得到多人中每一个人体的关键点位置，从而完成姿态估计。该发明能够通过对抗学习机制来促使网络学习具有判别力的鲁棒特征用于姿态估计，然而该方法也面临同样的问题，即在某些复杂困难如运动场景中，可能由于关节遮挡或运动模糊等问题，无法实现关节点之间的有效搜索匹配。

由于在以往的多人姿态估计算法的研究中，只是简单的将整个人体作为网络检测的目标并在同个分支进行预测，这样的方式没有考虑到人体固有的高自由度对网络建模能力带来的困难，导致算法容易在遮挡、运动模糊等困难场景下造成关节点预测错误，进而导致错误的姿态估计结果。因此，如何提供一种降低网络建模困难，充分发挥网络建模潜力的自底向上姿态估计方法，兼顾人体姿态估计任务的精度和效率，成为一个亟待解决的问题。

发明内容

本发明要解决的技术问题，在于提供一种基于人体锚点集合和感知增强网络的多人姿态估计方法，将关联密切的关节点组合成为单个姿态估计子任务，并充分挖掘神经网络的特征提取能力，得到更加精确的多人姿态估计结果。

为了解决上述技术问题，本说明书实施例是这样实现的：

一种基于人体锚点集合与感知增强网络的多人姿态估计方法，包括：感知增强网络构建优化过程和姿态估计过程；

所述感知增强网络构建优化过程包括：

步骤A1、分别定义上半身关节、下半身关节、上半身几何锚点关节、下半身几何锚点关节以及方向锚点关节，将整个人体的多类关节划分成内部相连且相关的上下半身两个分组，其中，将所述上半身几何锚点关节、下半身几何锚点关节以及方向锚点关节定义为人体锚点集合，所述人体锚点集合内的关节同时被包含在上下半身两个分组；然后构建感知增强网络，所述感知增强网络包括主干网络和预测网络，所述主干网络用于提取关节初级特征，所述预测网络用于在关节初级特征的基础上分别进行上半身关节特征提取、下半身关节特征提取以及预测输出，所述预测输出包括分别对应于不同半身的各类关节的上半身关节检测热图、上半身锚点嵌入热图、下半身关节检测热图以及下半身锚点嵌入热图；

步骤A2、利用多人姿态估计数据集构造上半身关节检测热图、上半身锚点嵌入热图、下半身关节检测热图以及下半身锚点嵌入热图作为训练标签，对所述感知增强网络进行训练，所述多人姿态估计数据集包括多人姿态图片以及关节点地面真值标注；计算所述感知增强网络的输出与所述训练标签之间的损失值，然后利用反向传播方法对感知增强网络的参数进行更新，训练结束后得到优化的感知增强网络。

所述姿态估计过程包括：

步骤B1、将待测试图片进行预处理，然后输入所述优化的感知增强网络，得到分别对应于不同半身的各类关节的上半身关节检测热图、上半身锚点嵌入热图、下半身关节检测热图以及下半身锚点嵌入热图；

步骤B2、使用空间非极大值抑制算法对检测出的上半身关节检测热图、上半身锚点嵌入热图、下半身关节检测热图以及下半身锚点嵌入热图进行处理，得到所有的关节点候选项；

步骤B3、利用上半身锚点嵌入热图和下半身锚点嵌入热图，将所述关节点候选项一一映射到对应的上半身几何锚点关节或下半身几何锚点关节，实现将关节点候选项分为两组；

步骤B4、对分为两组的关节点候选项分别执行基于贪婪策略的关节推理算法，得到至少一个人体上半身实例和至少一个人体下半身实例；

步骤B5、根据所述至少一个人体上半身实例和至少一个人体下半身实例对应的上半身几何锚点关节位置与下半身几何锚点关节位置，将所述至少一个人体上半身实例与所述至少一个人体下半身实例匹配成人体，得到姿态估计结果。

进一步地，所述上半身几何锚点关节为胸部关节，所述下半身几何锚点关节为髋部关节，所述方向锚点关节为头部和颈部关节；根据胸部关节确定每一上半身关节的锚点嵌入位置，根据髋部关节确定每一下半身关节的锚点嵌入位置，依靠头部和颈部关节为每一上半身关节或下半身关节提供左右方向信息。

进一步地，所述步骤A1中，构建感知增强网络，所述感知增强网络包括主干网络和预测网络，具体包括：构建主干网络以及构建预测网络；

所述构建主干网络包括：使用多个残差模块堆叠作为主干网络，主干网络的输出为关节初级特征图；

所述构建预测网络包括：首先对主干网络输出的各个通道的关节初级特征图进行全局池化，接着使用两层全连接层对不同通道的特征权重进行自动学习，得到与通道个数相同维度的注意力向量，然后将该注意力向量与原始特征图进行相乘，得到通道自注意特征；接着，在不同半身检测任务的网络分支上，利用空间注意力学习机制对特征进行进一步的空间维度的权重分配；最后，在不同半身检测任务的网络分支间采用通道降维的特征融合操作来对特征进行融合，在不同半身检测任务的网络分支上顺序输出得到两部分热图。

进一步地，步骤A2中，计算所述感知增强网络的输出与地面真值标签之间的损失值，具体采用如下公式：

L＝L_关节检测+λL_锚点嵌入

其中，L_关节检测为关节检测热图的损失值，L_锚点嵌入为锚点嵌入热图的损失值，K_T为上半身关节个数，K_D为下半身关节个数，MSE为均方误差损失函数，SmoothL1为光滑L1损失函数，C_T为上半身关节地面真值热图，

为上半身关节检测热图，C_D为下半身关节地面真值热图，

为下半身关节检测热图，V_T为上半身锚点嵌入地面真值热图，/>

为上半身锚点嵌入热图，V_D为下半身锚点嵌入地面真值热图，/>

为下半身锚点嵌入热图，λ为误差损失函数的平衡因子超参数。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、通过对人体进行划分并提出基于人体锚点集合的新型多人姿态表示，降低了神经网络模型对检测任务的建模困难；

2、通过结合注意力机制与特征融合策略构建感知增强网络，增强了各子任务内自在特征的独特性学习和子任务间相关特征的整体性学习，能够充分挖掘网络模型的特征提取能力，使网络在不同的分支专注于子任务检测，从而获得更加精确的多人姿态估计结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实施例提出的基于人体锚点集合划分的上下半身关节分组示意图；

图2为本发明实施例进行预测输出的上下半身对应的两类热图标签，以及在后处理算法中关节的贪婪匹配顺序；

图3为本发明实施例的感知增强网络的预测网络的结构示意图；

图4为本发明实施例的基于特征降维融合策略的特征融合模块示意图；

图5为本发明实施例对多人图片样本进行姿态估计的可视化效果示意图。

具体实施方式

为了使本领域技术人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都应当属于本申请的保护范围。

本申请实施例中的技术方案，总体思路如下：

本发明提出了一种基于人体锚点集合和感知增强网络的多人姿态估计方法，该方法能够有效应对现有算法尚不能有效处理的关节遮挡、运动模糊等困难场景。本方法采取自底向上的流程，首先利用卷积神经网络检测出输入图像中存在的所有关节点候选项及对应的关节匹配线索，然后在后处理阶段利用匹配线索将关节点候选项组合匹配成多个人体。具体地，对于网络检测任务标签的设计，本发明基于人体划分的思想，首先提出将整个人体的多类关节划分成内部相连且相关性较强的上下半身两个分组，利用网络在两个分支进行上下半身姿态估计子任务；在此基础上，分别在上下两个半身中选择胸部髋部关节作为人体的几何锚点关节，并进一步添加与人体方向信息相关的头部颈部两个方向锚点关节构造成为人体锚点集合，人体锚点集合分别结合上下半身关节由网络同时在上下两个分支进行学习检测，并将几何锚点以偏移嵌入的形式作为新的关节匹配线索在关节检测之后进行串行预测。在网络结构方面，本发明提出了基于注意力机制和特征降维融合策略的感知增强网络来促使网络同时学习有利于单个子任务的特异性特征和人体整体的一致性特征，并输出多组预测热图。在训练时，利用数据集样本的关节点地面真值标注来构造关节检测热图和对应的锚点嵌入热图并进行对应的上下半身划分，作为感知增强网络的检测标签进行参数的监督训练；在测试时，首先由网络对输入图像进行热图提取，接着使用基于贪婪策略的后处理算法来进行最终的关节分组和匹配，最终得到多人的姿态估计结果。

本发明方法主要分为两个步骤：

步骤1、构建感知增强网络，并利用训练数据集进行网络训练和调优；

步骤2、对一张待测试图片，首先将该图片输入到感知增强网络中进行关节检测热图和锚点嵌入热图的检测，接着基于这两部分热图进行算法的后处理过程，得到多人的姿态估计结果；

本实施例公开了一种基于人体锚点集合与感知增强网络的多人姿态估计方法，包括：感知增强网络构建优化过程和姿态估计过程；

所述感知增强网络构建优化过程包括：

根据人体关节的位置对关节进行分类，比如左手腕、右手腕、左膝盖、右膝盖等，均各分为一类。在一种可能的实现方式中，采取如图1所示的关节划分的思想，将人体的多类关节划分成内部相连且相关性较强的上下半身两个分组，在每个分组内部各定义一个几何锚点关节(分别为胸部和髋部)，并进一步添加与人体方向信息相关的头部和颈部两个方向锚点关节，将两类锚点关节组合成为人体锚点集合，人体锚点集合同时包含在上下两个半身关节组中。根据胸部关节确定每一上半身关节的锚点嵌入位置，根据髋部关节确定每一下半身关节的锚点嵌入位置，依靠头部和颈部关节为各类上半身关节或下半身关节提供左右方向信息。

如图2所示，对于单个半身内的关节点检测任务，构造关节检测热图来进行标签建模，具体地，利用高斯核对多个人体的各类关节进行关节检测热图的生成，每一类关节被处理成单张二维矩阵形式的空间热图，多个高斯峰的位置即为每一个关节点的位置；在此基础上，对于单个半身内的关节匹配线索，构造锚点嵌入热图来进行标签建模。具体地，在单个半身内，对于某一类属于不同人体的多个关节，提出采取偏移形式将它们嵌入到关节所属的人体半身的锚点关节位置，同一人的同半身内的关节将被嵌入到相同的位置，最终每一类的关节将对应生成两通道(X通道和Y通道)的锚点嵌入热图。

如图3和图4所示，在一种可能的实现方式中，构建感知增强网络，所述感知增强网络包括主干网络和预测网络，具体采用如下方式进行构建；

构建主干网络包括：使用多个残差模块堆叠作为主干网络，主干网络的输出为关节初级特征图；

构建预测网络包括：首先对主干网络输出的各个通道的关节初级特征图进行全局池化，接着使用两层全连接层对不同通道的特征权重进行自动学习，得到与通道个数相同维度的注意力向量，然后将该注意力向量与原始特征图进行相乘，得到通道自注意特征；接着，在负责不同半身检测任务的网络分支上，采用类似的方式利用空间注意力学习机制对特征进行进一步的空间维度的权重分配，使得网络单分支能够更加关注于单个半身的局部空间范围来进行更精确的检测；最后，为了保证人体结构的整体一致性，设计在不同的上下两分支间采用如图4所示的通道降维特征融合操作来对特征进行融合，在不同半身检测任务的网络分支上顺序输出得到两部分热图，以在不同的分支间进行一定的信息流动，提供人体的整体一致性信息和其他补充信息。

预测网络输出包含上下半身的关节检测热图和锚点嵌入热图。本发明提出将不同半身的检测任务在不同的分支进行学习，但对于同一个半身，关节检测热图与锚点嵌入热图的预测共享同一个特征提取分支进行串行的预测输出：在单个半身的预测分支中，首先进行关节检测热图的预测，接着，将该部分输出进行进一步的特征提取，同时与主干网络提取出的原始特征进行融合，用于之后的锚点嵌入热图的检测，最终预测出分别对应于每一类上半身关节(比如，左手腕等)的上半身关节检测热图和上半身锚点嵌入热图以及分别对应于每一类下半身关节(比如右膝盖等)的下半身关节检测热图和下半身锚点嵌入热图。

在一种可能的实现方式中，步骤A2中，计算所述感知增强网络的输出与地面真值标签之间的损失值，具体采用如下公式：

L＝L_关节检测+λL_锚点嵌入

为上半身关节检测热图，C_D为下半身关节地面真值热图，

所述姿态估计过程包括：

步骤B1、将待测试图片进行预处理(比如，放缩至256×256大小)，然后输入所述优化的感知增强网络，预测出分别对应于不同半身的各类关节的上半身关节检测热图

下半身关节检测热图/>

上半身锚点嵌入热图/>

以及下半身锚点嵌入热图/>

步骤B2、使用空间非极大值抑制算法对检测出的上半身关节检测热图以及下半身关节检测热图进行处理，得到所有的关节点候选项；

步骤B3、利用上半身锚点嵌入热图和下半身锚点嵌入热图，将所述关节点候选项一一映射到对应的上半身几何锚点关节或下半身几何锚点关节，实现将关节点候选项分为两组；利用锚点嵌入热图中对应位置的锚点嵌入响应值计算出关节点候选项对应的锚点位置，从而将关节点候选项映射到二维锚点空间中，理想情况下，属于同一人体半身的关节点将被映射到相同的位置；

步骤B4、在锚点空间内对分为两组的关节点候选项分别执行基于贪婪策略的关节推理算法，得到至少一个人体上半身实例和至少一个人体下半身实例(如图像中有2个人，则得到2个人体上半身实例和2个人体下半身实例)；

如图2所示，以单个半身的匹配过程为例，首先利用多个锚点关节实例化多个人体半身实例的初始化关节集合及其锚点位置；

对其余关节按照类别执行依次迭代过程，得到多个人体半身。在单类关节的迭代过程中，依据当前各半身实例的锚点位置在候选关节组中选择距离最近的关节，将该关节加入该半身实例，并对该半身实例的锚点位置利用其包含的关节进行均值更新；

步骤B5、获取所述至少一个人体上半身实例和至少一个人体下半身实例对应的上半身几何锚点关节位置与下半身几何锚点关节位置，然后利用锚点位置进行贪婪匹配，将锚点对的预测值最接近的半身进行匹配，将所述至少一个人体上半身实例与所述至少一个人体下半身实例匹配成人体，得到多人的姿态估计结果，如图5所示。

本发明具有如下优点：通过对人体进行划分并提出基于人体锚点集合的新型多人姿态表示，降低了神经网络模型对检测任务的建模困难；通过结合注意力机制与特征融合策略构建感知增强网络，增强了各子任务内自在特征的独特性学习和子任务间相关特征的整体性学习，能够充分挖掘网络模型的特征提取能力，使网络在不同的分支专注于子任务检测，从而获得更加精确的检测结果，并最终得到精确的人体骨架。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于人体锚点集合与感知增强网络的多人姿态估计方法，其特征在于，包括：感知增强网络构建优化过程和姿态估计过程；

所述感知增强网络构建优化过程包括：

步骤A2、利用多人姿态估计数据集构造上半身关节检测热图、上半身锚点嵌入热图、下半身关节检测热图以及下半身锚点嵌入热图作为训练标签，对所述感知增强网络进行训练，所述多人姿态估计数据集包括多人姿态图片以及关节点地面真值标注；计算所述感知增强网络的输出与所述训练标签之间的损失值，然后利用反向传播方法对感知增强网络的参数进行更新，训练结束后得到优化的感知增强网络；

所述姿态估计过程包括：

步骤B5、根据所述至少一个人体上半身实例和至少一个人体下半身实例对应的上半身几何锚点关节位置与下半身几何锚点关节位置，将所述至少一个人体上半身实例与所述至少一个人体下半身实例匹配成人体，得到姿态估计结果；

所述步骤A1中，构建感知增强网络，所述感知增强网络包括主干网络和预测网络，具体包括：构建主干网络以及构建预测网络；

2.根据权利要求1所述的方法，其特征在于：所述上半身几何锚点关节为胸部关节，所述下半身几何锚点关节为髋部关节，所述方向锚点关节为头部和颈部关节；根据胸部关节确定每一上半身关节的锚点嵌入位置，根据髋部关节确定每一下半身关节的锚点嵌入位置，依靠头部和颈部关节为每一上半身关节或下半身关节提供左右方向信息。

3.根据权利要求1所述的方法，其特征在于：步骤A2中，计算所述感知增强网络的输出与地面真值标签之间的损失值，具体采用如下公式：

L＝L_关节检测+λL_锚点嵌入

为上半身关节检测热图，C_D为下半身关节地面真值热图，/>

为下半身锚点嵌入热图，λ为误差损失函数的平衡因子超参数。/>