CN110135375A

CN110135375A - 基于全局信息整合的多人姿态估计方法

Info

Publication number: CN110135375A
Application number: CN201910421468.0A
Authority: CN
Inventors: 田佳豪; 乔会翔; 雷蕾; 王敏杰; 张加焕; 肖江剑
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2019-08-16
Anticipated expiration: 2039-05-20
Also published as: CN110135375B

Abstract

本发明公开了一种基于全局信息整合的多人姿态估计方法，包括：对输入图像进行前期处理；经过人体检测器生成一组人体边界框，将获得的人体边界框输入“特征编码+姿态解码”模块中进行模型训练；依次预测每个人的关键点的定位，生成多个关键点热图，以表示每个关键点的位置置信度；最后，通过姿态非极大值抑制模块消除冗余的姿态估计以得到最终的人体姿态。本发明所提出的一种基于全局信息整合的多人姿态估计方法，通过结合不同归一化策略与多层信息融合可以显著提高多人姿态估计的精度，采用超边几何约束策略能够有效减少误连接，能够有效地改善在尺度变化，遮挡和复杂的多人场景中遇到困难的姿态估计方法。

Description

基于全局信息整合的多人姿态估计方法

技术领域

本发明涉及一种多人姿态方法，特别涉及一种基于全局信息整合的多人姿态估计方法，属于图像处理技术领域。

背景技术

试图让计算机具备自动理解图像或者视频序列中蕴含的人体行为信息的能力一直都是众多机器学习相关领域研究的热点问题。人体姿态估计是这些任务的重要基础，在行为识别、人机交互、人类重新识别、影音娱乐等领域均有广泛的应用。人体姿势估计是指从图像中定位身体关键点(头部，肩部，肘部，手腕，膝盖，脚踝等)，通过图像分析来确定不同人体部位在图片中的位置和方向等定位信息的过程，是人体动作行为识别与分析的基础。我们关注单张图片中的多人姿态估计问题。由于自然图片中的背景与光照、人体外观特征和姿势结构的复杂多变性，该任务面临诸多挑战，当场景推广到多人时，问题进一步复杂化。

在这项工作中，我们主要关注基于卷积神经网络的方法，由于卷积神经网络可以从大数据中自动学习抽象特征，相比传统人体姿态估计算法中采用的手工设计的特征，它有更强的表达和区分能力，能更准确地表征真实人体外观特征，而且卷积神经网络模型还具有很强的非线性映射能力，可以更加有效地实现从图像特征到人体姿态的映射。

现有多人姿态估计现阶段有两种常用的方法：基于部分框架标记出候选的部分检测并且将它们和每个个体关联起来，然后根据部件组队的得分高低判断组合方式。两步框架借助现有的用于单人姿势判断的技术，先检测人，然后对每一个人进行姿态估计，这两步分别进行。两种方法各有优缺点，前者需要进行匹配算法，虽然能达到实时，但精度不高；后者姿态估计的精度在很大程度上取决于检测到的边界框的质量，并且人数越多，计算成本越大，但精度比基于部分框架的高。

由于自然图片的复杂多变，人体姿态估计面临着诸多的挑战：对于背景复杂或光照条件弱的待处理图片，人体与背景的外观相似性可能较高；不同人体同一部位的外观特征经常有较大的不同，其原因主要在于不同图片光照条件不同、不同人体着装和体型不同以及运动模型不同等；人体部位外观可能并不完整，产生原因主要是人体部位间的相互遮挡或被其他物体遮挡；部位搜索空间过于巨大，这是因为在没有任何先验的情况下人体部位可能位于图片的任何区域和角度；复杂度随着实时人数的增加而提升。

发明内容

针对具有多个实例的单帧图像，本发明采用两步框架实现多人姿态估计，结合不同归一化策略与多层信息融合以提高多人姿态估计的精度，采用超边几何约束策略以减少误连接，从而有效地改善在尺度变化，遮挡和复杂的多人场景中遇到困难的姿态估计方法。

为实现前述发明目的，本发明采用两步框架实现多人姿态估计，首先，输入一张尺寸为W×H×3(宽×高×3，3为图片通道数)的图像，将其大小调整为卷积神经网络的输入大小，经过人体检测器生成一组人体边界框，获得的人体边界框被输入“特征编码(FEM)+姿态解码(PPM)”模块，依次预测每个人的关键点的定位，生成k个尺寸为W’×H’(分别为热图的宽和高，本发明中分别将其设为W/4，H/4)的热图，来表示每个关键点(如人体的五官、肩、肘、腕、髋、膝、踝)的位置置信度，位置置信度可以看作是每个关键点的得分。人体探测器不可避免地产生冗余检测，这反过来产生冗余的姿态估计，因此，需要姿态非极大值抑制(NMS)来消除冗余，顾名思义就是抑制不是极大值的元素，可以理解为局部最大搜索。首先，选择得分最高的姿势作为参考，并且通过应用消除标准来消除接近它的一些姿势。对剩余姿势设置重复该过程，直到消除冗余姿势并且仅报告唯一姿势，从而得到最终的人体姿态。

具体包括以下步骤：

步骤一：输入图像数据，将该图像数据的大小调整为卷积神经网络的输入大小；

步骤二：经过人体检测器生成一组人体边界框，将获得的人体边界框输入姿态卷积神经网络进行模型训练，所述的姿态卷积神经网络结构包括基于全局信息提取的特征编码模块和基于全局信息提取的姿态解码模块；

步骤三：依次预测每个人的关键点的定位，生成多个关键点热图，所述关键点热图用于表示每个关键点的位置置信度，所述位置置信度表示每个关键点的得分；

步骤四：通过姿态非极大值抑制模块消除冗余的姿态估计，具体包括：选择得分最高的姿势作为参考，通过应用消除标准来消除接近它的一些姿势；对剩余姿势设置重复该过程，直到消除冗余姿势并且仅报告唯一姿势，得到最终的人体姿态。

优选地，所述关键点包括：人体的五官、肩、肘、腕、髋、膝、踝。

优选地，所述基于全局信息提取的特征编码模块基于残差网络，并引入实例归一化策略，使得在特征提取中更专注于人体实例，图像目标特征的注意力更高；首先使用卷积-池化操作从图片中提取出低层次特征，包括：轮廓；之后的1到4层网络基于之前提取更高一些的语义特征，包括：五官，人体各个肢体部件。

优选地，所述基于全局信息提取的姿态解码模块基于下采样得到的语义信息，采用三种不同的上采样方法，包括：子像素卷积、上采样、反卷积层进行关键点回归，每进行一次上采样，目标关键点的回归热图精度更高，感受野的范围越大；除此之外，融合多尺度关键点回归策略，结合人体上下文信息在最后一个卷积操作后得到人体所需要的关键点。

优选地，经过人体检测器生成一组人体边界框之后，在测试期间，对检测到的人体边界沿高度和宽度方向延伸30％使人体实例处于边界框的中心位置，再将其输入姿态卷积神经网络中。

优选地，所述的基于全局信息整合的多人姿态估计方法，还包括：将人体连接的先验知识加入网络，用于提高连接精度；使用超边几何约束来模拟人类骨骼结构，用于提高当前深度网络在建模结构先验中的能力，以进行姿态估计，具体包括：引入人类骨骼图，考虑到多个关键点的连通性，包括连接关键点的三联体，根据人类骨骼图凭经验确定结构上连接的关键点列表，以此获得超边几何图，可以更好地捕获人体中关键点的物理连通性以获得结构先验；根据人体部位的连通性和结构明确匹配连接的关键点对。

与现有技术相比，本发明的优点包括：(1)通过结合不同归一化策略与多层信息融合可以显著提高多人姿态估计的精度；(2)为了更好的得到连接的姿势，我们设计了基于先验知识的人体姿态估计的算法，本发明中采用超边几何约束策略能够有效减少误连接。(3)采用本发明的技术方案能够有效地改善在尺度变化，遮挡和复杂的多人场景中遇到困难的姿态估计方法。

附图说明

图1是本发明一典型实施案例中提出的进行多人姿态估计的主要工作流程；

图2是本发明一典型实施案例中提出的人体姿态估计的框架原理图；

图3是本发明一典型实施案例中提出的集合实例归一化与批量归一化的合成块；

图4是本发明一典型实施案例中提出的人体关键点定位图；

图5是本发明一典型实施案例中在数据集验证的精确回忆曲线在所有，大和中等尺度上的设置；

图6是本发明一典型实施案例中提出的模型在数据集上预测的结果。

具体实施方式

鉴于现有技术中的不足，本案发明人经长期研究和大量实践，得以提出本发明的技术方案。如下将对该技术方案、其实施过程及原理等作进一步的解释说明。

由于进行深度卷积神经网络实验所采用的数据集较大，需要将图片大小裁剪成卷积神经网络的输入大小，然后输入“特征编码(FEM)+姿态解码(PPM)”中进行模型训练。图1显示了进行人体姿态估计的主要工作流程(其下部分为输出的每个关节点的置信度图以及整合之后的姿势图，最后会将姿势图渲染到原图上)。

整个发明方法的主要步骤如下：

1)图像前期处理

在两步框架中，人体检测框的精度对于多人姿态估计至关重要。我们采用目前最先进的目标检测器yolov3来生成人体检测框，yolov3是一个轻量级目标检测器，可以在保证精度要求的前提下达到实时，只使用标记的COCO数据训练，没有额外的数据，也没有针对人的特定训练。

如图1所示，一张含有多个人员实例的图片，经过裁剪与人体检测器生成符合尺寸要求的人体边界框提议，为了更好的达到后期人体姿态预测模块的精度要求，我们对检测的人体边界框进行改善。在测试期间，对检测到的人类边界沿高度和宽度方向延伸30％使人体实例处于边界框的中心位置，将其输入姿态卷积神经网络(FEM+PPM)中。

2)基于全局信息提取的特征编码

在完成图像前期处理后，我们获得了良好的人体边界框提议，并可以此作为输入进行下一步的人体姿态估计。我们设计了一种基于全局信息提取的新型网络结构，包含两个部分：特征编码与姿态解析。基于全局信息整合的图像特征编码模块学习图像中良好的特征，包括特定于实例的对外观不变的信息，如颜色，样式等。我们的姿态解析模块基于全局信息整合很好的解决了人体关节的定位问题，从而进行人体姿态估计。其原理如图2所示。图2示出了人体姿态估计的框架原理，它可以有效地提取人体特征，并通过多尺度回归人体关键点进行姿态解码。

我们的特征编码网络基于残差网络，随着网络深度的增加，它的训练精度不会下降。我们使用101层残差网络，与之不同的是在特征归一化方面作了修改，不同于之前的仅仅采用批量归一化，我们引入实例归一化策略，使得在特征提取中更专注于人体实例，图像目标特征的注意力更高。首先使用卷积-池化操作从图片中提取出低层次特征，如轮廓，之后的1到4层基于之前提取更高一些的语义特征，如，五官，人体各个肢体部件。随着层数的增加，语义信息更加明显。

我们的网络结构基于最常用的图像特征提取骨干网络ResNet，加入特征编码子网络，采用与之前网络不同的归一化策略，提取更加详尽的图像特征，以预测更加精准的关键点位置。

我们提出了一种新颖的卷积结构，它可以学习捕捉和消除外观变化，同时保持对学习特征的区分。

姿态估计的现有网络是通过批量归一化对一个批次里所有的图片的所有像素求均值和标准差，其特征规范方法执行以下计算：

其中，x是由层计算的特征，i是索引。在一张RGB图像中，i是以(N，C，H，W)为顺序索引特征的4D向量，其中，N是含有T张图像的批轴，C是特征通道轴，H和W是跨越空间维度的高度和宽度轴。公式(1)中的μ和σ是由下式计算的平均值和标准差：

其中，ε是一个小常数，S_i是计算均值和标准差的像素集合，m是该集合的大小。批量归一化共享相同通道索引的像素被一起归一化，即，对于每个通道，批量归一化沿(N，H，W)轴计算μ和σ。实例归一化的特征规范方法与(1)式相同，不同的是μ和σ的计算为：

将实例规范化(IN)和批量规范化(BN)集成为构建块，从而增强其学习和泛化能力。它具有以前深层架构所没有的两个吸引人的好处。首先，与先前隔离IN和BN的CNN结构不同，FEN(特征编码网络)通过深入研究他们的学习特征来统一它们。以适当的方式组合它们可以提高学习和泛化能力。其次，我们的FEN保持浅层的IN和BN特征以及更高层的BN特征，继承了网络不同深度下特征偏差的统计特性。如图3所示，为了保留浅层中的图像内容信息，我们将原始BN层替换为IN以获得一半的特征，将BN替换为另一半。这些产生了我们的特征编码模块。图3示出了集合实例归一化与批量归一化的合成块，位于特征提取的各个层级。我们的网络基于残差单元，之所以这样是因为残差学习相比原始特征直接学习更容易。当残差为0时，此时堆积层仅仅做了恒等映射，至少网络性能不会下降，实际上残差不会为0，这也会使得堆积层在输入特征基础上学习到新的特征，从而拥有更好的性能。通过使用1x1卷积来巧妙地缩减或扩张特征图维度从而使得我们的3x3卷积的过滤器数目不受外界即上一层输入的影响，自然它的输出也不会影响到下一层。

3)基于全局信息提取的姿态解码

每次进行下采样操作时，我们将通道数量增加一倍，这可以有效地减少信息丢失。此外，计算能力主要分配给下采样单元而不是上采样单元。这是合理的，因为我们的目标是在下采样过程中提取更具代表性的特征(如我们所需要的人体关节点的特征信息)，并且在上采样过程中很难恢复丢失的信息(因为在下采样过程中不可避免的将会丢失一些信息，这是因为在池化过程像素的平均或最大取值，这些信息很难在上采样中恢复)。因此，增加下采样单元的容量更加有效。

基于之前下采样得到的语义信息，采用三种不同的上采样方法(子像素卷积，上采样，反卷积层)进行关键点回归，每进行一次上采样，目标关键点的回归热图精度更高，感受野的范围越大；除此之外，融合多尺度(2×，4×，8×)关键点回归策略，结合人体上下文信息在最后一个卷积操作后得到人体所需要的17个关键点。

我们设计的姿态解码网络放在下采样特征提取后面，采用更加简单的上采样方法，在Resnet的最后一层后添加三种不同的上采样方式，如图3所示，由PixelShuffle(子像素卷积)进行特征分辨率转换；由卷积、批量标准化、ReLU(线性修正)激活和PixelShuffle构成的上采样层；以及由转置卷积、批量标准化和ReLU激活组合的反卷积层，共同组成为我们的姿态解码码特征聚合方法。最后添加3×3卷积层以生成所有k个关键点的预测热图。每进行一次上采样操作，我们将特征通道数减少一半，以保证在通道上特征的有效注意力。如图4所示，采用我们的网络进行姿态估计，与之前的网络相比，它极大地促进了关键点定位并显着改善了结果。

我们简单地从最后一个交换单元输出的高分辨率表示中回归热图，这在经验上很有效。我们描述了用于训练姿态估计的损失函数L。损失L是通过对所有关键点的热图的L2损耗求和来定义的。为了检测k＝17个关键点，在最后一个卷积后生成k个热图。除此之外，我们将输出层的前几层信息进行提取，将来自不同阶段的图像特征融合生成结果。通过融合多个关键点热图来确定姿势输出，从而执行全局关键点回归。第i个等级的损失将所有关键点的预测热图与匹配等级的地面真实热图进行比较：

其中，S_p(x，y)和S_g(x，y)分别表示第n个关键点的像素位置(x，y)处的预测和真实置信图。与之前真实实例热图生成的做法相同，其中第k个关键点地面实例热图S_p(x，y)是使用以关键点位置为中心的2D高斯生成的(x，y)，标准偏差为1像素。图1显示了一些关键点的预测热图。我们使用非极大值抑制获得了最终建议，阈值为0.6。

4)超边几何约束策略

为了进一步降低人员的错误连接，本发明还将人体连接的先验知识加入网络，实现对连接精度的提高。我们设计了一个超边几何约束来模拟人类骨骼结构。具体而言，我们引入了人类骨骼图，以往的方法只是局限于两个人体关键点之间的连接，我们策略不局限于此，考虑到多个关键点的连通性，包括连接关键点的三联体，例如，髋-膝-踝，肩-肘-腕在所有情况下，根据人类骨骼图凭经验确定结构上连接的关键点列表，以此获得超边几何图，可以更好地捕获人体中关键点的物理连通性以获得结构先验。

根据人体部位的连通性和结构明确匹配连接的关键点对。例如，当肘部和下臂可见时，在肘关节腕部的推断中可以利用从肘部到下臂和到腕部的连接。我们设计的超边几何约束策略旨在提高当前深度网络在建模结构先验中的能力，以进行姿态估计。这种策略改进了复杂或拥挤场景中被遮挡关键点的估计。

本发明的关键点：

本发明通过结合不同归一化策略与多层信息融合可以显著提高多人姿态估计的精度。为了更好的得到连接的姿势，我们设计了基于先验知识的人体姿态估计的算法，在本发明中采用超边几何约束策略能够有效减少误连接。我们的方法可以有效地改善在尺度变化，遮挡和复杂的多人场景中遇到困难的姿态估计方法。

本发明的效果：

图4比较了预测的关键点热图的结果，可以明显看到性能的改进。图4示出了人体关键点定位，左图为堆叠沙漏网络预测的姿态及关键点热图，右图是采用本发明所提出的方法改进后的结果。

图5示出了COCO验证的精确回忆曲线在所有，大和中等尺度上的设置。采用本发明所提出的方法生成的一些姿势估计结果如图6所示，可以看到本发明所提出的框架处理人群和遮挡情况以及有效地挑战姿势。图6示出了本发明所提出的模型在COCO数据集上预测的一些结果：包含视点和外观变化，遮挡，多个人和常见的成像实例。

对于上述技术方案中未作具体介绍的技术内容，可以通过现有技术实现。

应当理解，上述实施例仅为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于全局信息整合的多人姿态估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于全局信息整合的多人姿态估计方法，其特征在于，所述关键点包括：人体的五官、肩、肘、腕、髋、膝、踝。

3.根据权利要求1所述的基于全局信息整合的多人姿态估计方法，其特征在于，所述基于全局信息提取的特征编码模块基于残差网络，并引入实例归一化策略，使得在特征提取中更专注于人体实例，图像目标特征的注意力更高；首先使用卷积-池化操作从图片中提取出低层次特征，包括：轮廓；之后的1到4层网络基于之前提取更高一些的语义特征，包括：五官，人体各个肢体部件。

4.根据权利要求3所述的基于全局信息整合的多人姿态估计方法，其特征在于，所述基于全局信息提取的姿态解码模块基于下采样得到的语义信息，采用三种不同的上采样方法，包括：子像素卷积、上采样、反卷积层进行关键点回归，每进行一次上采样，目标关键点的回归热图精度更高，感受野的范围越大；除此之外，融合多尺度关键点回归策略，结合人体上下文信息在最后一个卷积操作后得到人体所需要的关键点。

5.根据权利要求1所述的基于全局信息整合的多人姿态估计方法，其特征在于，经过人体检测器生成一组人体边界框之后，在测试期间，对检测到的人体边界沿高度和宽度方向延伸30％使人体实例处于边界框的中心位置，再将其输入姿态卷积神经网络中。

6.根据权利要求1所述的基于全局信息整合的多人姿态估计方法，其特征在于，还包括：将人体连接的先验知识加入网络，用于提高连接精度；使用超边几何约束来模拟人类骨骼结构，用于提高当前深度网络在建模结构先验中的能力，以进行姿态估计，具体包括：引入人类骨骼图，考虑到多个关键点的连通性，包括连接关键点的三联体，根据人类骨骼图凭经验确定结构上连接的关键点列表，以此获得超边几何图，可以更好地捕获人体中关键点的物理连通性以获得结构先验；根据人体部位的连通性和结构明确匹配连接的关键点对。