CN113128446A

CN113128446A - 一种基于信念图增强网络的人体姿态估计方法

Info

Publication number: CN113128446A
Application number: CN202110471854.8A
Authority: CN
Inventors: 唐杰; 武港山; 张哲�; 唐玉婷; 薛占奎
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-16

Abstract

一种基于信念图增强网络的人体姿态估计方法，构建一个信念图增强网络，对人体姿态估计基础模型输出的信念图提高分辨率；在训练信念图增强网络时，根据训练集中的标注信息生成低分辨率信念图标签和高分辨率信念图标签，低分辨率信念图标签对应基础模型的输出分辨率，高分辨率信念图标签对应信念图增强网络的输出分辨率，训练时利用MESLoss函数分别计算两种分辨率下预测结果与真实标签之间的均方误差，求二者的加权和，并以此推导信念图增强网络各层参数的梯度，使用Adam优化器进行监督训练。本发明能够改善现有人体姿态估计方法中最终输出的信念图分辨率较低的现状，达到提高预测精确度的目的，而且不会带来参数量和浮点运算量上的显著提升。

Description

一种基于信念图增强网络的人体姿态估计方法

技术领域

本发明属于深度学习、计算机视觉和计算机图像理解技术领域，主要涉及人体检测和人体姿态估计，是一种基于信念图增强网络的人体姿态估计方法，用于提高网络模型最终输出的信念图的分辨率从而获得更加精准的预测结果。

背景技术

人体姿态估计(Human Pose Estimation)，又名关键点检测(KeypointDetection)，是一项与图像分类、物体检测、图像语义分割等相并列的计算机视觉任务，也是一项促进和推动计算机视觉领域图像理解方向发展和进步的基础性研究。人体姿态估计的具体含义是指给定一张图像，需要从中得到人体的各个关键点的位置信息。人体的各个关键点实际上指的是包含了五官、肩颈、手肘、手腕、髋跨、膝盖、脚踝等在内的一系列的重要关节点。在获得了人体的这些信息之后，就具备了在一个新的空间中重建人体姿态结构的能力，从而能够促进机器对图像的理解，于是衍生出了一系列的与姿态相关的应用场景，比如：姿态迁移，动作识别，人机交互，姿态追踪，监控安防等等。

自从2014年Tompson和Jain等学者提出使用深度卷积神经网络(DeepConvolutional Neural Network,简称DCNN)来预测人体各个关键点的信念图(BeliefMap)，而不是直接回归其数值坐标，这类方法就一跃成为了解决人体姿态估计问题的最主流的方法。在生成真实标签(Ground-Truth Label)时，每个关键点都会单独占据一个通道的信念图，且以其坐标点为中心生成一个二维高斯分布，为了拟合这个结果，输入图像在经过卷积神经网络处理之后也会生成一组热度图，两组热度图之间的均方误差作为损失函数供网络调整训练。这类方法具有天然的高鲁棒性的优势，最近几年，人体姿态估计领域百花齐放，绝大多数模型的提出采用的都是上述方法。

但是，这些模型往往会涉及到非常深的网络层数，为了避免浮点运算量(FLOPs)过大而导致训练、推理流程速度过慢，网络的设计者们通常会指定输出一个具有固定尺寸的低分辨率信念图，然后提取该信念图中信念值最大的像素点的坐标，再将这个坐标从低分辨率空间映射回原图像所在的高分辨率空间。映射过程中，信念图的分辨率越低，变换之后得到的关键点坐标与真实坐标之间的误差就会越大，反之，信念图的分辨率越高，预测得到的关键点坐标就会越准确。因此，在计算资源受限的场景下，如何得到高分辨率信念图来获取更加精确的姿态估计结果，同时又能尽量避免运算量上的额外负担，是目前亟需解决的问题之一。

发明内容

本发明要解决的问题是：人体姿态估计目前的常用方法是使用DCNN预测人体各个关键点的信念图，为了避免浮点运算量过大而导致训练、推理流程速度过慢，信念图的分辨率往往会比原始图像的分辨率低很多，而为了得到最终的预测结果，需要通过多次映射将信念图变换回原始空间，信念图分辨率越低，映射过程产生的偏差就越大，预测结果就会越不准确。如何在不增加计算量的情况下提高准确性，是一个亟需解决的问题。

本发明的技术方案为：一种基于信念图增强网络的人体姿态估计方法，构建一个信念图增强网络，对人体姿态估计基础模型输出的信念图提高分辨率，信念图增强网络由若干个卷积层和一个亚像素卷积层构成，将基础模型输出的特征图和信念图进行拼接，作为信念图增强网络的输入，输出一组更高分辨率的信念图；在训练信念图增强网络时，根据训练集中的标注信息生成低分辨率信念图标签和高分辨率信念图标签，低分辨率信念图标签对应基础模型的输出分辨率，高分辨率信念图标签对应信念图增强网络的输出分辨率，训练时利用MESLoss函数分别计算两种分辨率下预测结果与真实标签之间的均方误差，求二者的加权和，并以此推导信念图增强网络各层参数的梯度，使用Adam优化器进行监督训练。

进一步的，训练集具体为：生成信念图标签时，对于一个人体样本，首先根据数据集规定的关键点数量K定义一个具有K个通道的全黑图像，即该图像中每个像素点的灰度值都是0，然后按照该样本的标注信息，对于每一个关键点坐标，在上述全黑图像的对应通道处以该坐标点为中心生成一个高斯二维分布，从而得到一个具有K个通道的信念图，若指定信念图增强网络生成的信念图分辨率与原始图像的分辨率不同，则在生成高斯二维分布时将标准差乘上相应的缩放因子。

进一步的，信念图增强网络中，亚像素卷积层的输出通道数由参数k*r²控制。

作为优选方式，对信念图增强网络的训练具体为：根据训练集的不同分辨率的信念图标签，利用MSELoss函数分别计算不同分辨率下的预测损失，然后将两类预测损失按比例比例相加作为网络最终的损失函数，通过最终损失函数的值计算模型中各网络层的参数梯度，使用Adam优化器对其进行监督训练，其中，对信念图增强网络的训练需要150个epoch，训练时的学习率初始化为0.001，分别在第60个epoch和第90个epoch进行一次衰减，学习率衰减后变为原先的十分之一。

进一步的，在训练过程中，还对训练集进行增强操作来提升模型的泛化能力，所述增强操作包括旋转和缩放，其中，旋转操作绕图像中心点以[-40°,+40°]的随机角度进行旋转；缩放操作以[1-0.3,1+0.3]的比例进行缩放。

本发明提出了一种与模型无关(model-agnostic)的高效的信念图增强网络(Belief Map Enhancement Network简称EnhanceNet)，能够改善一般方法中最终输出的信念图分辨率较低的现状，且不会带来参数量和浮点运算量上的显著提升。本发明所谓与模型无关，指的是无论何种方法，只要其网络最终输出的是一组信念图，都可以经过信念图增强网络的处理来得到一组更高分辨率的信念图，从而达到提高精确度的目的。

虽然现有技术中有通过亚像素卷积来提高像素图分辨率的手段，但亚像素卷积无法直接用于信念图的分辨率调整。本发明设计的信念图增强网络提取基础网络的特征图和信念图，通过卷积层的卷积操作对基础模型的两种输出拼接后作进一步的特征提取，再利用亚像素卷积操作的原理对提取的特征进行周期性重排从而得到提高分辨率的信念图。同时，对于本发明新提出的EnhanceNet，本发明设计的训练方法包括了两种标签来保障它训练过程的顺利进行，在EnhanceNet指定的输出分辨率下生成对应的用于监督学习的信念图标签，且生成过程根据缩放因子来平衡分辨率调整的影响。训练过程中以两种分辨率下的均方误差的加权和作为最终的损失函数计算梯度，从而对模型进行优化。这一整套处理流程，包括模型设计、标签生成、损失函数设计，是本发明区别于其它已有方法的关键所在。

本发明的基于信念图增强网络的人体姿态估计方法相比于现有方法优点在于：

1.本发明提供了一种基于信念图增强网络的人体姿态估计方法，能够改善一般方法中最终输出的信念图分辨率较低的现状，从而达到提高预测精确度的目的，而且不会带来参数量和浮点运算量上的显著提升。相比于基础模型，信念图增强网络的参数量只有0.5M，浮点运算量只有大约1.5GFLOPs。

2.本发明具有模型无关性，普适性较强，对于大多数基础模型都适用。只要基础模型最终输出的是一组信念图，都可以经过本发明的处理获得更高分辨率的信念图，从而取得更加精确的预测结果。

3.本发明的预测精度更高，在MPII和COCO两个数据集上都取得了世界领先的成绩。其中，在数据集MPII上，采用DLCM作为基础模型，信念图增强网络取得的成绩为MeanPCKh@0.5＝92.5；在数据集COCO上，采用HRNet作为基础模型，信念图增强网络取得的成绩为AP＝74.9。

附图说明

图1为本发明的流程图。

图2为本发明的人体姿态估计模型结构图。

图3为本发明的模型中涉及到的Periodic Shuffling模块。

具体实施方式

本发明提供了一种基于信念图增强网络的人体姿态估计方法，能够改善一般人体姿态估计模型中最终输出的信念图分辨率较低的现状，从而达到提高预测精确度的目的，而且不会带来参数量和浮点运算量上的显著提升。本发明提供的方法与模型无关(model-agnostic)，即具有较高的适用性，只要采用的基础模型输出的是一组信念图，都可以经过本发明提供的信念图增强网络的处理来得到一组更高分辨率的信念图。不同于一般的网络训练方法，本发明方法在数据预处理阶段除了要生成低分辨率信念图标签之外，还要额外生成高分辨率的信念图标签，共同用于模型的监督训练。人体姿态模型的整体搭建由所选用的基础模型和信念图增强网络组合而成，将基础模型输出的特征图和信念图进行拼接，作为信念图增强网络的输入，信念图增强网络由若干个卷积层和一个亚像素卷积层构成，能够在维持低运算量的前提下输出高分辨率的预测结果。利用MESLoss函数分别计算不同分辨率下预测结果与真实标签之间的均方误差，求二者的加权和，并以此推导网络各层参数的梯度，使用Adam优化器进行监督训练，训练过程在达到一定的迭代次数后自动结束。在使用训练好的模型进行推理测试时，输出的仍然是一组信念图，需要进行额外的后处理才能得到最终的关键点预测结果。后处理过程提取出信念图每个通道中信念值最大的像素点的坐标，然后根据原始图像与信念图之间的尺寸比例计算得到最终的关键点位置。图1展示了本发明的主要流程。

结合附图和具体实施方式对本发明做进一步的详细描述：

步骤1：数据集预处理。本发明所提供的信念图增强网络(EnhanceNet)用于和基础模型搭配使用，预测得到具有更高分辨率的信念图。因此对于整个人体姿态检测模型的训练，在数据集的预处理得到训练集的过程中，除了要生成基础模型所需要的低分辨率信念图标签M^LR，还要生成EnhanceNet所需要的高分辨率信念图标签M^HR。生成信念图标签时，对于一个人体样本，首先会根据规定的关键点数量K定义一个具有K个通道的全黑图像，即该图像中每个像素点的灰度值都是0，K也是人体姿态估计所要求的关键点数量。然后按照该样本的标注信息，对于每一个关键点坐标，在上述全黑图像的对应通道处以该坐标点为中心生成一个高斯二维分布，从而得到一个具有K个通道的信念图，若指定生成的信念图分辨率与原始图像的分辨率不同，则在生成高斯二维分布时需要将标准差乘上相应的缩放因子r。无论是哪种分辨率的信念图标签，都符合一下分布：

M_k(p)～N(p,(rσ)²) (1)

其中p代表的是关键点坐标，M_k(p)表示的是第k个关键点所对应的信念图，N()表示的是高斯二维分布，σ表示的是高斯分布的标准差。通常情况下，生成的信念图分辨率与原始图像分辨率差别越大，由于缩放因子r的影响，高斯二维分布的实际标准差则会越高，信念图中的信念值分布则会相对平坦，反之，生成的信念图分辨率与原始图像分辨率越接近，信念图中的信念值分布则会相对突出，这一操作可以使不同分辨率下的信念图标签都能够具备良好的监督指导能力。

步骤2：人体姿态检测模型的构建与监督训练。如图2所示，模型的构建过程首先需要选择一个合适的基础模型，因为本发明提出的信念图增强网络具有模型无关性，所以只要基础模型输出的是一组信念图则均适配于本发明的方法。对于一张输入图像，经过基础模型的处理之后最终会得到一组低分辨率特征图F^LR和一组低分辨率信念图M^LR*，然后将二者进行简单拼接，作为一个整体成为信念图增强网络的输入。信念图增强网络总共包含了三个网络层，其中前两个均为卷积层，用于将基础模型输出的特征图和信念图做进一步的特征提取，这两个卷积层的输出通道数都是128；第三个是亚像素卷积层(sub-pixelconvolutional layer)，该操作是跨步卷积的一种高效实现，通过执行如图3所示的Periodic Shuffling操作输出高分辨率的结果，同时又能够避免在高分辨率空间进行运算，降低运算量，详见论文《Real-time single image and video super-resolutionusing an efficient sub-pixel convolutional neural network》(Wenzhe Shi,JoseCaballero)。亚像素卷积层的输出通道数由参数k*r²控制，其中k表示关键点的数量也是信念图的通道数，由数据集特点来决定；缩放因子r表示的是放大倍数，因为信念图是二维的，所以此处的放大倍数需要进行平方处理，本发明中参数r设置为4。信念图增强网络所执行的操作可以公式化为以下流程：

(1)对基础模型的输出结果进行拼接。

x＝[F^LR,M^LR*] (2)

(2)两个卷积层操作，用矩阵乘法来表示卷积操作。

(3)亚像素卷积层操作，用PS来表示Periodic Shuffling操作。

信念图增强网络最终输出的结果即为预测的高分辨率信念图M^HR*。

信念图增强网络的训练过程可以和基础模型共同进行，也可以使用预训练好的基础模型，只训练信念图增强网络，二者的训练方式都是一致的。训练过程中会得到两种不同分辨率的信念图预测结果，分别是基础模型的输出结果M^LR*和信念图增强网络的输出结果M^HR*。将步骤1中经过预处理的数据集作为训练集，根据预处理过程中得到的不同分辨率的信念图真实标签M^LR和M^HR，利用MSELoss函数分别计算不同分辨率下的预测损失：

N和K表示训练样本总数和关键点总数。

然后将两类预测损失以1：1的权重等比例相加作为网络最终的损失函数：

通过该损失值计算模型中各网络层的参数梯度，使用Adam优化器对其进行监督训练。在深度学习中训练过程中，通常将遍历一遍训练集称为一个epoch，对信念图增强网络的训练通常需要150个epoch，而训练时的学习率初始化为0.001，分别在第60个epoch和第90个epoch进行一次衰减，学习率衰减后变为原先的十分之一。除此之外，在训练过程中，还需要对数据集进行一定的增强操作来提升模型的泛化能力，这些增强操作包括：旋转和缩放。其中，旋转操作绕图像中心点以[-40°,+40°]的随机角度进行旋转；缩放操作以[1-0.3,1+0.3]的比例进行缩放。

经过步骤1、2得到本发明基于信念图增强网络的人体姿态检测模型，通过下面的步骤3、4进一步验证效果。

步骤3：信念图预测及后处理。使用训练完毕的基础模型和信念图增强网络对验证集或测试集进行预测，在预测时，为了得到更精确的结果，需要对输入图像做水平翻转处理，分别将原始图像和水平翻转后的图像送入网络，得到两组高分辨率信念图预测结果。将水平翻转后的图像对应的信念图再一次进行水平翻转，并与原始图像对应的信念图相加求平均，作为最终的高分辨率信念图预测结果。因为数据集中的真实标签都是数值坐标，因此接下来还需要对信念图做一定的后处理才能够完成预测。首先需要获得原始图像与高分辨率信念图之间的尺寸比例，然后从信念图的每个通道中提取信念值最大的像素点坐标，最后乘以上述尺寸比例即可得到最终的关键点坐标的预测结果。

步骤4：结果评估。在验证集或测试集上完成预测后，需要对预测结果进行一定的评估来判断模型泛化能力的强弱，不同的数据集具有不同的评估标准。对于人体姿态估计任务而言，常用的数据集主要有两个，分别是MPII和COCO。

MPII数据集通常用来做单人人体姿态估计研究，它使用PCKh(head-normalizedPercentage of Corrected Keypoints)作为评价指标，其具体含义是预测得到的关键点与其对应的真实坐标之间归一化距离小于设定阈值的比例。之所以使用坐标之间的归一化距离而不是绝对距离，是因为每个样本的尺度不同，尺度越大，它在同一阈值下能够容忍的误差就越小。MPII使用头部长度作为归一化参考，如果预测得到的某个关键点落在了与它对应的真实坐标α*h个像素范围内，那么就判断该关键点的预测是正确的，其中α是用来控制抖动误差容忍度的阈值，而h则是上述提到的头部长度，这一参数存在于每个样本的标注中。MPII数据集中最常使用的阈值是0.5，即PCKh@0.5。

COCO数据集通常用来做多人人体姿态估计研究，它使用OKS(Object KeypointSimilarity)作为评价指标，OKS的公式可以表示为：

其中，d_i表示预测得到的关键点坐标与真实坐标之间的欧氏距离；sk_i表示的是标准差；v_i表示的是该关键点是否可见，v_i＝0是未标注点，v_i＝1是标注了但该点在图像中不可见，v_i＝2是标注了且该点可见；由公式可知，每个关键点OKS的值域始终落在[0,1]区间内，丝毫没有误差的预测将会得到OKS＝1，预测坐标与真实坐标之间的误差过大将会得到OKS＝0。COCO数据集使用10个不同阈值下的OKS指标(OKS＝.50:.05:.95)的均值AP(Average Precision)作为最终的挑战指标。

本发明提供了一种基于信念图增强网络的人体姿态估计方法，能够改善一般方法中最终输出的信念图分辨率较低的现状，从而达到提高预测精确度的目的，而且不会带来参数量和浮点运算量上的显著提升。相比于基础模型，信念图增强网络的参数量只有0.5M，浮点运算量只有大约1.5GFLOPs。本发明具有模型无关性，普适性较强，对于大多数模型都适用。本发明的预测精度更高，在MPII和COCO两个数据集上都取得了世界领先的成绩。其中，在数据集MPII上，采用DLCM作为基础模型，信念图增强网络取得的成绩为Mean PCKh@0.5＝92.5；在数据集COCO上，采用HRNet作为基础模型，信念图增强网络取得的成绩为AP＝74.9。

Claims

1.一种基于信念图增强网络的人体姿态估计方法，其特征是构建一个信念图增强网络，对人体姿态估计基础模型输出的信念图提高分辨率，信念图增强网络由若干个卷积层和一个亚像素卷积层构成，将基础模型输出的特征图和信念图进行拼接，作为信念图增强网络的输入，输出一组更高分辨率的信念图；在训练信念图增强网络时，根据训练集中的标注信息生成低分辨率信念图标签和高分辨率信念图标签，低分辨率信念图标签对应基础模型的输出分辨率，高分辨率信念图标签对应信念图增强网络的输出分辨率，训练时利用MESLoss函数分别计算两种分辨率下预测结果与真实标签之间的均方误差，求二者的加权和，并以此推导信念图增强网络各层参数的梯度，使用Adam优化器进行监督训练。

2.根据权利要求1所述的一种基于信念图增强网络的人体姿态估计方法，其特征是训练集具体为：生成信念图标签时，对于一个人体样本，首先根据规定的关键点数量K定义一个具有K个通道的全黑图像，即该图像中每个像素点的灰度值都是0，然后按照该样本的标注信息，对于每一个关键点坐标，在上述全黑图像的对应通道处以该坐标点为中心生成一个高斯二维分布，从而得到一个具有K个通道的信念图，若指定信念图增强网络生成的信念图分辨率与原始图像的分辨率不同，则在生成高斯二维分布时将标准差乘上相应的缩放因子r。

3.根据权利要求2所述的一种基于信念图增强网络的人体姿态估计方法，其特征是信念图增强网络中，亚像素卷积层的输出通道数由参数k*r²控制。

4.根据权利要求1或2或3所述的一种基于信念图增强网络的人体姿态估计方法，其特征是对信念图增强网络的训练具体为：根据训练集的不同分辨率的信念图标签，利用MSELoss函数分别计算不同分辨率下的预测损失，然后将两类预测损失按比例相加作为网络最终的损失函数，通过最终损失函数的值计算模型中各网络层的参数梯度，使用Adam优化器对其进行监督训练，其中，对信念图增强网络的训练需要150个epoch，训练时的学习率初始化为0.001，分别在第60个epoch和第90个epoch进行一次衰减，学习率衰减后变为原先的十分之一。

5.根据权利要求4所述的一种基于信念图增强网络的人体姿态估计方法，其特征是在训练过程中，还对训练集进行增强操作来提升模型的泛化能力，所述增强操作包括旋转和缩放，其中，旋转操作绕图像中心点以[-40^°,+40^°]的随机角度进行旋转；缩放操作以[1-0.3,1+0.3]的比例进行缩放。

6.根据权利要求4所述的一种基于信念图增强网络的人体姿态估计方法，其特征是将两类预测损失以1:1的比例相加作为网络最终的损失函数。