CN110443144A

CN110443144A - 一种人体图像关键点姿态估计方法

Info

Publication number: CN110443144A
Application number: CN201910614512.XA
Authority: CN
Inventors: 侯峦轩; 马鑫; 孙哲南; 赫然
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Current assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-11-12

Abstract

本发明公开一种人体图像关键点姿态估计方法。包括步骤：对输入的训练图像预处理，用基于特征金字塔网络的行人检测网络对输入图像进行检测；将检测到的人体形成的边界框进行裁剪，只保留框内图像；将裁剪后图像输入到设计的模型中，进行人体姿态关键点估计。本发明可以将含有人体的输入图像进行关键点生成，并且生成估计处理后的图像中生成的人体关键点具有较高精度，较好保持了人体的骨架几何信息。

Description

一种人体图像关键点姿态估计方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种人体图像关键点姿态估计方法。

背景技术

人体图像关键点姿态估计，是指从一张含有人体的图像中对人体骨架上的关键点进行建模估计，人体关键点一般定义为：踝关节，左膝关节，左臀部，右臀部，左膝关节，左踝关节，右踝关节，上颈部，头顶，右手腕，左肘，左肩，右肩，右肘，左手腕，最后通过训练好的姿态估计模型，对输入图像进行姿态估计，输出为含有人体骨架关键点的图像。

由于人体具有相当柔性，会出现各种姿态和形状，人体任何一个部位的微小变化都会产生一种新的姿态，同时其关键点的可见性受穿着、姿态、视角等影响非常大，而且还面临着遮挡、光照、雾等环境的影响，除此之外，2D人体关键点和3D人体关键点在视觉上会有明显的差异，身体不同部位都会有视觉上缩短的效果(foreshortening)，使得人体骨骼关键点检测成为计算机视觉领域中一个极具挑战性的问题。

现有解决人体图像关键点姿态估计的人体骨骼关键点检测算法基本上是在几何先验的基础上基于模版匹配的思路来进行，核心就在于如何去用模版表示整个人体结构，包括关键点的表示，肢体结构的表示以及不同肢体结构之间的关系的表示。一个好的模版匹配的思路，可模拟更多的姿态范围，以至于能够更好的匹配并检测出对应的人体姿态。

也有人提出了基于深度学习的方法，比如G-RMI,CFN,RMPE,Mask R-CNN。普遍使用卷积神经网络来构建人体关键点姿态估计网络结构，将含有人体图像输入到该网络结构中，进行一系列非线性处理(用来拟合一个复杂的映射函数)得到生成的人体骨架关键点姿态图像，将生成的人体骨架关键点姿态图像与真实的标注的人体固件关键点图像作为损失函数的输入并计算该损失函数的值，求梯度来最小化这个值，并利用反向传播函数将求得的梯度反向传播并更新网络权重的参数，多次迭代直到该损失函数不变为止。

由于技术的进一步的发明以及高质量高精确度的人体骨架关键点图像对用户的体验和市场的竞争都具有重要的意义。而现有的人体图像关键点姿态估计生成质量不能满足要求，且不确定性比较大。因此，对人体图像关键点姿态估计方法进行一步改进，是很有必要的。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种融合空洞卷积(Dilated conv)的级联金字塔的深度神经网络的人体图像关键点姿态估计方法，以提高人体图像关键点姿态估计生成质量，降低不确定性。

为实现本发明的目的所采用的技术方案是：

一种人体图像关键点姿态估计方法，包括以下步骤：

步骤S1.将图像数据库中的图像数据预处理：

首先，将原始图像送入已经训练好的特征金字塔网络FPN检测，只输出人体用边界框标记的人体图像；然后将输出的人体图像裁剪，形成预定格式大小；

步骤S2.通过训练得到能够对人体图像进行姿态估计得到人体固件关键点图像的深度网络模型：

利用步骤S1中已经裁剪完成的人体图像作为网络的输入，以训练集中的json文件作为人体关键点标注信息像作为GroundTruth，训练深度神经网络模型中的全局网络和矫正网络，获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型；

其中，通过全局网络对输入的人体图像处理，得到不同尺寸的特征图，采用自底向上的U-Shape的结构，与真实的标注的骨架关键点图像进行L₂损失的计算，通过全局网络得到不同尺度的特征图输出，然后通过Dilated Bottleneck和上采样操作，对不同尺度的特征图进行concat操作后，进行L₂损失的计算，模型迭代多次达到稳定后，完成模型的训练。

步骤S3.使用训练好的深度神经网络模型，对测试数据集中的图像进行姿态估计处理。

本发明使用全局网络和矫正网络两个网络分别定位关键点和对关键点进行修正，并采用L₂损失函数，提高了生成关键点的进度和减小了不确定性，使用的以DilatedBottleneck的矫正网络结构可以提高模型的感受野。

本发明全局网络通过使用残差网络ResNet50结构作为骨干网络，提高了模型容量和加快训练速度。

本发明通过融合空洞卷积(Dilated conv)的人体图像关键点姿态估计模型，可以生成在感知上效果非常好的人体骨架关键点图像。借助提出的融合空洞卷积(Dilatedconv)的深度神经网络的人体图像关键点姿态估计模型，使用残差网络作为构建模型的基础，结合了级联金字塔结构，特别是Dilated Bottleneck，使得模型的感受野更大，效果更好，并且泛化能力更强。

附图说明

图1是本发明在测试数据集中的一张人体图像上的测试结果，左边是输入人体图像，中间是Ground Truth，右边是模型生成的人体骨架关键点图像。

图2是本发明中融合空洞卷积的神经网络的人体图像关键点姿态估计方法流程图。

图3所示为ResNet50网络的处理过程图。

图4所示为全局网络结构图。

图5所示为全局网络中加和操作的局部示意图。

图6为本发明的整体网络结构图。

图7-8所示分别为Dilated Bottleneck与Bottleneck结构图。

图9为本发明的加入矫正网络后的整体结构图。

图10为本发明的空洞卷积(Dilated conv)的卷积示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的人体图像关键点姿态估计方法，包括以下几个步骤：

步骤S1，先对训练数据集中的图像使用特征金字塔网络(FPN)进行目标检测，并对所有类别框只保留人体类的边界框，进行裁剪操作，生成对应大小为384*288的人体图像，然后使用数据集中的人体姿态关键点标注信息json文件，并调用COCO api作为对应人体的标注信息，以加快I/O的读取速度。

其中，目标检测网络采用特征金字塔网络(FPN)并将网络中的ROIPooling替换为ROIAlign，并且目标检测网络训练运用到了COCO数据集的所有80个类别，最后选取了人体类别进行输出(输出图像形式为图像中将人体用边界框进行标记)。

另外，裁剪操作是指，对含有人体边界框的图像中的边界框区域，将框进行扩展到固定宽高比，然后进行裁剪，随后进行数据增强等操作，如随机翻转、随机旋转、随机尺度等操作。

进一步的说，所有训练步骤中，数据集采用MSCOCO训练数据集(包括57K张图像和150K张含有人体实例图像)，在步骤S1中，通过检测器网络(FPN+ROIAlign)检测后，对于所有检测的边界框，只采用人体边界框(即在所有实验中仅使用所有类的前100个框中的人类类别的边界框)，并对人体边界框扩展到固定宽高比hight:weight＝384:288，对应的将裁剪图像的大小调整为默认高度384像素和宽度288像素，其后对应的数据增强策略，对于裁剪过后的图像采用随机旋转(角度为-45°～+45°)以及随机尺度(0.7～1.35)，并将对应图片的标注信息(json文件包含人体边界框和关键点位置)作为GroundTruth。

步骤S2，利用所述训练输入数据，训练融合空洞卷积(Dilated conv)的神经网络的人体图像关键点姿态估计模型，以用来完成人体图像的关键点姿态估计任务。

本步骤S2中，主要是利用步骤S1中的裁剪好的含有人体的图像和对应人体骨架关键点的标注信息为网络的输入，含有标注的人体固骨架关键点(形式为json文件，17个关键点分别用xy轴坐标形式标出)作为GroundTruth，训练深度模型中的人体关键点估计网络，完成从人体输入图像到输出人体固件关键点图像的任务。具体地，将检测网络检测到的人体图像裁剪完成后，通过ResNet50作为骨干网提取特征图，并且我们分别将不同conv特征的最后一个残差块表示为C₂C₃C₄C₅，再采用U形结构将每一层特征图进行自底向上加和，并对每次加和后生成的不同尺度特征图生成热力图采用L₂损失函数计算，得到人体关键点。

其中，在全局网络中利用卷积神经网络结构ResNet50先进行特征提取，并且采用U-Shape结构对特征图进行上采样和加和sum的操作再进行操作来保持生成特征图的大小和上一层残差层形成的特征图尺度一样。

在这一实例中，全局网络中包含4个残差块。残差块具体结构为卷积神经网络，包括归一化层，激活层，卷积层；其中卷积层滤波器大小，步长，填充分别为3*3,1,1。残差层输入与输出之间有前传连接。卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置，并且使用卷积层滤波器大小，步长，填充分别为3*3,1,1去从特征图生成对应的热力图。

同理，残差块的个数也可以根据实际情况进行选择设置。在全局网络中，输入为真实人体图像x和GroundTruth真实人体骨架姿态关键点图像y，网络结构为在ImageNet数据集上预训练过的ResNet-50，

该步骤中，利用裁剪过后的人体图像(384*288)作为模型输入，输入到ResNet50的骨干网中，在通过7*7通道数＝64，padding＝3，stride＝2的卷积核，输出为192*144*64的特征图，后进行MAX pooling，其中池化核大小为3*3padding＝0，stride＝2，输出为96*72*64的特征图。

将生成的96*72*64特征图依次通过4个残差快C₂C₃C₄C₅，每个残差块对应输出为96*72*256，48*36*512，24*18*1024，12*9*2014。如图3所示。

下一层残差块(i＝5,4,3,2)做进行1*1卷积操作后上采样后与上一层(i＝5,4,3,2)进行加和操作后，进行predict操作，其中用L₂损失约束，流程如下:

与真实标注的人体骨架姿态关键点图像的热力图进行L₂损失的计算。

本发明中，所述的Predict操作为，每一层叠加之后的特征图进行1*1conv的卷积之后再进行3*3的卷积生成17个feature map(17个关键点的热力图，采用MSCOCO数据集其中人体关键点数量为17)，作为predict参与训练。

其中，生成网络的损失函数为：

L₂＝E_{x，y～P(X，Y)}||F_generate(x)-y||₂，

其中，x为输入图像，y为GroundTruth对应的热力图，全局网络网络的输出为且其中F_generator为全局网络每个残差块对应输出的17个feature map(关键点的热力图))。

接着将全局网络的输出作为矫正网络的输入，即将全局网络的四个残差快产生的C₂C₃C₄C₅对应的4个尺度的特征图96*72*256，48*36*512，24*18*1024，12*9*2014，通过不同数量的Dilated Bottleneck和Bottleneck，的Dilated Bottleneck和Bottleneck的结构如图7-8，操作如下：

C₅

+1*Dilated Bottleneck+1*Bottleneck+1*Dilated Bottleneck+unsample*8

C₄+2*Dilated Bottleneck+unsample*4

C₃+1*Dilated Bottleneck+unsample*2

上述的矫正网络的处理具体的如图9所示，图9中，方框代表矫正网络，立方体代表残差快输出的特征图，圆形代表定义的sum加和操作，bottle代表定义的DilatedBottleneck。而且将全局网络中的每一层加和后的特征图，通过采用的DilatedBottleneck后，分别进行上采样，然后进行concat操作后通过Bottleneck，同样采L₂损失约束，随后通过3*3conv的卷积进行热力图生成。

需要说明的是，本发明中，将步骤S2生成的各个尺度特征图，送入矫正网络中，采用各个尺度特征图图加和的方式，加和完成后的热力图，最后采用L_2损失函数计算，即可得到更为精确的人体关键点。

之后，使用训练好的深度神经网络模型，对测试数据集中的含有人体的图像进行人体关键点估计。

需要说明的是，本发明中，在矫正网络中分别采用Dilated Bottleneck和Bottleneck时，对于不同层，采用数量不一的搭配。

其中，Dilated Bottleneck是将普通Bottleneck中的3*3conv卷积替换成了3*3dilated系数为2的空洞卷积(Dilated conv)，如图7-8所示。

下面对空洞卷积(Dilated conv)说明。参见图11所示，其中左侧的图代表普通3*3conv卷积，中间图代表dilated系数为2的空洞卷积(Dilated conv)，右侧图代表dilated系数为4的空洞卷积(Dilated conv)，实际的卷积kernel size还是3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个点和3x3的kernel发生卷积操作，其余的点略过。

也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7(如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话，那么每个点就是1-dilated的卷积输出，所以感受野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的conv),右侧图是4-dilated conv操作，同理跟在两个1-dilated和2-dilated conv的后面，能达到15x15的感受野。对比传统的conv操作，3层3x3的卷积加起来，stride为1的话，只能达到(kernel-1)*layer+1＝7的感受野，也就是和层数layer成线性关系，而dilated conv的感受野是指数级的增长。

本发明是利用卷积神经网络的高度非线性拟合能力，针对人体图像姿态估计任务，构造以人体图像作为输入的神经网络。特别的，神经网络通过外加的DilatedBottleneck，形成融合空洞卷积的神经网络。这样，通过如图2所示的网络，利用空洞卷积网络可训练一个具有良好感知效果的图人体骨架关键点姿态估计模型。在测试阶段，使用测试集中的图像作为模型的输入，得到生成的效果图，如图1所示。

需要说明的是，本发明中所提出的融合空洞卷积的神经网络的人体图像关键点姿态估计模型包含两个子网，分别是全局网络，矫正网络，整个模型的目标函数为L₂。在完成人体图像姿态估计时，整个模型的最终目标函数为L₂损失函数，能降低至最低且保持稳定。

为了详细说明本发明的具体实施方式及验证本发明的有效性，将本发明提出的方法应用于一个公开的数据集中训练。该数据库包含一些自然场景的照片，比如花，树等等。选择该数据集的全部图像作为训练数据集，先对训练数据集中的所有图像使用训练好的特征金字塔网络(FPN)进行目标检测，只输出人体类别边界框，生成对应的裁剪完成的人体图像，并且利用数据集中标注好的人体关键点坐标信息json文件，作为模型的输入，利用梯度反传训练全局网络和矫正网络，直到最后网络收敛，得到人体骨架关键点姿态估计模型。

为了测试该模型的有效性，对输入图像进行处理，可视化结果如图1所示。在实验中，通过与GroundTruth真实图像进行了对比，实验的结果如图1所示。该实施例有效证明了本发明所提出方法对图像超分辨率的有效性。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人体图像关键点姿态估计方法，其特征在于，包括以下步骤：

步骤S1.将图像数据库中的图像数据预处理：

首先，将原始图像送入已经训练好的特征金字塔网络FPN检测，只输出人体用边界框标记的人体图像；然后将输出的人体图像裁剪，形成预定格式大小，然后进行增强处理；

步骤S2.通过训练得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型：

利用步骤S1中已裁剪完的人体图像作为网络的输入，以训练集中的用xy轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth，训练深度神经网络模型中的全局网络和矫正网络，获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型；

其中，通过全局网络的ResNet50网络对输入的人体图像处理，得到不同尺寸的特征图输出，采用自底向上的U-Shape结构，将每一层特征图进行自底向上做采样后进行加和后，进行预测操作，其中，用与GroudTruth进行L₂损失函数计算以进行损失约束；通过预测操作进行预定卷积步骤处理后，生成不同关键点的热力图，从而得到初始人体关键点；

将全局网络中每一层加和的特征图，通过Dilated Bottleneck后分别进行上采样，然后进行concat操作后通过Bottleneck，并采用L₂损失约束，随后通过卷积进行热力图生成，修正初始的人体关键点，得到最终的人体关键点；模型迭代多次达到稳定后，完成模型的训练；

步骤S3.使用训练好的深度神经网络模型，对测试数据集中的包含人体的图像进行姿态估计处理。

2.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述特征金字塔网络FPN中的ROIPooling替换为ROIAlign。

3.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述增强处理包括随机翻转、随机旋转、随机尺度。

4.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述通过全局网络的ResNet50网络对输入的人体图像处理，得到不同尺寸的特征图输出的步骤包括以下步骤：

使用标准高斯分布随机初始化ResNet50网络；

将人体图像输入到包括四个残差块的ResNet50网络中，并且分别将不同conv特征的最后一个残差块表示为C₂C₃C₄C₅，

其中，C₂通道数为64，C₃通道数为128，C₄通道数为256，C₅通道数为512，并且在每个残差快C₂C₃C₄C₅后添加卷积核1*1的卷积，并连接BN层和ReLU，使得特征通道数均为256，得到不同层的残差块定义为从而获得不同的尺寸的特征图输出。

5.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述的深度神经网络模型的目标函数采用损失函数L₂为：

L₂＝E_x,y～P(X,Y)||F_generate(x)-y||₂

其中，x为输入的真实人体图像，y为GroundTruth对应的热力图，F_generator为全局网络每个残差块对应输出的多个关键点的热力图，其中E代表L2范数在P(X,Y)分布下的数学期望，并且P(X,Y)为概率密度函数。