CN111160085A

CN111160085A - 一种人体图像关键点姿态估计方法

Info

Publication number: CN111160085A
Application number: CN201911135090.4A
Authority: CN
Inventors: 孙哲南; 赫然; 侯峦轩; 马鑫
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-05-15

Abstract

本发明公开一种人体图像关键点姿态估计方法，包括以下步骤：首先将图像送入基于空洞卷积的特征金字塔网络DetectionNet进行图像检测，只输出人体用边界框标记的人体图像；然后裁剪成预定格式大小，并进行数据增强处理，形成训练数据；然后利用训练数据，训练融合空洞卷积Dilated conv的神经网络的人体图像关键点姿态估计模型，得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型：并用该模型进行人体姿态的估计。本发明可以将含有人体的输入图像进行关键点生成，并且生成估计处理后的图像中生成的人体关键点具有较高精度较好保持了人体的骨架几何信息。

Description

一种人体图像关键点姿态估计方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种人体图像关键点姿态估计方法。

背景技术

人体图像关键点姿态估计是指从一张含有人体的图像中对人体骨架上的关键点进行建模估计，人体关键点一般定义为：踝关节，左膝关节，左臀部，右臀部，左膝关节，左踝关节，右踝关节，上颈部，头顶，右手腕，左肘，左肩，右肩，右肘，左手腕，最后通过训练好的姿态估计模型，对输入图像进行姿态估计，输出为含有人体骨架关键点的图像。

由于人体具有相当柔性，会出现各种姿态和形状，人体任何一个部位的微小变化都会产生一种新的姿态，同时其关键点的可见性受穿着、姿态、视角等影响非常大，而且还面临着遮挡、光照、雾等环境的影响，除此之外，2D人体关键点和3D人体关键点在视觉上会有明显的差异，身体不同部位都会有视觉上缩短的效果(foreshortening)，使得人体骨骼关键点检测成为计算机视觉领域中一个极具挑战性的问题。

现有解决人体图像关键点姿态估计的人体骨骼关键点检测算法基本上是在几何先验的基础上基于模版匹配的思路来进行，核心就在于如何去用模版表示整个人体结构，包括关键点的表示，肢体结构的表示以及不同肢体结构之间的关系的表示。一个好的模版匹配的思路，可模拟更多的姿态范围，以至于能够更好的匹配并检测出对应的人体姿态。

也有人提出了基于深度学习的方法，比如G-RMI,PAF,RMPE,Mask R-CNN。普遍使用卷积神经网络来构建人体关键点姿态估计网络结构，现在通过行人检测网络识别出人体，但是现有的检测网络通常都是基于分类网络演变而来运用现有的分类网络框架进行修改，并且采用在imagenet上预训练好的模型进行fine-tuning，本发明针对检测这一具体任务提出一个专门的行人检测网络结构，随后将含有人体图像输入到该网络结构中，进行一系列非线性处理(用来拟合一个复杂的映射函数)得到生成的人体骨架关键点姿态图像，将生成的人体骨架关键点姿态图像与真实的标注的人体固件关键点图像作为损失函数的输入并计算该损失函数的值，求梯度来最小化这个值，并利用反向传播函数将求得的梯度反向传播并更新网络权重的参数，多次迭代直到该损失函数不变为止。

由于技术的进一步的发明以及高质量高精确度的人体骨架关键点图像对用户的体验和市场的竞争都具有重要的意义。而现有的人体图像关键点姿态估计生成质量不能满足要求，且不确定性比较大。因此，对人体图像关键点姿态估计方法进行一步改进，是很有必要的。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，首先提出一种检测网络DetectionNet进而提供一种融合空洞卷积(Dilated conv)的级联金字塔的深度神经网络的人体图像关键点姿态估计方法，以提高人体图像关键点姿态估计生成质量，降低不确定性。

为实现本发明的目的所采用的技术方案是：

一种人体图像关键点姿态估计方法，包括以下步骤：

S1.图像数据预处理：

首先将原始图像送入训练好的基于空洞卷积的特征金字塔网络DetectionNet检测，只输出人体用边界框标记的人体图像；然后将输出的人体图像裁剪成预定格式大小，然后进行数据增强处理；

S2.利用训练输入数据，训练融合空洞卷积Dilated conv的神经网络的人体图像关键点姿态估计模型，得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型：

利用步骤S1中已裁剪完的人体图像作为网络的输入，以训练集中的用x、y轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth，训练深度神经网络模型中的全局网络和矫正网络，获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型；

其中，通过全局网络的ResNet101网络对输入人体图像处理，得到不同尺寸的特征图输出，采用自底向上的U-Shape结构，将每一层特征图进行自底向上做采样后进行加和后进行预测操作；其中，用与GroudTruth进行L₂损失函数计算以进行损失约束；通过预测操作进行预定卷积步骤处理后，生成不同关键点的热力图，从而得到初始人体关键点；

将全局网络中每一层加和的特征图，通过Dilated Bottleneck后分别进行上采样，然后进行concat操作后通过Bottleneck，并采用基于难检测关键点的L₂ ^*损失约束，随后通过卷积进行热力图生成，修正初始的人体关键点，得到最终的人体关键点；模型迭代多次稳定后，完成模型训练；

S3.使用训练好的深度神经网络模型，对测试数据集中的包含人体的图像进行姿态估计处理。

本发明使用全局网络和矫正网络分别定位关键点和对关键点修正，并采用L₂损失函数，提高了生成关键点的进度和减小了不确定性，使用的以Dilated Bottleneck的矫正网络结构可以提高模型的感受野。

本发明全局网络通过使用残差网络ResNet101结构作为骨干网络，提高了模型容量和加快训练速度。

本发明针对性质解决了检测中存在的运算性能和检测性能矛盾的问题，通过保持特征图的空间分辨率和运用空洞卷积来扩大感受野来提升检测性能，并且融合空洞卷积(Dilated conv)的人体图像关键点姿态估计模型，可以生成在感知上效果非常好的人体骨架关键点图像。借助提出的融合空洞卷积(Dilated conv)的深度神经网络的人体图像关键点姿态估计模型，使用残差网络作为构建模型的基础，结合了级联金字塔结构，特别是Dilated Bottleneck，使得模型的感受野更大，效果更好，并且泛化能力更强。

附图说明

图1是本发明在测试数据集中的一张人体图像上的测试结果，左边是输入人体图像，中间是Ground Truth，右边是模型生成的人体骨架关键点图像。

图2是本发明中融合空洞卷积的神经网络的人体图像关键点姿态估计方法流程图。

图3是本发明中专有的一中检测网络DetectionNet方法结构框图。

图4是设计的3中不同类型的bottleneck结构图。

图5是p₄，p₅，p₆之间的运算连接方式的示意图。

图6所示为ResNet50网络的处理过程图。

图7所示为全局网络结构图。

图8所示为检测网络、全局网络中加和操作的局部示意图。

图9为本发明的整体网络结构图。

图10-11所示分别为Dilated Bottleneck与Bottleneck结构图。

图12为本发明的加入矫正网络后的整体结构图。

图13为本发明的空洞卷积(Dilated conv)的卷积示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的人体图像关键点姿态估计方法，包括以下几个步骤：

步骤S1，先对图像训练集数据做特定数据增强，首先定义可以应用于图像的所有可能的数据增强，如下表(参数均对应于TensorFlow相应函数参数)：

本发明采用如下特定操作：

本发明中，将增强策略定义为一组无序的K子策略(策略一-三)。

训练期间，将随机选择K个子策略中的一个，然后将其应用于当前图像。每个子策略都有2个图像增强操作，其中P为每个操作的概率值(范围0-1之间)，M为参数幅度，并且将每个参数幅度都归一化到0-10区间范围之内。

然后对训练数据集中的图像使用检测网络DetectionNet进行目标检测，并对所有类别框只保留人体类的边界框，进行裁剪操作，生成对应大小为384*288的人体图像，然后使用数据集中的人体姿态关键点标注信息json文件，并调用COCO api作为对应人体的标注信息，以加快I/O读取速度。

其中，目标检测网络采用检测网络DetectionNet，并且目标检测网络训练运用到了COCO数据集的所有80个类别，最后选取了人体类别进行输出(输出图像形式为图像中将人体用边界框进行标记)。具体结构为图3，其中DetectionNet具体设计以及图中模块解释如下：

采用Resnet50为骨干网络进行特征提取，使用标准高斯分布随机初始化ResNet50网络；

根据Resnet50提取的特征，保留stage(阶段)1-4，4个尺度的特征图，并且命名为P₂,P₃,P₄,P₅,,并且通过连接卷积核大小为1*1的卷积核,增加stage5,特征图为P₆的特征图；

并且在stage4以后保持特征图的空间分辨率不变,也就是

转换通过步长为2的3*3卷积或池化层完成，其中

代表空间分辨率，i为原始图尺寸，其中原始图片尺寸为224*224，x∈[i,2,3,4,5,6]，在P₄,P₅，P₆,之间通过连接卷积核大小为1*1的卷积核，以保持通道数一致(通道数＝256)。

P₄,P₅，P₆,之间的转换如图5，通过AB两种类型的bottleneck实现转化，AB两种类型的bottleneck的设计如图4，AB两种类型的bottleneck分别由1*1的卷积，3*3的空洞系数是2的空洞卷积，还有relu层得到。

最后将stage4-6的特征图按照金字塔架构进行加和，其中侧向连接加和方式如图8，形成FPN特征金字塔，并且采用Fast RCNN的方法进行目标检测，并通过回归损失和分类损失进行约束。多损失融合(分类损失和回归损失融合)即图3中的prediction操作，分类损失采用log loss(即对真实分类的概率取负log，分类输出K+1维)，回归的loss和R-CNN一样(smooth L1loss)。总的损失函数：

在检测网络最后的全连接层，接入了两个分支，一个是softmax用于对每个ROI区域做分类，假如有K类待分(加上背景总共K+1类)，输出结果为p＝(p₀………p_k)，另外一个是boundingbox，用于更精确的ROI的区域,输出为

代表k类的boundingbox坐标,(x,y)为boundingbox左上角坐标，(x+w,y+h)为boundingbox右下角坐标。u为每个ROI区域的Ground Truth,v为boundingbox的Ground Truth的回归目标。其中λ为超参数，控制两个任务损失之间的平衡，这里λ＝1。[u≥1]为1当u≥1。

分类损失具体为：

为一个log形式的损失函数。

回归损失具体为：

其中v＝v_x,v_y,v_w,v_h是类别为u的真实框的位置，而

为类为u的预测框位置。并且

另外，裁剪操作是指对含有人体边界框的图像中的边界框区域，将框进行扩展到固定宽高比，然后进行裁剪，随后进行数据增强等操作，如随机翻转、随机旋转、随机尺度等操作。

进一步的，所有训练步骤中，数据集采用MSCOCO训练数据集(包括57K张图像和150K张含有人体实例图像)，在步骤S1中，通过检测器网络(FPN+ROIAlign)检测后，对于所有检测的边界框，只采用人体边界框(即在所有实验中仅使用所有类的前100个框中的人类类别的边界框)，并对人体边界框扩展到固定宽高比hight:weight＝384:288，对应的将裁剪图像的大小调整为默认高度384像素和宽度288像素，其后对应的数据增强策略，对于裁剪过后的图像采用随机旋转(角度为-45°～+45°)以及随机尺度(0.7～1.35)，并将对应图片的标注信息(json文件包含人体边界框和关键点位置)作为GroundTruth。

其中整体DetectionNet流程框图为图3。

步骤S2，利用所述训练输入数据，训练融合空洞卷积(Dilated conv)的神经网络的人体图像关键点姿态估计模型，以用来完成人体图像的关键点姿态估计任务。

本步骤S2中，主要是利用步骤S1中的裁剪好的含有人体的图像和对应人体骨架关键点的标注信息为网络的输入，含有标注的人体固骨架关键点(形式为json文件，17个关键点分别用xy轴坐标形式标出)作为GroundTruth，训练深度模型中的人体关键点估计网络，完成从人体输入图像到输出人体固件关键点图像的任务。具体地，将检测网络检测到的人体图像裁剪完成后，通过ResNet101作为骨干网提取特征图，并且我们分别将不同conv特征

的最后一个残差块表示为C₂C₃C₄C₅，再采用U形结构将每一层特征图进行自底向上加和，并对每次加和后生成的不同尺度特征图生成热力图采用L₂损失函数计算，得到人体关键点。

其中，在全局网络中利用卷积神经网络结构ResNet101先进行特征提取，并且采用U-Shape结构对特征图进行上采样和加和sum的操作再进行操作来保持生成特征图的大小和上一层残差层形成的特征图尺度一样。

在这一实例中，全局网络中包含4个残差块。残差块具体结构为卷积神经网络，包括归一化层，激活层，卷积层；其中卷积层滤波器大小，步长，填充分别为3*3,1,1。残差层输入与输出之间有前传连接。卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置，并且使用卷积层滤波器大小，步长，填充分别为3*3,1,1去从特征图生成对应的热力图。

同理，残差块的个数也可以根据实际情况进行选择设置。在全局网络中，输入为真实人体图像x和GroundTruth真实人体骨架姿态关键点图像y，

网络结构为在ImageNet数据集上预训练过的ResNet-101，

该步骤中，利用裁剪过后的人体图像(384*288)作为模型输入，输入到ResNet101的骨干网中，通过7*7通道数＝64，padding＝3，stride＝2的卷积核，输出为192*144*64的特征图，后进行MAX pooling，其中池化核大小为3*3padding＝0，stride＝2，输出为96*72*64的特征图。

将生成的96*72*64特征图依次通过4个残差快C₂C₃C₄C₅，每个残差块对应输出为96*72*256，48*36*512，24*18*1024，12*9*2014。如图3所示。

下一层残差块

做进行1*1卷积操作后上采样后与上一层

进行加和操作后，进行predict操作，其中用L₂损失约束，流程如下:

与真实标注的人体骨架姿态关键点图像的热力图进行L₂损失的计算。

本发明中，Predict操作为，每一层叠加之后的特征图进行1*1conv的卷积之后再进行3*3的卷积生成17个feature map(17个关键点的热力图，采用MSCOCO数据集其中人体关键点数量为17)，作为predict参与训练。

其中，L₂损失函数为：

L₂＝E_x,y～P(X,Y)||F_generate(x)-y||₂，

其中，x为输入图像，y为GroundTruth对应的热力图，全局网络网络的输出为

且

其中F_generator为全局网络每个残差块对应输出的17个feature map(关键点的热力图))。

接着将全局网络的输出作为矫正网络的输入，即将全局网络的四个残差快产生的C₂C₃C₄C₅对应的4个尺度的特征图96*72*256，48*36*512，24*18*1024，12*9*2014,通过不同数量的Dilated Bottleneck和Bottleneck，的Dilated Bottleneck和Bottleneck的结构如图7-8，操作如下：

C₅+1*Dilated Bottleneck+1*Bottleneck+1*Dilated Bottleneck+unsample*8

C₄+2*Dilated Bottleneck+unsample*4

C₃+1*Dilated Bottleneck+unsample*2

上述的矫正网络的处理具体的如图9所示，图9中方框代表矫正网络，立方体代表残差快输出的特征图，圆形代表定义的sum加和操作，bottle代表定义的DilatedBottleneck。而且将全局网络中的每一层加和后的特征图，通过采用的DilatedBottleneck后，分别进行上采样，然后进行concat操作后通过Bottleneck，采用L₂ ^*损失约束，其中L₂ ^*为矫正网络的输出的N个关键点损失(每个关键点均由L₂计算出此处N＝17)中最大的M个(设定M＝9)，只保留这M个关键点损失计入矫正网络损失函数(L₂ Loss)，随后通过3*3conv的卷积进行热力图生成。

需要说明的是，本发明中，将步骤S2生成的各个尺度特征图，送入矫正网络中，采用各个尺度特征图图加和的方式，加和完成后的热力图，最后采用L_2损失函数计算，即可得到更为精确的人体关键点。

之后，使用训练好的深度神经网络模型，对测试数据集中的含有人体的图像进行人体关键点估计。

需要说明的是，本发明中，在矫正网络中分别采用Dilated Bottleneck和Bottleneck时，对于不同层，采用数量不一的搭配。

其中，Dilated Bottleneck是将普通Bottleneck中的3*3conv卷积替换成了3*3dilated系数为2的空洞卷积(Dilated conv)，如图7-8所示。

下面对空洞卷积(Dilated conv)说明。参见图11所示，其中左侧的图代表普通3*3conv卷积，中间图代表dilated系数为2的空洞卷积(Dilated conv)，右侧图代表dilated系数为4的空洞卷积(Dilated conv)，实际的卷积kernel size还是3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个点和3x3的kernel发生卷积操作，其余的点略过。

也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7(如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话，那么每个点就是1-dilated的卷积输出，所以感受野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的conv),右侧图是4-dilated conv操作，同理跟在两个1-dilated和2-dilated conv的后面，能达到15x15的感受野。对比传统的conv操作，3层3x3的卷积加起来，stride为1的话，只能达到(kernel-1)*layer+1＝7的感受野，也就是和层数layer成线性关系，而dilated conv的感受野是指数级的增长。

本发明是利用卷积神经网络的高度非线性拟合能力，针对人体图像姿态估计任务，构造以人体图像作为输入的神经网络。特别的，神经网络通过外加的DilatedBottleneck，形成融合空洞卷积的神经网络。这样，通过如图2所示的网络，利用空洞卷积网络可训练一个具有良好感知效果的图人体骨架关键点姿态估计模型。在测试阶段，使用测试集中的图像作为模型的输入，得到生成的效果图，如图1所示。

需要说明的是，本发明中所提出的融合空洞卷积的神经网络的人体图像关键点姿态估计模型包含两个子网，分别是全局网络与矫正网络，整个模型的目标函数为L₂。在完成人体图像姿态估计时，整个模型的最终目标函数为L₂损失函数，能降低至最低且保持稳定。

为了详细说明本发明的具体实施方式及验证本发明的有效性，将本发明提出的方法应用于一个公开的数据集中训练。该数据库包含一些自然场景的照片，比如花，树等等。选择该数据集的全部图像作为训练数据集，先对训练数据集中的所有图像使用训练好的特征金字塔网络(FPN)进行目标检测，只输出人体类别边界框，生成对应的裁剪完成的人体图像，并且利用数据集中标注好的人体关键点坐标信息json文件，作为模型的输入，利用梯度反传训练全局网络和矫正网络，直到最后网络收敛，得到人体骨架关键点姿态估计模型。

为了测试该模型的有效性，对输入图像进行处理，可视化结果如图1所示。在实验中，通过与GroundTruth真实图像进行了对比，实验的结果如图1所示。该实施例有效证明了本发明所提出方法对图像超分辨率的有效性。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.人体图像关键点姿态估计方法，其特征在于，包括步骤：

S1.图像数据预处理：

2.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述特征金字塔网络采用预定数据增强方法处理图片，并对特征金字塔网络的后两个阶段进行修改以针对于目标检测，并将检测后人体图像裁剪后输入；具体为：

根据Resnet50提取的特征，保留阶段1-4的4个尺度特征图P₂，P₃，P₄，P₅，并通过连接卷积核大小为1*1的卷积核，增加阶段5，特征图为P₆的特征图；

阶段4以后保持特征图空间分辨率不变，即

其中

代表空间分辨率，i为原始图尺寸，x∈[i，2，3，4，5，6]，在P₄ P₅ P₆，之间通过连接卷积核大小为1*1的卷积核，以保持通道数一致；

最后将阶段4-6特征图按照金字塔架构加和形成特征金字塔，并采用Fast RCNN方法进行目标检测，并通过回归损失和分类损失约束；分类损失和回归损失融合、分类损失采用log loss，回归的loss和R-CNN一致；总损失函数如下：

检测网络最后的全连接层接入两个分支，一个是softmax，用于对每个ROI(ROI，regionof interest)区域分类，用候选区域方法(region proposal method)创建目标检测的感兴趣区域(ROI)。在选择性搜索(selective search，SS)中，我们首先将每个像素作为一组。然后，计算每一组的纹理，并将两个最接近的组结合起来。但是为了避免单个区域吞噬其他区域，我们首先对较小的组进行分组。我们继续合并区域，直到所有区域都结合在一起。下图第一行展示了如何使区域增长，第二行中的蓝色矩形代表合并过程中所有可能的ROI，输出结果p＝(p₀………p_k)，另一个是boundingbox，用于ROI区域定位，输出

代表k类的boundingbox坐标，(x，y)为boundingbox左上角坐标，(x+w，y+h)为boundingbox右下角坐标，u为每个ROI区域的Ground Truth，v为boundingbox的Ground Truth的回归目标，λ为超参数，控制两个任务损失之间平衡，λ＝1；

分类损失为

为一个log形式的损失函数；

回归损失为

其中，v＝v_x，v_y，v_w，v_h是类别为u的真实框的位置，

为类为u的预测框位置，且

3.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述增强处理包括随机翻转、随机旋转、随机尺度。

4.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述通过全局网络的ResNet50网络对输入的人体图像处理，得到不同尺寸的特征图输出的步骤包括以下步骤：

使用标准高斯分布随机初始化ResNet50网络；

将人体图像输入到包括四个残差块的ResNet50网络中，并且分别将不同conv特征

的最后一个残差块表示为C₂ C₃ C₄ C₅，

其中，C₂通道数为64，C₃通道数为128，C₄通道数为256，C₅通道数为512，并且在每个残差快C₂ C₃ C₄ C₅后添加卷积核1*1的卷积，并连接BN层和ReLU，使得特征通道数均为256，得到不同层的残差块定义为

i＝2，3，4，5，从而获得不同的尺寸的特征图输出。

5.根据权利要求1所述人体图像关键点姿态估计方法，其特征在于，所述的深度神经网络模型的目标函数采用损失函数L₂为：

L₂＝E_{x，y～P(X，Y)}||F_generate(x)-y||₂

其中，x为输入的真实人体图像，少为GroundTruth对应的热力图，F_generator为全局网络每个残差块对应输出的多个关键点的热力图，其中E代表L2范数在P(X，Y)分布下的数学期望，P(X，Y)为概率密度函数，其中L₂ ^*为矫正网络的输出的N个关键点损失中最大的M个，只保留这M个关键点损失计入矫正网络损失函数，N个关键点的每个关键点的损失均由L₂计算出。