CN111160111B

CN111160111B - 一种基于深度学习的人体关键点检测方法

Info

Publication number: CN111160111B
Application number: CN201911248576.9A
Authority: CN
Inventors: 王忠荣; 刘翼鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-04-30
Anticipated expiration: 2039-12-09
Also published as: CN111160111A

Abstract

本发明公开了一种基于深度学习的人体关键点检测方法，属于计算机视觉技术领域。本发明采用扩张卷积残差网络作为人体关键点检测网络的基础网络，在头部网络中设置一种像素重排列卷积模块来实现上采样，经过两次上采样，使特征图分辨率达到最大，分别在两个分辨率的特征图上进行预测，并且在最大分辨率特征图上使用批量级别困难关键点挖掘，网络结构非常简单，计算量小，但是精度高。本发明用于公共安全、体感游戏娱乐、人机交互、标准动作分析等领域，其检测的准确度高，鲁棒性好，能够适应外界环境的各种变化。

Description

一种基于深度学习的人体关键点检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的人体关键点检测方法。

背景技术

人体关键点检测是计算机视觉领域中一个重要的课题，主要任务是在给定的图像中对人体关键点(通常是一些关节点或者部位)进行检测，输入一幅含有行人的图像，输出图像中所有人的全部关键点坐标，由这些坐标信息可以获得当前姿态。由于每个行人的尺度不一样，行人之间的相互影响也很复杂，比如互相遮挡或者被其他物体遮挡，还有背景和衣着干扰、人体动作和姿态的复杂多变性等难题，这将会给多人关键点检测带来很大的挑战。

传统方法主要采用图形结构来解决人体关键点检测问题，例如，树模型(TreeModels)和随机森林模型(Random Forest Models)都被证明是非常有效的人体关键点检测算法。随着人体关键点检测精度要求越来越高，传统方法已经不能满足需求了。近年来，深度学习技术得到了广泛的应用，产生了一系列人体关键点检测算法，例如DeepPose、CPM、SHN、PAFs、RMPE、CPN及其一系列衍生算法，但是这些检测技术或由于精度低或检测耗时过长并不能很好的应用到商业产品中。

目前的人体关键点检测算法很难满足实际应用的需求，在科研领域，大部分研究者只关注人体关键点检测精度，会设计出很复杂的网络加一些很复杂的方法和一些训练技巧，然后在公开数据集上得到一个较好的成绩，但是这很难直接应用到实际中去。少部分研究者的方法在速度上满足了需求，但是会以牺牲精度为代价，精度低使得应用无法落地，大量的漏检和误检不可接受。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于深度学习的人体关键点检测方法。

本发明的基于深度学习的人体关键点检测方法包括下列步骤：

步骤1：设置并训练像素重排列卷积头部网络：

所述像素重排列卷积头部网络用于输出所输入图像的热力图，其包括三个依次串联的子网：扩张卷积残差网络、第一像素重排列卷积网络和第二像素重排列卷积网络；

其中，扩张卷积残差网络包括多个卷积残差模块，用于对输入的图像进行下采样，且最后两个卷积残差模块通道数和下采样率相同；

像素重排列卷积网络用于对输入的图像的进行上采样，所述像素重排列卷积网络从输入到输出依次包括：卷积层、批量归一化层、激活函数和像素重排列层；

其中，像素重排列层用于对输入的特征图按照通道维度进行像素排列；

训练时，将单人体图像输入像素重排列卷积头部网络，在第一像素重排列卷积网络输出的第一特征图进行人体关键点预测，并设置第一像素重排列卷积网络的损失函数为第一损失函数；以及在第二像素重排列卷积网络输出的第二特征图进行人体关键点预测，并设置第二像素重排列卷积网络的损失函数为第二损失函数；

其中，第一损失函数为：

H_j(p)表示人体关键点预测结果，即人体关键点j在位置p处的概率分布，

表示真实值对应的概率分布，w_j表示人体关键点的可见状态，取值为0或1，0表示不可见，1表示可见；J表示人体关键点数；

第二损失函数为：定义B表示训练时输入到像素重排列卷积头部网络的批量大小，计算当前批量的所有人体关键点的第一损失函数(L_H)，并取前K×B个最大的第一损失函数作为第二损失函数；K为经验预设值，基于具体的应用场景进行调整，通常优选的取值范围为1～17。

当满足预设的训练停止条件时，训练结束，得到训练好的像素重排列卷积头部网络，并作为人体关键点检测模型；

步骤2：基于步骤1得到的人体关键点检测模型对待检测的图像进行人体关键点检测处理：

对待检测图像进行预处理：检测当前图像中的单个人体，并以预设的宽高比裁剪出单个人体，得到单人体图像；

将待检测图像的各单人体图像输入人体关键点检测模型，基于人体关键点检测模型的第二像素重排列卷积网络输出的人体关键点预测结果，得到人体关键点的预测热力图；

对预测热力图进行后处理得到待检测图像的人体关键点检测结果：将预测热力图上的最大响应点向第二大响应点偏移1/4得到初始人体关键点位置，再将初始人体关键点的坐标(位置)映射回待检测图像得到最终的人体关键点坐标。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明基于深度学习人体关键点检测方法充分利用了深度学习的准确度高的性质，鲁棒性好，能够适应外界环境的各种变化。

附图说明

图1是本发明的具体实施方式的整体处理框图；

图2是使用扩张卷积的残差网络结构；

图3是像素重排列卷积模块(PRCM)；

图4是像素重排列卷积头部网络(PRCHN)

图5是人体关键点检测处理流程；

图6是待进行人体关键点检测的待检测图；

图7是基于本发明的人体关键点检测对图6所示的待检测图的检测结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明的基于深度学习的人体关键点检测方法，可以用于公共安全、体感游戏娱乐、人机交互、标准动作分析等应用领域。本发明基于本发明所构建的新的人体关键点检测网络结构(像素重排列卷积头部网络(Pixel Rearrangement Convolution Head Network，PRCHN))来实现人体关键点检测，不使用大网络也能实现较高的检测精度，机制鲁棒性强。

参见图1，本具体实施方式中，在基于本发明的像素重排列卷积头部网络进行人体关键点检测处理时，包括数据获取、网络构建、模型训练和评估、最优模型预测等处理步骤，具体处理过程如下：

步骤1)获取数据。

训练数据包含图片和标记文件，标注包含两个部分，行人检测框和人体关键点坐标，本具体实施方式中，采用公开数据集获取训练数据，以及测试数据；

步骤2)网络构建。

使用扩张卷积残差网络作为人体关键点检测网络的基础网络，在本发明的头部网络中设置一种像素重排列卷积模块来实现上采样，经过两次上采样，使特征图分辨率达到最大，然后再分别在两个分辨率的特征图上进行预测，并且在最大分辨率特征图上使用批量级别困难关键点挖掘(Batch-Level On Hard Keypoints Mining，BLOHKM)。具体网络结构图见图2-图4；

步骤3)模型训练和评估。

将上述检测网络使用训练集进行模型训练，使用了一些数据增广，并选出在验证集表现最优的模型；

步骤4)最优模型预测。

基于上述最优模型，使用预测程序进行人体关键点预测，参见图5，具体包括输入待检测图像、预处理、模型预测、后处理和输出人体关键点检测结果。预测的时候只使用最大分辨率特征图的输出作为最终结果。

本具体实施方式中，步骤1)中所述的公开数据集采用的是目标检测数据集MSCOCO，本发明的网络模型在COCO2017的训练集(包含58,945张图像和15万个标注行人)上训练，没有使用额外数据集，使用val2017(包含5000张图像)线下验证，使用test-dev2017(包含超过2万张图像)线上验证。

COCO数据集的每个标注对象都包含一系列的字段，包括图片的ID、物体的类别ID(对于关键点检测任务主要取行人那一类，对应ID为1)、物体的包围框、物体的分割掩码，物体的面积以及是否是密集(iscrowd)等字段，其中物体面积表示物体包含的像素数，iscrowd字段用于表示标注对象是否密集。对于人体关键点检测任务的标注，除了以上所有字段以外，还有以下属性，人体关键点坐标、人体关键点是否可见(isvisible)、人体关键点个数以及骨架(skeleton)，其中人体关键点是否可见用v表示，定义v＝0表示未标记(这种情况下x＝y＝0)，v＝1表示标记但不可见，v＝2表示标记并且可见。其中标注中的人体关键点个数表示该人体被标记的人体关键点的数量(即v＞0)。骨架信息表示不同人体关键点之间的连线。

上述步骤2)中所述的扩张卷积残差网络结构如图2所示，其中，dr表示下采样率，C表示特征图通道数，conv表示卷积，maxpool表示最大池化，dilatedconv表示扩张卷积，Fc表示全连接，softmax表示输出层的激励函数。

本发明没有直接使用残差网络ResNet50作为基础网络，原因在于：ResNet50可以分为5个残差模块，分别称为C₁,C₂,C₃,C₄,C₅，ResNet50网络有5次下采样，最后一个残差模块输出的特征图的宽和高都是原图的1/32，大量损失了空间信息。因为ResNet最初使用在ImageNet的图像分类任务，空间信息对于图像分类任务可能不是那么重要，相对而言语义信息可能更重要。但是人体关键点检测任务需要精准定位关键点坐标，空间信息很重要，下采样过程损失的空间信息很难被恢复，因而本发明引入扩张卷积来解决这个问题。引入扩张卷积改变了网络结构从而导致不能完全使用预训练模型初始化。本发明只在最后一个残差模块使用步长为1，扩张率为2的扩张卷积，增加感受野同时不减小特征图，保留更多的空间信息，这将会带来计算量的增加，为了避免计算量增加过大，本发明对特征图的通道数和特征图的空间尺寸做一个平衡，由于特征图大小不变，减小通道数为原来的1/2，即残差模块C₄和C₅具有相同尺寸和相同的通道数。

上述步骤2)中所述PRCHN网络结构如图4所示，其中图3是本发明设置的一个像素重排列卷积模块(Pixel Rearrangement Convolution Module，PRCM)用于实现上采样，pixelshuffle是指在通道维度对像素进行重排列，conv是指卷积层，BN是指批量归一化层(即将卷积层输出的图像特征在所有样本上的值转归一化成均值0方差1)，ReLU是指激活函数。图4是完整网络结构，dr表示下采样率，C表示特征图通道数，dilatedconv表示扩张卷积。

PRCM是专门设计用于实现上采样的目的，先进行一个卷积改变通道数，然后通过对像素按照通道维度重新排列从而达到上采样的目的，充分利用所有的信息，而不是通过传统的插值或者转置卷积实现上采样。假设输入特征图的尺寸为h*w*(c*k²)，其中h*w表示图像的高和宽，(c*k²)表示通道数，k表示上采样倍数，按照通道维度进行像素排列之后，特征图的尺寸变为(k*h)*(k*w)*c，可以看到特征图的通道数变小，但是宽和高都是变为原来的k倍，不需要任何的插值实现上采样。本发明网络在两个个不同分辨率的特征图上进行预测，对这些预测结果分别计算损失并进行回传。

上述步骤2)中所述批量级别困难关键点挖掘是一种改进的困难关键点挖掘方法。本发明使用批量级别困难关键点挖掘，困难关键点挖掘是在整个批量样本中而不是单个人体样本，很容易观察到困难关键点并不是均匀分布在每个人体身上。具体为，假设批量大小为B，每个样本的人体关键点个数为N，计算这个批量所有人体关键点的损失，一共产生B*N个损失，然后从大到小排序取前K×B个损失进行反向传播，其中K(优选取值范围1～17)为经验预设值，即通过筛选出来主要关注那些损失较大的人体关键点。在人体关键点检测中一个批量大小一般为十几或者几十，在比较多的样本中去寻找困难关键点会更精确和更有代表性。

上述步骤3)中所述数据增广是指：

根据标注信息中的行人包围框去裁剪每个行人得到单个行人的图片和标注信息，裁剪方式如下：把行人检测框的宽高放大1.3倍，使用固定长宽比为4:3的方式裁剪保证图像不会发生扭曲形变并缩放为固定尺寸，默认情况高度是256，宽度是192，填充值为ImageNet数据集的像素均值。关于数据增广，主要使用常见的一些增广方式，以0.5的概率随机水平翻转，随机缩放，缩放比例为0.7至1.3之间，以及随机旋转，旋转角度范围-40°:+40°之间，所有这些增广变换需要同时用于图片和标注信息上。

上述步骤3)中所述模型训练是指：

使用在ImageNet上预训练的ResNet50模型来初始化PRCHN网络的部分参数，其他参数随机初始化。加载步骤1)中的数据进行一定的数据增广之后输入到网络中训练，不断调整学习率、批量大小(batch_size)、优化方法等超参数来训练PRCHN网络，训练时采用L2损失函数，即PRCHN网络的损失函数L_H为：

上式中，H_j(p)是预测结果代表人体关键点j在位置p处的概率分布，

是真实值生成的概率分布，本具体实施方式中，采用热力图来表示概率分布(某位置概率越大，对应热力图的热力值就越大)，w_j取值为0或1，如果关键点j不可见即w_j＝0，将不用计算损失，否则w_j＝1，需要计算损失。

上述步骤3)中所述的最优模型是：在训练过程，每经过1轮存储一次模型，一般情况，训练120轮即可。并将该模型在验证集测试，根据人体关键点检测的精度选择最优的模型。

上述步骤4)中所述的预测程序是：构建网络的前向推断过程，前向推断过程的网络结构与训练时的结构是相同的，只是没有计算损失和回传损失的过程，只使用最大分辨率特征图的预测结果作为最终结果。输入参数为图像数据，返回为预测结果，得到所有人体关键点坐标，中间经过预处理、模型预测和后处理。输入图片做一个简单的预处理，预处理包含使用行人检测器检测出图片中的所有行人，以固定宽高比的形式裁剪出单独的行人，然后传给PRCHN网络进行预测，得到人体关键点的预测热力图结果，后处理对热力图进行一定的处理，把热力图上的最大响应点向第二大响应点偏移1/4得到最终人体关键点位置，然后将坐标映射回原图(图6所示的待检测图像)得到最终的人体关键点坐标，如图7所示。

本发明通过所设置的像素重排列卷积头部网络实现了对人体关键点检测处理的检测性能的提升，像素重排列卷积头部网络是一个典型的非对称网络结构，使用比较深的骨干网络作为编码部分提取更丰富的特征，同时可以使用ImageNet预训练模型初始化权重。另外在骨干网络的最后一个模块使用扩张卷积，最后一个模块不减小特征图，保留更多的空间信息，同时减少特征图的通道数，避免过大的计算量。通过所设置的像素重排列卷积模块用于实现上采样，分别在两个不同分辨率的特征图上进行预测和计算损失。本发明用于人体关键点检测的网络结构非常简单，计算量较小，但是精度很高。同时，针对本发明采用的像素重排列卷积头部网络，改进了损失函数的处理方式，对不同层网络的输出使用不同的处理方式，第一次上采样的输出使用普通的L2损失处理所有关键点，最终的输出使用批量级别困难关键点挖掘方法处理难关键点。从而使得本发明的人体关键点检测方案的准确度高，鲁棒性好，能够适应外界环境的各种变化。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于深度学习的人体关键点检测方法，其特征在于，包括下列步骤：

步骤1：设置并训练像素重排列卷积头部网络：

其中，第一损失函数为：

第二损失函数为：定义B表示训练时输入到像素重排列卷积头部网络的批量大小，计算当前批量的所有人体关键点的第一损失函数，并取前K×B个最大的第一损失函数作为第二损失函数，其中K为正整数；

对预测热力图进行后处理得到待检测图像的人体关键点检测结果：将预测热力图上的最大响应点向第二大响应点偏移1/4得到初始人体关键点位置，再将初始人体关键点的坐标映射回待检测图像得到最终的人体关键点坐标。

2.如权利要求1所述的方法，其特征在于，步骤1中，训练像素重排列卷积头部网络时，采用多轮并取检测精度最优的方式。

3.如权利要求1所述的方法，其特征在于，扩张卷积残差网络采用ResNet50包括的5个卷积残差模块结构，并将最后一个卷积残差模块的通道数和下采样率设置为与第四个卷积残差模块相同。

4.如权利要求3所述的方法，其特征在于，步骤1中，训练时采用已有的ResNet50的网络参数初始化扩张卷积残差网络。

5.如权利要求1所述的方法，其特征在于，步骤1中，训练时获取单人体图像的方式为：

对图像进行人体检测，得到人体检测框；

并基于预设放大倍数，对人体检测框的宽高进行放大处理；再基于预设的长宽比对人体检测框进行裁剪，得到单人体图像。

6.如权利要求5所述的方法，步骤1中，训练时对单人体图像进行数据增广处理。

7.如权利要求1所述的方法，其特征在于，步骤1中，K的取值范围为1～17。