CN110276316B

CN110276316B - 一种基于深度学习的人体关键点检测方法

Info

Publication number: CN110276316B
Application number: CN201910559424.4A
Authority: CN
Inventors: 李纯明; 胡保林
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2022-05-24
Anticipated expiration: 2039-06-26
Also published as: CN110276316A

Abstract

一种基于深度学习的人体关键点检测方法，包括数据获取、网络构建、模型训练和评估、最优模型预测等步骤。本发明通过对ResNet50网络进行改进提出了扩张卷积残差网络，采用两级扩张卷积残差网络构建了人体关键点检测网络。模型训练时第一级网络对训练数据进行特征提取并使用四个通道进行预测，将预测结果中所有关键点计算损失后返回调整网络参数；采用中间级将第一级网络的输入特征图、输出特征图和预测结果相加后传送至第二级，由第二级网络进行特征提取并经过两层转置后对最后得到的特征图进行预测，计算预测结果的关键点损失并按从大到小排序，选择前K×B个损失返回调整网络参数。选择最优的训练模型对将待检测图像进行人体关键点预测，精度高实用性好。

Description

一种基于深度学习的人体关键点检测方法

技术领域

本发明属于计算机视觉技术领域，在公共安全、体感游戏娱乐、人机交互、标准动作分析等领域有广泛的应用需求，准确的说是一种基于深度学习的人体关键点检测方法。

背景技术

人体关键点检测是计算机视觉领域中一个重要的课题，主要任务是在给定的图像中对人体关键点(通常是一些关节点或者部位)进行检测，输入一副含有行人的图像，输出图像中包括所有人的全部关键点坐标，由这些坐标信息可以获得当前姿态。由于每个行人的尺度不一样，行人之间的相互影响也很复杂，比如互相遮挡或者被其他物体遮挡，还有背景和衣着干扰、人体动作和姿态的复杂多变性等难题，这都将会给多人关键点检测带来很大的挑战。

传统方法主要采用图形结构来解决人体关键点检测问题，例如，树模型(TreeModels)和随机森林模型(Random Forest Models)都被证明是非常有效的关键点检测算法。随着人体关键点检测精度要求越来越高，传统方法已经不能满足需求了。近年来，深度学习技术得到了广泛的应用，产生了一系列人体关键点检测算法，例如DeepPose、CPM、SHN、PAFs、RMPE、CPN及其一系列衍生算法，但是这些检测技术或由于精度低或由于检测耗时过长并不能很好的应用到商业产品中。目前的人体关键点检测算法很难满足实际应用的需求，在科研领域，大部分研究者只关注人体关键点检测精度，会设计出很复杂的网络加一些很复杂的方法和一些训练技巧，然后在公开数据集上得到一个较好的成绩，但是这很难直接应用到实际中去。少部分研究者的方法在速度上满足了需求，但是会以牺牲精度为代价，精度低使得应用无法落地，大量的漏检和误检不可接受。

发明内容

针对传统检测方法难以平衡精度和复杂度的不足之处，本发明提出一种基于深度学习的人体关键点检测方法，设计了一种新的扩张卷积残差网络来构建人体关键点检测网络，不使用大网络也能实现较高的检测精度，机制鲁棒性强，因此本方法具有较高的实用价值。

本发明的技术方案为：

一种基于深度学习的人体关键点检测方法，包括如下步骤：

步骤1、获取训练数据，所述训练数据包括图片以及包含行人检测框和人体关键点坐标的标记文件；

步骤2、构建人体关键点检测网络，所述人体关键点检测网络为两级网络结构，第一级网络和第二级网络均采用扩张卷积残差网络；所述扩张卷积残差网络基于ResNet50网络，使用扩张卷积代替ResNet50网络中最后一个残差模块的普通卷积，扩张卷积的步长设置为1不减小特征图大小，并将ResNet50网络中最后一个残差模块的特征图通道数减小为原来的二分之一后形成所述扩张卷积残差网络；

步骤3、利用步骤1得到的训练数据对步骤2构建的人体关键点检测网络进行多次训练得到多个训练模型，每一次训练的具体方法为：

3.1、使用第一级扩张卷积残差网络的后四个残差模块作为骨干模块对所述训练数据进行特征提取得到四个特征图，并使用金字塔结构对四个特征图进行特征融合然后预测，将预测结果中的所有关键点计算损失后返回调整网络参数；

3.2、利用中间级将第一级网络的输入特征图、第一级网络的输出特征图和第一级网络的预测结果统一为相同的特征图通道数后相加作为第二级网络的输入特征图；

3.3、使用第二级扩张卷积残差网络的后四个残差模块作为骨干模块对所述第二级网络的输入特征图进行特征提取，将第二级扩张卷积残差网络中最后一个残差模块提取的特征图经过两层转置卷积后进行预测，将预测结果中的所有关键点计算损失并根据计算结果对所有关键点的损失按从大到小进行排序，选择前K×B个关键点的损失返回调整网络参数，B为输入图片的批量数，K∈[0，J]，J为人体关键点数；

步骤4、选择步骤3得到的所有训练模型中的最优模型；

步骤5、将待检测图像输入最优模型中检测进行人体关键点预测，具体方法为：

5.1、预处理：使用行人检测器检测出待检测图像中的所有行人，以固定宽高比的形式裁剪出单独的行人；

5.2、模型预测：使用步骤4得到的最优模型对预处理后的数据进行预测，得到人体关键点的预测热力图；

5.3、后处理：将步骤5.2得到的预测热力图上的最大响应点向第二大响应点偏移1/4得到最终关键点的位置坐标，然后将坐标映射回原图得到最终的人体关键点坐标。

具体的，所述步骤3中利用步骤1得到的训练数据对步骤2构建的人体关键点检测网络进行训练之前还包括将所述训练数据进行数据增强。

具体的，所述数据增强的具体方法为：

a、将所述训练数据中的行人检测框的宽高放大1.3倍，使用固定长宽比为4︰3的方式裁剪训练数据的图片中的行人，裁剪后缩放为固定尺寸；

b、将步骤a得到的裁剪后的所有图片以0.5的概率随机水平翻转，按0.7至1.3之间的缩放比例随机缩放，在-40°～+40°之间的旋转角度范围内随机旋转。

具体的，所述步骤3.1和3.3使用公式(1)计算损失得到损失函数L_H：

其中H_j(p)为预测结果，表示关键点j在位置p处的概率，

是真实值生成的热力图，关键点j是否可见用v_j表示，关键点j不可见时v_j＝0，关键点j可见时v_j＝1。

本发明的有益效果为：本发明充分利用了深度学习的准确度高的性质，鲁棒性好，能够适应外界环境的各种变化；构建了SDPN网络作为人体关键点检测网络，SDPN网络的两级网络采用不同的方式解码，能够更快速和准确地进行训练；提出批量级别困难关键点挖掘技术，在精度和速度之间做出平衡；本发明改进ResNet50网络保留更多的空间信息，能够达到较高的精度和较快的速度，具有很高的实用性。

附图说明

图1是本发明的整体框图。

图2是残差网络的原始结构(左)和本发明提出的一种基于深度学习的人体关键点检测方法中的扩张卷积残差网络(右)的结构示意图。

图3是本发明提出的一种基于深度学习的人体关键点检测方法中的SDPN网络结构图。

图4是本发明提出的一种基于深度学习的人体关键点检测方法中的中间层网络的结构图。

图5是本发明提出的一种基于深度学习的人体关键点检测方法中进行人体关键点检测的流程图。

图6是利用本发明提出的一种基于深度学习的人体关键点检测方法进行检测的待检测原图。

图7是利用本发明提出的一种基于深度学习的人体关键点检测方法进行检测的关键点检测结果图。

具体实施方式

下面结合附图和具体实施例详细描述本发明的技术方案。

如图1所示是本发明提出的一种基于深度学习的人体关键点检测方法的流程图，包括数据获取、网络构建、模型训练和评估、最优模型预测等步骤。本发明构建了堆叠扩张卷积金字塔网络结构SDPN进行预测，包括模型训练和利用训练好的模型进行预测。

模型训练包括如下步骤：

步骤1)获取数据。训练数据包含图片和标记文件，标注包含两个部分，行人检测框和人体关键点坐标，主要使用公开数据集。公开数据集是指MSCOCO数据集的人体关键点检测任务相关的数据，本实施例在COCO2017的训练集(包含58,945张图像和15万个标注行人)上训练，没有使用额外数据集，使用val2017(包含5000张图像)线下验证，使用test-dev2017(包含超过2万张图像)线上验证。COCO数据集(Common Objects in COntext，是微软团队提供的一个可以用来进行图像识别的数据集)的每个标注对象都包含一系列的字段，包括图片的ID、物体的类别ID(对于关键点检测任务主要取行人那一类，对应ID为1)、物体的包围框、物体的分割掩码，物体的面积以及是否是密集(iscrowd)等字段，其中物体面积表示物体包含的像素数，iscrowd字段用于表示标注对象是否密集。对于关键点检测任务的标注，除了以上所有字段以外，还有以下属性，关键点坐标、关键点是否可见(isvisible)、关键点个数以及骨架(skeleton)，其中关键点是否可见用v表示，定义v＝0表示未标记(这种情况下x＝y＝0)，v＝1表示标记但不可见，v＝2表示标记并且可见。其中标注中的关键点个数表示该人体被标记关键点的数量(即v＞0)。骨架信息表示不同关键点之间的连线。

步骤2)网络构建。

本发明提出了堆叠扩张卷积金字塔网络结构(Stacked Dilated-conv PyramidNetwork，SDPN)来作为人体关键点检测网络，堆叠扩张卷积金字塔网络基于扩张卷积残差网络，使用堆叠方式构建，一共有两级，两级网络均为扩张卷积残差网络，扩张卷积残差网络基于ResNet50网络，如图2所示，其中，dr表示下采样率，C表示特征图通道数，conv表示卷积，maxpool表示最大池化，dilated conv表示扩张卷积，Fc表示全连接层，softmax表示把分类结果映射为一种概率的形式，值是到0-1之间的实数，且和为1。图2左图为ResNet50网络，右图为本发明提出的扩张卷积残差网络，本发明将ResNet50网络中最后一个残差模块的特征图通道数减小为原来的二分之一，并用步长为1的扩张卷积代替ResNet50网络中最后一个残差模块的普通卷积后形成扩张卷积残差网络。

本发明没有直接使用残差网络ResNet50作为基础网络，由于ResNet50可以分为5个残差模块，ResNet50网络有5次下采样，最后一个残差模块输出的特征图的宽和高都是原图的1/32，大量损失了空间信息，因为ResNet最初使用在ImageNet的图像分类任务，空间信息对于图像分类任务可能不是那么重要，相对而言语义信息可能更重要。但是人体关键点检测任务需要精准定位关键点坐标，空间信息很重要，下采样过程损失的空间信息很难被恢复，本发明通过在最后一个残差模块中引入扩张卷积代替原始结构中的普通卷积来解决这个问题。引入扩张卷积改变了网络结构从而导致不能完全使用预训练模型初始化。本发明只在最后一个残差模块使用步长为1、扩张率为2的扩张卷积，增加感受野的同时不减小特征图，保留更多的空间信息，但这将会带来计算量的增加，为了避免计算量增加过大，本方法对特征图的通道数和特征图的空间尺寸做一个平衡，由于特征图大小不变，减小通道数为原来的1/2，即C₄和C₅具有相同尺寸和相同的通道数。

堆叠扩张卷积金字塔网络结构SDPN两个基础网络都是使用扩张卷积残差网络，堆叠扩张卷积金字塔网络结构如图3所示，deconv表示转置卷积。使用堆叠方式构建两级网络，其中第一级网络使用金字塔网络结构，在4个不同的层级进行特征融合然后预测，第二级网络使用转置卷积上采样两次然后预测，并在第二级网络使用批量级别困难关键点挖掘。

步骤3)模型训练。将步骤2构建的网络使用训练集进行多次模型训练，单次训练的过程如下。

使用第一级扩张卷积残差网络的后四个残差模块作为骨干模块对所述训练数据进行特征提取得到四个特征图，并对四个特征图进行预测，将预测结果中的所有关键点计算损失后返回调整网络参数。其中本发明中第一级网络使用金字塔网络结构，金字塔网络在多个不同分辨率的特征图上进行预测，本方法没有使用较大尺度的上采样，最多只使用2倍上采样和4倍上采样。使用中继监督的方式训练，对这些预测结果分别计算损失并进行回传。

在不同级网络之间连接方面，见图4，下一级网络的输入由三个部分组成，分别是前一级的输出特征图、前一级的预测结果和金字塔网络最初的输入特征图，这三部分特征图的尺寸都相同，只有通道数不同，中间级使用1×1的卷积将这三部分的通道数变为相同，然后按元素相加。另外为了更好利用前一级特征，SDPN还大量使用了跳过连接，第一级的上采样和下采样支路中的特征都会通过跳过连接传输到第二级网络中进行特征融合，第二级网络的特征图将同时具备浅层和深层的特征以及不同尺度的特征。前一级网络中间特征和最后的预测结果都会以某种形式传递到下一级，对于关键点检测这类结构式任务，很多关键点之间有很强的关联性，该结构将有利于第二级网络生成更精确的结果。

在第二级网络中，类似第一级的骨干网络，继续使用带扩张卷积的ResNet50网络的后4个残差模块作为骨干网络用于提取特征，在解码部分使用带转置卷积的头部网络，转置卷积可以同时实现卷积和上采样的功能，同时它也是可学习的层。在经过2层转置卷积之后，特征图的分辨率达到最大，宽和高变为原图1/4。在第二级网络中，只在最终的特征图上做一次预测，并计算损失和反向传播，如图3所示。其中第二级网络在计算损失时采用批量级别困难关键点挖掘技术，批量级别困难关键点挖掘是一种改进的困难关键点挖掘方法。

SDPN整体网络是粗糙检测到精细检测的过程，在第一级网络中对所有标记的关键点计算损失，在第二级网络中并不是回传所有关键点损失。传统方法是以每个人体为单位进行困难关键点挖掘，取每个人体J个关键点损失中的前K(其中K根据实际实验得到)个，对于全身可见的人体提取前K个困难关键点，对于非常多遮挡的人体也是只提取前K大的损失，这显然不合理。本方法使用批量级别困难关键点挖掘，困难关键点挖掘是在整个批量样本中而不是单个人体样本，很容易观察到困难关键点并不是均匀分布在每个人体身上。具体为，假设输入图片的批量大小为B，计算这个批量所有人体关键点的损失，然后从大到小排序取前K×B(其中K根据实际实验得到，取值为0-J)个损失进行反向传播。在人体关键点检测中一个批量大小一般为十几或者几十，在比较多的样本中去寻找困难关键点会更精确和更有代表性。K表示对困难关键点的一种挖掘程度，使用枚举法找到一个合适的K，可以最佳的平衡难关键点和简单关键点，因为不同的K可以得到不同的检测精度，对于本方法，取值是在0-17之间。

一些实施例中，步骤3的模型训练中还使用了一些数据增强的方式，数据增强是指根据标注信息中的行人包围框去裁剪每个行人得到单个行人的图片和标注信息，裁剪方式如下：把行人检测框的宽高放大1.3倍，使用固定长宽比为4:3的方式裁剪保证图像不会发生扭曲形变并缩放为固定尺寸，默认情况高度是256，宽度是192，填充值为ImageNet数据集的像素均值。关于数据增强，主要使用常见的一些增强方式，以0.5的概率随机水平翻转，随机缩放，缩放比例为0.7至1.3之间，以及随机旋转，旋转角度范围-40°～+40°之间，所有这些增强变换需要同时用于图片和标注信息上。

本发明使用在ImageNet上预训练的ResNet50模型来初始化SDPN的第一级网络的部分参数，其他参数随机初始化。加载步骤1)中的训练数据进行一定的数据增强之后输入到网络中训练，不断调整学习率、批量大小(batch_size)、优化方法等超参数来训练SDPN网络。本实施例中使用L2损失函数，每个人体的损失使用L_H表示。

上式中，H_j(p)是预测结果代表关键点j在位置p处的概率，

是真实值生成的热力图，关键点j是否可见用v_j表示，v_j取值为0或1，如果关键点j不可见即v_j＝0，将不用计算损失，否则v_j＝1，需要计算损失。

步骤4)模型评估。选出所有训练得到的模型中在验证集表现最优的模型；在训练过程，每经过1轮存储一次模型，一般情况，训练120轮即可。并将该模型在验证集测试，根据人体关键点检测的精度选择最优的模型。

根据上述过程可到训练好的最优模型，随后就可以利用训练好的模型进行预测。

预测的流程如图5所示，预测程序是构建网络的前向推断过程，前向推断过程的网络结构与训练时的结构是相同的，只是没有计算损失和回传损失的过程，只使用第二级网络输出作为最终结果。输入参数为待检测的图像数据，返回为预测结果，得到所有人体关键点坐标，中间经过预处理、模型预测和后处理。输入图片做一个简单的预处理，预处理包含使用行人检测器检测出图片中的所有行人，以固定宽高比的形式裁剪出单独的行人，然后传给SDPN网络进行预测，得到人体关键点的预测热力图结果，后处理对热力图进行一定的处理，把热力图上的最大响应点向第二大响应点偏移1/4得到最终关键点位置，然后将坐标映射回原图得到最终的人体关键点坐标。

本发明提出了一种性能更好的人体关键点检测网络模型，称为堆叠扩张卷积金字塔网络，整体使用两级网络，体现由粗糙检测到精细检测的思想。它是一个典型的非对称网络结构，使用比较深的骨干网络作为编码部分提取更丰富的特征，同时可以使用ImageNet预训练模型初始化权重。另外在骨干网络的最后一个模块使用扩张卷积，最后一个模块不减小特征图，保留更多的空间信息，减少特征图的通道数，避免过大的计算量。通过大量的跳过连接进行特征融合，不同层级不同尺度的特征融合带来更丰富的空间信息和语义信息。整体网络是一个从粗糙检测到精细检测的过程，后一级会在前一级的基础上针对困难关键点做一些微调，从而得到更精确的结果。

另外针对本发明使用的堆叠扩张卷积金字塔网络，改进了损失函数的处理方式，对不同级网络的输出使用不同的处理方式，第一级网络使用普通的L2损失处理所有关键点，第二级网络使用批量级别困难关键点挖掘方法处理难关键点。

以上对本发明所提供的方法进行了详细介绍，本方法中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的人体关键点检测方法，其特征在于，包括如下步骤：

步骤2、构建人体关键点检测网络，所述人体关键点检测网络为两级网络结构，第一级网络和第二级网络均采用扩张卷积残差网络；所述扩张卷积残差网络基于ResNet50网络，使用步长为1的扩张卷积代替ResNet50网络中最后一个残差模块的普通卷积，并将ResNet50网络中最后一个残差模块的特征图通道数减小为原来的二分之一后形成所述扩张卷积残差网络；

步骤4、选择步骤3得到的所有训练模型中的最优模型；

2.根据权利要求1所述的基于深度学习的人体关键点检测方法，其特征在于，所述步骤3中利用步骤1得到的训练数据对步骤2构建的人体关键点检测网络进行训练之前还包括将所述训练数据进行数据增强。

3.根据权利要求2所述的基于深度学习的人体关键点检测方法，其特征在于，所述数据增强的具体方法为：

4.根据权利要求1至3任一项所述的基于深度学习的人体关键点检测方法，其特征在于，所述步骤3.1和3.3使用公式(1)计算损失得到损失函数L_H：

其中H_j(p)为预测结果，表示关键点j在位置p处的概率，