CN109948453A

CN109948453A - 一种基于卷积神经网络的多人姿态估计方法

Info

Publication number: CN109948453A
Application number: CN201910136583.3A
Authority: CN
Inventors: 邹腊梅; 熊紫华; 李长峰; 李晓光; 陈婷; 张松伟; 俞天敏; 车鑫; 颜露新; 钟胜; 杨卫东
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-06-28
Anticipated expiration: 2039-02-25
Also published as: CN109948453B

Abstract

本发明提出了一种基于卷积神经网络的多人姿态估计方法，将待处理图像输入到已完成训练的多人姿态估计网络得到两组数据，分别为人体关键点位置数据和人体关键点映射向量数据，然后解码数据得到图像中人体关键点和人体中心点的位置，并通过映射向量将关键点映射到可聚类的二维空间，再使用k‑means算法对映射后的关键点进行聚类间接实现原始人体关键点的分组，对分组关键点分析，最终实现多人姿态估计。本发明提出的多人姿态估计网络由特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块四部分组成，可以实现端到端的训练和预测。本发明是一种自下而上多人姿态估计方法，在速度和准确率上均有良好表现。

Description

一种基于卷积神经网络的多人姿态估计方法

技术领域

本发明属于计算机视觉技术领域，具体涉及到了一种基于卷积神经网络的多人姿态估计方法。

背景技术

在计算机视觉任务中，人体常常是主要的研究对象，例如视频监控、运动分析和人机交互等。人的行为动作由人体关键点或称为骨骼点的运动组成，如肩部、手肘和手腕的运动组成手的运动。如果可以定位这些人体关键点，就可以为后续的人体行为分析打下基础，例如在无人监守的情况下自动识别打砸，行人跌倒等异常行为。基于计算机视觉的多人姿态估计，是指根据图像信息定位人体关键点，将人体关键点相连从而构成人体骨架模型。多人姿态估计主要面临以下难点：图像中的人体可能出现在任意位置，数量和尺寸未知；图像中的人体存在互相遮挡的情况，人体外观不完整；图像中的人体姿态复杂多变等。

近年来，得益于卷积神经网络的强大图像特征提取能力，多人姿态估计取得了显著的进步，主要可以分为自上而下和自下而上两种思路。其中自上而下是指，首先检测图像中人体从而获得人体的位置、数量和尺寸信息，再对每个检出人体采用单人姿态估计方法。这种方法依赖人体检测器，测试速度慢且随图像中人体个数线性变慢。自下而上是指，首先检测图像中所有的人体关键点再建模关键点之间的关系，属于相同人体的关键点分组在一起，组成人体骨架模型，从而实现多人姿态估计。现有技术一般采用预测关键点标记或者关键点之间的连接关系，通过标记或者连接关系对关键点分组，不能很好的利用人体结构特点，可解释性较差。

发明内容

针对现有技术的缺陷，本发明提供了一种基于卷积神经网络的多人姿态估计方法，旨在解决现有技术自上而下的方法速度慢，依赖人体检测器，自下而上的方法其关键点分组可解释性较差的问题。

为实现上述目的，本发明提供了一种基于卷积神经网络的多人姿态估计方法，包括：

(1)使用完成训练的多人姿态估计网络对输入的512×512大小的图像进行计算得到两种数据，分别是人体关键点位置数据和人体关键点映射向量数据；

(2)解码人体关键点位置数据得到图像中所有的16类人体关键点和人体中心，解码人体关键点映射向量数据，将每个人体关键点和人体中心映射到可聚类的二维空间得到人体关键点映射后的二维坐标；

(3)使用k-means对映射后的二维坐标分组，从而间接实现原始人体关键点分组，完成多人姿态估计。

优选地，步骤(1)中所述多人姿态估计网络由特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块四部分组成。其中，特征提取网络为去除池化层和全连接层的ResNet50(残差50)网络，用于提取图像特征；特征通道压缩模块由卷积层、BN(Batch Normalization，批归一化)和ReLU(Rectified linear unit，修正线性单元)激活函数组成，用于压缩特征，使得特征通道数由2048缩减至512；人体关键点位置分支模块由3层卷积和激活函数组成，前两层激活函数为ReLU激活函数，最后一层激活函数为sigmoid激活函数，用于输出人体关键点位置数据；人体关键点映射向量分支模块由3层卷积和激活函数组成，前两层激活函数为ReLU激活函数，最后一层激活函数为tanh激活函数，用于输出人体关键点映射向量数据。

优选地，多人姿态估计网络的训练采用的损失函数为平方损失函数，定义总体损失函数为：

Loss＝loc_loss+conf_loss+vec_loss

其中loc_loss表示位置损失，conf_loss表示置信度损失，vec_loss表示映射向量损失，具体计算公式如下：

其中为示性函数表示第i类人体关键点落在第k个网格中，为示性函数表示第i类人体关键点没有落在第k个网格中，具体为以下公式：

表示第k个网格第i类人体关键点的位置输出置信度输出和映射向量输出分别表示对应的真实标签值，λ_xy,λ_{conf_obj},λ_{conf_noobj},λ_vec是调节位置损失、正样本置信度损失、负样本置信度损失和映射向量损失相应各部分损失的经验参数，考虑到不含关键点的网格占比大，为了平衡正负样本，经验性的将各参数取值为1、1、0.05和1。

优选地，步骤(1)中所述人体关键点位置数据是S×S×51的数据块，其中S×S指图像划分成S×S大小的网格，51由16类人体关键点和1个人体中心共17组位置信息(p,x,y)组成，p表示人体关键点落在该网格的概率，x表示人体关键点相对于网格左上角的水平方向偏移，y表示人体关键点相对于网格左上角的竖直方向偏移。

优选地，步骤(1)中所述人体关键点映射向量数据是S×S×32的数据块，其中S×S指图像划分成S×S大小的网格，32由16类人体关键点指向人体中心的映射向量v组成，其中v是二维向量(v_x,v_y)。

优选地，步骤(2)中所述解码人体关键点位置数据的过程为，通过S×S网格输出概率p，使用非极大值抑制确定最大概率输出值，其对应关键点位于S×S网格的第row行，第col列，该网格输出人体关键点相对于该网格左上角的坐标(x,y)，则人体关键点位置(px,py)由以下公式得到。

其中W和H为输入图像的宽和高。

优选地，步骤(2)中所述解码人体关键点映射向量数据具体为关键点所在网格输出映射向量(v_x,v_y)，由以下公式得到映射后的二维坐标(x′,y′)：

x′＝px+v_x

y′＝py+v_y

优选地，步骤(3)中所述使用k-means对映射后的二维坐标分组具体为k-means算法，聚类中心个数是人体中心个数，聚类初始化中心是人体中心位置，聚类所用特征是人体关键点映射后的二维坐标(x′,y′)。

附图说明

图1是本发明提供的基于卷积神经网络的多人姿态估计方法的流程示意图；

图2是本发明实施例提供的多人姿态估计网络的结构示意图；

图3是本发明实施例提供的人体关键点位置数据示意图；

图4是本发明实施例提供的人体关键点映射向量数据示意图；

图5是本发明实施例提供的人体关键点与S×S网格关系示意图；

图6是本发明实施例提供的人体关键点的预测结果示意图；

图7是本发明实施例提供的人体关键点经过映射后的结果示意图；

图8为本发明实施例提供的映射后的人体关键点聚类结果示意图；

图9为本发明实施例提供的多人姿态估计结果示意图。

具体实施方式

为了充分阐述本发明的目的、技术方案及优点，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的具体步骤如图1所示的流程示意图，可以分为以下步骤：

(1)输入512×512大小的图像，使用完成训练的多人姿态估计网络计算得到两种数据，分别是人体关键点位置数据和人体关键点映射向量数据；

(3)使用k-means对映射后的人体关键点聚类分组，从而间接实现原始人体关键点分组，完成多人姿态估计。

搭建多人姿态估计网络如图2所示，该网络由特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块四部分组成。

具体地，特征提取网络为去除池化层和全连接层的ResNet50(残差50)网络，用于提取图像特征；特征通道压缩模块由卷积层、BN(Batch Normalization，批归一化)和ReLU(Rectified linear unit，修正线性单元)激活函数组成，用于压缩特征，使得特征通道由2048缩减至512；人体关键点位置分支模块由3层卷积和激活函数组成，前两层激活函数为ReLU激活函数，最后一层激活函数为sigmoid激活函数，用于输出人体关键点位置数据；人体关键点映射向量分支模块由3层卷积和激活函数组成，前两层激活函数为ReLU激活函数，最后一层激活函数为tanh激活函数，用于输出人体关键点映射向量数据。

本发明使用深度学习方法，其训练过程使用了Ubuntu16.04系统，Pytorch深度学习框架，硬件配置如下，GPU：GTX1080Ti(显存11GB)、内存：32GB、CPU：Intel酷睿12核i7处理器。

训练使用随机梯度下降(SGD，Stochastic Gradient Descent)作为优化器，其批尺度(Batch Size)为12，动量(Momentum)为0.9，权重惩罚系数(Weight Decay)为5×10^-4，初始化学习率为5×10^-3，随着训练轮数(Epoch)递减，训练轮数为100轮。输入图像尺寸为512×512，做随机旋转和随机水平翻转数据增强，其中随机概率均为0.5，旋转角度范围在[-30°,30°]之间。

多人姿态估计网络输出两组数据，分别为人体关键点位置数据和人体关键点映射向量数据。如图3所示是人体关键点位置数据是S×S×51的数据块，具体而言S×S指图像划分成S×S大小的网格，51由16类人体关键点和1个人体中心共17组位置信息(p,x,y)组成，分别表示人体关键点落在该网格的概率，相对于网格左上角的水平方向偏移，相对于网格左上角的竖直方向偏移。如图4所示是人体关键点映射向量数据是S×S×32的数据块，其中S×S指图像划分成S×S大小的网格，32由16类人体关键点指向人体中心的映射向量v组成，其中v是二维向量(v_x,v_y)。

网络输出以上两组数据后，需要对数据解码得到最终想要的结果，人体关键点位置编码如图5所示，其中(x_p,y_p)为原始位置坐标，(x_i,yi)是编码后的位置坐标，(x_g,y_g)是网格左上角坐标，b是网格边长，具体编码公式如下：

解码人体关键点位置数据的过程为，通过S×S网格输出概率p，使用非极大值抑制确定最大概率输出值，其对应关键点位于S×S网格的第row行，第col列，该网格输出人体关键点相对于该网格左上角的坐标(x,y)，则人体关键点位置(px,py)由以下公式得到：

其中W和H为输入图像的宽和高，得到关键点位置和人体中心位置如图6所示。

解码人体关键点映射向量数据具体为，通过关键点所在网格输出映射向量(v_x,v_y)，由以下公式将人体关键点映射到位置(x′,y′)：

x′＝px+v_x

y′＝py+v_y

得到映射向量和映射后的关键点位置如图7所示。

之后使用k-means对映射后的人体关键点聚类分组，具体为k-means算法，聚类中心个数是人体中心个数，聚类初始化中心是人体中心位置，聚类所用特征是人体关键点映射后的二维坐标(x′,y′)，聚类结果如图8所示，多人对象分别为不同类别。

得到上述聚类结果间接实现了原始人体关键点的分组，从而实现了多人姿态估计，结果如图9所示。

本发明的内容并不限于上述实施方式，并不限定它的保护范围。本技术领域的技术人员可以对其进行局部修改，只要没有超出本专利的技术实质，都在本专利的保护范围之内。

Claims

1.一种基于卷积神经网络的多人姿态估计方法，其特征在于，包括下述步骤：

(1)使用完成训练的多人姿态估计网络对输入的图像进行计算得到人体关键点位置数据和人体关键点映射向量数据；

(2)解码所述人体关键点位置数据得到所述图像中所有的m类人体关键点和人体中心，解码所述人体关键点映射向量数据，将所述每类人体关键点和人体中心映射到可聚类的二维空间得到人体关键点映射后的二维坐标；

(3)对所述映射后的二维坐标分组，进行多人姿态估计。

2.如权利要求1所述的多人姿态估计方法，其特征在于，所述多人姿态估计网络包括特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块；

所述特征提取网络用于提取所述图像的特征；所述特征通道压缩模块用于压缩所述特征；所述人体关键点位置分支模块用于输出人体关键点位置数据；所述人体关键点映射向量分支模块用于输出人体关键点映射向量数据。

3.如权利要求2所述的多人姿态估计方法，其特征在于，所述特征通道压缩模块包括卷积层、BN(Batch Normalization，批归一化)和ReLU(Rectified linear unit，修正线性单元)激活函数；所述人体关键点位置分支模块包括3层卷积和激活函数，前两层激活函数为ReLU激活函数，最后一层激活函数为sigmoid激活函数；所述人体关键点映射向量分支模块包括3层卷积和激活函数，前两层激活函数为ReLU激活函数，最后一层激活函数为tanh激活函数。

4.如权利要求1所述的多人姿态估计方法，其特征在于，所述多人姿态估计网络的训练采用的损失函数为平方损失函数，定义总体损失函数为：

Loss＝loc_loss+conf_loss+vec_loss

表示第k个网格第i类人体关键点的位置输出置信度输出和映射向量输出分别表示对应的真实标签值，λ_xy,λ_{conf_obj},λ_{conf_noobj},λ_vec分别是调节位置损失、正样本置信度损失、负样本置信度损失和映射向量损失相应各部分损失的经验参数，各参数取值为1、1、1、0.05和1。

5.如权利要求1所述的多人姿态估计方法，其特征在于，所述人体关键点位置数据为S×S×3×(m+1)的数据块，所述图像被划分成S×S大小的网格，3×(m+1)包括m类人体关键点和1个人体中心共m+1组位置信息(p,x,y)，p表示人体关键点落在该网格的概率，x表示人体关键点相对于网格左上角的水平方向偏移，y表示人体关键点相对于网格左上角的竖直方向偏移。

6.如权利要求1所述的多人姿态估计方法，其特征在于，所述人体关键点映射向量数据是S×S×2×m的数据块，所述图像被划分成S×S大小的网格，2×m包括m类人体关键点指向人体中心的映射向量v＝(v_x,v_y)。

7.如权利要求1所述的多人姿态估计方法，其特征在于，所述解码人体关键点位置数据包括使用非极大值抑制方法得到最大概率输出值，所述最大概率对应的人体关键点位于S×S网格的第row行，第col列，解码后的人体关键点位置(px,py)由以下公式得到：

其中W和H为输入图像的宽和高。

8.如权利要求1所述的多人姿态估计方法，其特征在于，所述映射后的二维坐标(x′,y′)由以下公式得到：

x′＝px+v_x

y′＝py+v_y

其中v＝(v_x,v_y)为人体关键点指向人体中心的映射向量。