CN110598554A

CN110598554A - 基于对抗学习的多人姿态估计方法

Info

Publication number: CN110598554A
Application number: CN201910735240.9A
Authority: CN
Inventors: 陈分雄; 陶然; 黄华文; 蒋伟; 刘建林; 熊鹏涛; 韩荣; 叶佳慧; 王杰
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-12-20
Anticipated expiration: 2039-08-09
Also published as: CN110598554B

Abstract

本发明公开了一种基于对抗学习的多人姿态估计方法，包括以下步骤：使用带有多人关键点坐标标签的公开数据集作为训练集，对训练集图像进行边缘信息增强预处理；对训练集中的关键点坐标标签做预处理，制作成对应的关键点热点图和整体骨架热点图；构建双分支关键点特征提取子网络；构建A‑HPose网络生成器部分；构建A‑HPose网络判别器部分；使用训练集对A‑HPose网络进行中继监督循环训练，得网络模型参数；对网络输出热点图做后处理，根据骨架热点图来对关键点热点图中的关键点进行搜索分类，得到多人中每一个人的关键点位置，预估多人姿态。本发明具有快速准确检测人体关键点特征的有益效果。

Description

基于对抗学习的多人姿态估计方法

技术领域

本发明涉及计算机视觉与图像识别技术领域。更具体地说，本发明涉及一种基于对抗学习的多人姿态估计方法。

背景技术

近年来，随着移动互联网技术的快速发展，包含视觉信息的图像和视频数据呈现爆炸式增长，如何从海量的图像和视频中发现可能包含语义内容的视觉目标物体，具有十分重要的意义。人体姿态估计(HumanPose Estimation)是在给定的图像或视频中对人体的关键部位或主要关节进行检测，最终输出人体全部或局部肢体相关参数(各个关节点的相对位置关系)的过程，例如人体轮廓、头部的位置与朝向、人体关节的位置和部位类别等。人体姿态估计研究涉及了计算机视觉中几乎所有与人类有关的问题，从整个人体姿态分析到详细的人体部位定位，其广泛应用在运动分析、动画制作和视频检索等任务中。传统的人体姿态估计方法通常需要额外的硬件设备去捕捉人的姿态，再根据捕捉到的关节位置构建人体模型，传统方法大多数是昂贵的或低效的。

深度学习(DL)是一种人工智能技术，具有出色的数学拟合能力和深层特征学习能力，近年来，卷积神经网络(CNNs)在各个领域表现出惊人的能力，促进了DL在各个领域的广泛应用。CNN可以通过多层迭代卷积提取更深入，更丰富的数据隐藏信息，但图像中肢体的遮挡，衣服的存在也会影响人体姿态的可见性。因此，对人体姿态估计而言，寻找一种高效的深度学习模型快速准确检测人体关键点的方案是至关重要的。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于对抗学习的多人姿态估计方法，具有快速准确检测人体关键点的效果。

为了实现根据本发明的这些目的和其它优点，提供了一种基于对抗学习的多人姿态估计方法，包括以下步骤：

步骤一、使用带有多人关键点坐标标签的公开数据集作为训练集，对训练集图像进行边缘信息增强预处理。

步骤二、对训练集中的关键点坐标标签做预处理，制作成对应的关键点热点图和整体骨架热点图；

步骤三、构建双分支关键点特征提取子网络；

步骤四、使用子网络构建A-HPose网络生成器部分；

步骤五、使用卷积神经网络构建A-HPose网络判别器部分；

步骤六、使用训练集对A-HPose网络进行中继监督循环训练，得网络模型参数；

步骤七、对网络输出热点图做后处理，根据骨架热点图来对关键点热点图中的关键点进行搜索分类，得到多人中每一个人的关键点位置，预估多人姿态。

优选的是，步骤一中对训练集图像进行边缘信息增强预处理的方法为：使用边缘提取算子提取输入图像的边缘特征，再将图像边缘特征信息综合线性叠加到原始图像上。

优选的是，步骤二中，关键点热点图是以关键点位置为中心点、R为半径的圆盘上标注关键点位置信息的热点图，整体骨架热点图是在关键点热点图的基础上添加关键点间的连接信息。

优选的是，步骤三中的子网络包括上分支和下分支，上分支用于在保持原始图像尺寸的特征图上提取骨架信息，下分支用于在不同尺寸特征图上提取关键点信息。

优选的是，步骤四中A-HPose网络生成器部分包括多个网络生成器G，网络生成器G的目标是使其输出接近真实坐标标签的分布，因此网络生成器G的目标是减小输出与坐标标签值的差值，即网络生成器G的目标函数为：

其中M是指训练过程中共有M个样本，N是指每一个训练样本中共有N类关键点，是指第i个训练样本的第n类关键点的位置标注向量，是指是指第i个训练样本的第n类关键点的预测位置向量，是指第i个训练样本的第n类关键点的可见性标注向量，是指第i个训练样本的第n类关键点的预测可见性向量，θ为网络生成器G的网络模型参数。

优选的是，步骤五中A-HPose网络判别器部分包括用于区分人体姿态真假的姿态判别器P和置信度判别器C，姿态判别器P的目标是从真实姿势中区分假姿势，即姿态判别器P的目标函数为：其中x是输入向量，y是关键点位置标注向量，z是关键点可见性标注向量，p_fake为生成姿态的姿态得分；

置信度判别器C的目标是用于区分高置信度预测和低置信度预测，即置信度判别器C的目标函数为：其中x是输入向量，y是关键点位置标注向量，z是关键点可见性标注向量，c_fake是生成姿态的置信度得分。

优选的是，A-HPose网络整体目标函数如下：

其中α为置信度判别器C损失权重，β是姿态判别器P损失权重。

优选的是，步骤六中网络模型参数的获取方法为：使用训练集对A-HPose网络进行循环对抗训练，平衡网络生成器部分和网络判别器部分的学习效率，同时在A-HPose网络生成器部分使用不同半径R构成的关键点热图用于中继监督训练，输出网络模型参数。

优选的是，步骤七中后处理方法采用快速贪心解码算法。

本发明至少包括以下有益效果：本发明提供的方法能有效降低人体动作分析、人机交互以及视频监视等方面的技术难度与成本，本实施例设计的双分支关键点特征提取子网络能有效从多个尺度快速学习人体关键点特征，具有高准确率和良好的鲁棒性，而且对于多人的姿态估计在算法时间上相对稳定，不会因人体的示例数量而线性增加算法运行时间。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明其中一个技术方案的估计方法流程图；

图2为本发明其中一个技术方案的上分支和下分支子网络结构；

图3为本发明其中一个技术方案的A-HPose网络结构；

图4为本发明其中一个技术方案的A-HPose网络姿态估计的预测结果；

图5为本发明其中一个技术方案的中继监督对梯度回传效果的影响。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本实施例提供一种基于对抗学习的多人姿态估计方法，包括以下步骤：

步骤一、使用带有多人关键点坐标标签的公开数据集作为训练集，对训练集图像进行边缘信息增强预处理，训练集包含多组数据，每一组数据包括一张图像和图像中人体关键点的标注信息；

首先对公开数据集的图像数据作为训练集，数据集来源于公开的coco人体关键点数据集，共包含超过58K张的图像数据，共有超过156K个人体实例。由于公开数据集中每张图像基本都包含多个人体实例，为了实现多人姿态估计信息的同时检测，对输入图像做边缘增强预处理，进一步增强多个人体实例之间的区分特征，便于对抗学习网络的多人关键点特征提取，使用Sobel算子和Canny算子分别对原始图像做边缘特征提取，再将图像边缘特征信息综合线性叠加到原始图像中，增强输入图像的边缘信息，提高网络对多人的区分能力。

步骤二、对训练集中的关键点坐标标签做预处理，制作成对应不同关键点的热点图和整体骨架热点图；

关键点热点图是以关键点位置为中心点、R为半径的圆盘上标注关键点位置信息的热点图，整体骨架热点图是在关键点热点图的基础上添加了关键点间的连接信息，增加学习过程中的监督信息，其中，R以经验进行取值，一般可以取值5-15个像素值大小。

步骤三、构建双分支关键点特征提取子网络；

使用卷积神经网络构成的双分支关键点特征提取子网络D-KPF，该子网络包含上分支和下分支，上分支用于在保持原始图像尺寸的特征图上提取骨架信息，下分支用于在不同尺寸特征图上提取关键点信息，不同尺寸特征图由网络结构实现的，在网络生成器部分会有下采样再上采样的过程，可以实现在不同尺寸特征图上提取信息的效果，结构如图2所示。

步骤四、使用子网络构建A-HPose网络生成器部分；

使用子网络D-KPF堆叠构建A-HPose网络生成器G，该网络生成器部分用于提取多人的关键点特征，生成多人关键点热点图和骨架热点图。

步骤五、使用卷积神经网络构建A-HPose网络判别器部分；

使用卷积神经网络构建A-HPose网络判别器部分，该网络判别器部分包含姿态判别器P，用于区分人体姿态的真假以及置信度判别器C，用于区分高置信预测和低置信预测，网络整体结构如图3所示；

A-HPose网络编解码部分网络的具体参数如表1所示，A-HPose网络编解码部分为整体网络各部分的结构参数，即包括生成器网络G、姿态判别器网络P和置信度判别器网络C，判别器网络P指姿态判别器P的网络构成，置信度判别器网络C指置信度判别器C的网络构成；

表1 A-HPose网络编解码网络参数

生成器G的目标是使其输出接近真实坐标标签的分布，因此网络生成器G的目标是减小输出与坐标标签值的差值，即网络生成器G的目标函数为：

其中M是指训练过程中共有M个样本，N是指每一个训练样本中共有N类关键点，是指第i个训练样本的第n类关键点的位置标注向量，是指是指第i个训练样本的第n类关键点的预测位置向量，是指第i个训练样本的第n类关键点的可见性标注向量，是指第i个训练样本的第n类关键点的预测可见性向量，θ为网络生成器G的网络模型参数；

姿态判别器P的目标是从真实姿势中区分假姿势，即姿态判别器P的目标函数为：其中x是输入向量，y是关键点位置标注向量，z是关键点可见性标注向量，p_fake为生成姿态的姿态得分；

网络整体目标函数如下：其中α为置信度判别器C损失权重，β是姿态判别器P损失权重。

训练A-HPose网络时，将预处理后的图像数据作为网络的训练集，使用BP算法对网络进行训练，算法流程如下：

算法中x是输入的训练集，G(x)是生成网络输出的姿势生成结果，Loss_P是姿态判别器P的目标函数，Loss_C是置信度判别器的目标函数。A-HPose网络经过上述算法对抗训练完成后，可以快速准确提取人体姿态信息，具有高准确率和良好的鲁棒性。

步骤七、对网络输出关键点热点图和整体骨架热点图做后处理，根据骨架热点图来对关键点热点图中的关键点进行搜索分类，得到多人中每一个人的关键点位置，预估多人姿态；

为了将关键点分组到检测到的人员实例中，首先创建一个优先级队列，在所有K个关键点类型中共享，其中本实施例在Hough得分图H_k(x)中插入位置和所有局部最大值的关键点类型k，其得分高于阈值，这些点用作启动检测实例的候选种子。然后，本实施例按降序顺序将元素弹出队列。在每次迭代时，如果当前k类型候选检测种子的位置在先前检测到的人员实例的相应关键点的磁盘D_r内，则本实施例拒绝它；为此，本实施例使用r＝10像素的非最大抑制半径。否则，本实施例启动一个新的检测实例j，其中第k个关键点位于y_j,k＝x_i位置，作为种子。然后，本实施例沿着运动人图的边缘跟随中距离位移矢量，以贪婪地连接相邻关键点对(k，l)，设置y_j,l＝y_j,k+M_k,l(y_j,k)。

实验1：A-HPose网络对抗训练后对测试样本的姿态估计结果进行比较

A-HPose网络训练时选取训练迭代次数为2500，选取coco人体关键点数据集中的11000个图像数据对网络性能进行测试。图4是姿态估计的预测结果，图4中(a1)(b1)(c1)是原始输入图像，图4中(a2)(b2)(c2)为对应的姿态估计预测结果，表2是本方法与其它方法在不同评价指标下的定量对比。

表2 A-HPose网络与其它方法的性能对比

Method	AP	AP<sup>50</sup>	AP<sup>75</sup>	AP<sup>M</sup>	AP<sup>L</sup>	AR
							OpenPose	61.8	84.9	67.5	57.1	68.2	66.5
MultiPoseNet	69.6	86.3	76.6	65.0	76.3	73.5
							Mask-RCNN	63.1	87.3	68.7	57.8	71.4	-
CPN	72.1	91.4	80.0	68.7	77.2	78.5
							A-HPose	75.2	92.5	83.1	71.5	81.2	80.3

实验结果表明A-HPose网络可以快速准确提取人体姿态信息，具有高准确率和良好的鲁棒性。图像数据以小批量形式输入网络进行训练，通过网络生成器G进行特征提取，可以有效的实现人体关键点特征提取及位置预测。A-HPose方法的人体关键点的平均检测精度达到75.2％，对于大型对象平均检测精度达到81.2％，对于中型对象的平均检测精度达到71.5％，相比其它方法具有明显的提升。实验证明该方法具有高准确率的同时，对多人检测中不同大小目标有很好的鲁棒性。

(2)验证本实施例算法使用中继监督对梯度消失的作用

为了避免因网络层数过深而出现的梯度消失问题，在网络训练过程中对于网络中的每一个stage添加一个损失层，实现网络训练中继监督。实验结果如图5所示，其中浅灰色为网络各层未添加中继监督时的梯度分布，深黑色为网络各层添加中继监督后的梯度分布。

实验结果表明，A-HPos网络中未加入中继监督时深层网络的梯度分布较广，说明该部分具有较强的学习能力，而较浅层网络的梯度分布主要集中在0附近，说明网络浅层容易出现梯度消失的问题，会导致浅层网络出现学习缓慢，甚至不学习的情况。在训练网络中加入中继监督后，可以发现较浅层网络的梯度分布明显变广，说明中继监督对梯度消失的问题有明显的作用，可以提升网络浅层的学习能力，加速训练网络收敛。

综上所述，本发明提出了一种基于对抗学习的多人姿态估计方法，该方法首先对训练图像数据做边缘特征增强处理，增强网络对多个人体实例的分辨能力，将标注坐标点信息转换为关键点热点图和骨架热点图，构建一个对抗学习训练网络，生成器部分使用多个双分支关键点提取子网络，在不同尺寸特征图上提取人体关键点位置信息，判别器部分使用两个判别器分别用于区分人体姿态的真假以及区分高置信预测和低置信预测，可以有效提高人体姿态估计的准确率和网络的鲁棒性，使用中继监督循环训练对抗学习网络，可以有效避免因网络过深而出现的梯度消失，加快网络训练的收敛速度。本实施例能有效降低人体动作分析，人机交互以及视频监视等方面的技术难度与成本，本实施例设计的双分支关键点特征提取子网络能有效从多个尺度快速学习人体关键点特征，具有高准确率和良好的鲁棒性，而且对于多人的姿态估计在算法时间上相对稳定，不会因人体的示例数量而线性增加算法运行时间。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.基于对抗学习的多人姿态估计方法，其特征在于，包括以下步骤：

步骤一、使用带有多人关键点坐标标签的公开数据集作为训练集，对训练集图像进行边缘信息增强预处理；

步骤三、构建双分支关键点特征提取子网络；

步骤四、使用子网络构建A-HPose网络生成器部分；

步骤五、使用卷积神经网络构建A-HPose网络判别器部分；

步骤六、使用训练集对A-HPose网络进行中继监督循环训练，输出网络模型参数；

2.如权利要求1所述的基于对抗学习的多人姿态估计方法，其特征在于，步骤一中对训练集图像进行边缘信息增强预处理的方法为：使用边缘提取算子提取输入图像的边缘特征，再将图像边缘特征信息综合线性叠加到原始图像上。

3.如权利要求1所述的基于对抗学习的多人姿态估计方法，其特征在于，步骤二中关键点热点图是以关键点位置为中心点、R为半径的圆盘上标注关键点位置信息的热点图，整体骨架热点图是在关键点热点图的基础上添加关键点间的连接信息。

4.如权利要求1所述的基于对抗学习的多人姿态估计方法，其特征在于，步骤三中的子网络包括上分支和下分支，上分支用于在保持原始图像尺寸的特征图上提取骨架信息，下分支用于在不同尺寸特征图上提取关键点信息。

5.如权利要求1所述的基于对抗学习的多人姿态估计方法，其特征在于，步骤四中A-HPose网络生成器部分包括多个网络生成器G，网络生成器G的目标是使其输出接近真实坐标标签的分布，因此网络生成器G的目标是减小输出与坐标标签值的差值，即网络生成器G的目标函数为：其中M是指训练过程中共有M个样本，N是指每一个训练样本中共有N类关键点，是指第i个训练样本的第n类关键点的位置标注向量，是指是指第i个训练样本的第n类关键点的预测位置向量，是指第i个训练样本的第n类关键点的可见性标注向量，是指第i个训练样本的第n类关键点的预测可见性向量，θ为网络生成器G的网络模型参数。

6.如权利要求5所述的基于对抗学习的多人姿态估计方法，其特征在于，步骤五中A-HPose网络判别器部分包括用于区分人体姿态真假的姿态判别器P和置信度判别器C，姿态判别器P的目标是从真实姿势中区分假姿势，即姿态判别器P的目标函数为：其中x是输入向量，y是关键点位置标注向量，z是关键点可见性标注向量，p_fake为生成姿态的姿态得分；

7.如权利要求6所述的基于对抗学习的多人姿态估计方法，其特征在于，A-HPose网络整体目标函数如下：其中α为置信度判别器C损失权重，β是姿态判别器P损失权重。

8.如权利要求1所述的基于对抗学习的多人姿态估计方法，其特征在于，步骤六中网络模型参数的获取方法为：使用训练集对A-HPose网络进行循环对抗训练，平衡网络生成器部分和网络判别器部分的学习效率，同时在A-HPose网络生成器部分使用不同半径R构成的关键点热图用于中继监督训练，输出网络模型参数。

9.如权利要求1所述的基于对抗学习的多人姿态估计方法，其特征在于，步骤七中后处理方法采用快速贪心解码算法。