CN116912884A

CN116912884A - 一种人体关键点检测方法及系统

Info

Publication number: CN116912884A
Application number: CN202310899391.4A
Authority: CN
Inventors: 李继凯
Original assignee: Beijing Uwonders Technology Co ltd
Current assignee: Beijing Uwonders Technology Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-20
Anticipated expiration: 2043-07-21
Also published as: CN116912884B

Abstract

本发明公开了一种人体关键点检测方法及系统，该方法包括，步骤1、构建人体关键点估计网络，所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块；步骤2、利用训练数据集训练所述人体关键点估计网络，得到人体关键点估计模型；步骤3、将待检测图像输入所述人体关键点估计模型，输出不同尺度的人体关键点预测坐标；步骤4、对不同尺度的所述人体关键点预测坐标进行融合，得到人体关键点坐标。本发明是在自顶而下的基础上次加以改进，采用一次前向推理的结构，即只需要单个模型就可实现人体位置的检测和人体关键点的检测，确保了检测精度的同时，又提高了运行效率。

Description

一种人体关键点检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人体关键点检测方法及系统。

背景技术

人体关键点检测通过对人体主要骨骼点(关键点)的位置预测，实现人体姿态估计。人体姿态估计是计算机视觉领域的基础任务之一，可广泛应用于动作识别、行人跟踪、自动驾驶、人机交互等领域。行业内的技术采用分为自底而上(bottom-up)和自顶而下(top-down)两种思路。

自底而上的方法直接从原图检测人体关键点，再根据不同关键点间的关系进行分组。自顶而下的方法先检测行人区域，再对每个行人进行关键点检测，可视为行人检测和单人姿态估计的组合。通常自顶而下的技术方案的准确性要高于自底而上，但是效率却要低于自底而下。

为了实现高精度的人体关键点检测，发明专利一种多人人体姿态估计方法(CN111339903B)，公开了采用自底向上与自顶向下两种方法结合的两阶段训练方法，训练深度特征人体关键点检测模型，首先进行自底向上的方法训练该深度特征人体关键点检测模型，然后进行自顶向下的方法训练该深度特征人体关键点检测模型，最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点，采用自底向上训练深度特征人体关键点检测模型，输出人体关键点检测置信度热图；采用自顶向下训练深度特征人体关键点检测模型，识别裁剪后的图像中的所有人体关键点。

上述方法，可实现图像中多人体关键点的识别，但模型训练过程复杂，特提出本发明，本发明是在自顶而下的基础上次加以改进，在确保自顶而下技术方案的准确性的同时，又提高了运行效率。

发明内容

本发明的发明目的是针对现有技术的不足，提供了一种人体关键点检测方法及系统，可精确实现人体关键点的估计，适用范围广。

第一方面，本申请提供一种人体关键点检测方法，包括：

步骤1，构建人体关键点估计网络，所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块；

所述多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图；

所述检测头模块用于接受特征图并输出多个尺度的检测头特征图；

所述人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框；

所述感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图；

所述人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标；

步骤2，利用训练数据集训练所述人体关键点估计网络，得到人体关键点估计模型；

步骤3，将待检测图像输入所述人体关键点估计模型，输出不同尺度的人体关键点预测坐标；

步骤4，对不同尺度的所述人体关键点预测坐标进行融合，得到人体关键点坐标。

进一步地，所述多尺度特征图提取模块输出4个尺度的特征图，所述检测头模块输出4个尺度的检测头特征图，所述人体位置框检测模块输出4个尺度的预测人体位置框；所述感兴趣区域对齐模块输出4个尺度的对齐特征图，所述人体关键点检测模块输出4个不同尺度的17个人体关键点预测坐标。

进一步地，所述多尺度特征图提取模块包括Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块。

进一步地，所述Backbone特征提取模块采用多个残差网络块，得到至少4个尺度的特征图，输出分辨率从小到大的最后4个尺度的特征图，分别为：BONE_end，BONE_end-1，BONE_end-2，BONe_end-3；

所述自上而下多尺度特征融合模块，输出4个尺度的特征图，分辨率从小到大分别为UP_end，UP_end-1，UP_end-2，UP_end-3，其中，UP_end通过对BONE_end进行卷积操作得到；UP_end-1通过对UP_end进行转置卷积并加上BONE_end-1的卷积操作后得到；UP_end-2通过对UP_end-1进行转置卷积并加上BONE_end-2的卷积操作后得到；UP_end-3通过对UP_end-2进行转置卷积并加上BONE_end-3的卷积操作后得到；

所述自下而上多尺度特征融合模块，输出4个尺度的特征图，分辨率从小到大分别为DOWN_end，DOWN_end-1，DOWN_end-2，DOWN_end-3，其中，DOWN_end-3通过对UP_end-3卷积操作得到；DOWN_end-2通过对DOWN_end-3卷积操作并加上UP_end-2的卷积操作后得到；DOWN_end-1通过对DOWN_end-2卷积操作并加上UP_end-1的卷积操作后得到；DOWN_end通过对DOWN_end-1卷积操作并加上UP_end的卷积操作后得到。

进一步地，所述检测头模块通过对4个尺度的特征图分别做卷积操作，输出4个尺度的检测头特征图，分别为：Head_end，Head_end-1，Head_end-2，Head_end-3。

进一步地，所述人体位置框检测模块分别对4个尺度的检测头特征图做卷积操作，得到4个尺度的预测人体位置框，分别为BOX_end，BOX_end-1，BOX_end-2，BOX_end-3，为每个尺度中的每个像素预测至少1个anchor，每个anchor预测6个值，分别为人体位置框的中心位置的横坐标、人体位置框的中心位置的纵坐标、人体位置框相对中心位置宽的偏移量、人体位置框相对中心位置高的偏移量、目标存在的置信度box_conf以及人体类别置信度human_conf。

进一步地，所述预测人体位置框的特征图的通道数为18，为每个像素预测3个anchor。

进一步地，所述感兴趣区域对齐模块采用感兴趣区域对齐技术，输出4个尺度的对齐特征图，分别为ALIGN_end，ALIGN_end-1，ALIGN_end-2，ALIGN_end-3。

进一步地，所述人体关键点检测模块对4个尺度的对齐特征图采用卷积操作，得到4个尺度的人体关键点预测特征图，分别为POINT_end,POINT_end-1,POINT_end-2,POINT_end-3，所述人体关键点预测特征图的通道数为17。

进一步地，所述步骤2包括：

步骤21，选择所述训练数据集，所述训练数据集为coco数据集；

步骤22，所述人体位置框为真实人体位置框或所述预测人体位置框，所述真实人体位置框为coco数据集中标注的人体位置框，训练过程中实时获取所述真实人体位置框以及所述预测人体位置框；

当所述真实人体位置框与所述预测人体位置框的IOU≤80％时，所述人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框；

当所述真实人体位置框与所述预测人体位置框的IOU＞80％时，所述人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框和预测人体位置框；

步骤23，采用梯度下降法训练所述人体关键点估计网络，得到人体关键点估计中间模型；

步骤24，对所述人体关键点估计中间模型的感兴趣区域对齐模块进行调整，使其输入的所述人体位置框为所述预测人体位置框，得到人体关键点估计模型。

进一步地，所述步骤2中，总误差公式为：

Loss_total＝αLoss_box+(1-α)Loss_point

其中，Loss_total为总误差，Loss_box为人体位置框总误差，Loss_point为人体关键点总误差，α∈(0，1)用以权衡人体位置框总误差和人体关键点总误差的权重。

进一步地，所述人体位置框总误差公式为：

采用SIoU来计算所述真实人体位置框和所述预测人体位置框之间的交集；

其中，D表示不同的尺度，i和j分表示人体位置预测特征图的横纵坐标，k表示anchor的序号，Box_gt表示真实人体位置框，Box_pred表示预测人体位置框。

进一步地，所述人体关键点总误差公式为：

其中，D为不同的尺度，h为人体关键点的序号，m和n分别为人体关键点预测特征图的横纵坐标，x_m,n,s,h为人体关键点真实高斯值，为人体关键点预测坐标。

进一步地，所述人体关键点真实高斯值根据coco数据集中标定的人体关键点坐标，采用高斯分布对所述人体关键点坐标进行变换获得。

进一步地，人体关键点的采用高斯分布来表示，将人体的关键点真实位置坐标的映射到不同尺度的人体关键点预测特征图，并对坐标并取整，设为；设置高斯圆的半径，设为R；在人体关键点预测特征图上，以为圆心，半径为R填充高斯函数计算值。

进一步地，所述步骤3具体步骤为：

步骤31，将待检测图像输入所述多尺度特征提取模，输出多个尺度的特征图；

步骤32，将所述特征图输入所述检测头模，输出多个尺度的检测头特征图；

步骤33，将所述检测头特征图输入所述人体位置框检测模块，输出多个尺度的预测人体位置框；

步骤34，将所述检测头特征图以及所述预测人体位置框输入所述感兴趣区域对齐模块，输出多个尺度的对齐特征图；

步骤35，将所述对齐特征图输入人体关键点检测模块，输出多个尺度的人体关键点预测特征图；

步骤36，在每个尺度的所述人体关键点预测特征图中，取每个通道中最大值的坐标作为人体关键点预测坐标，得到不同尺度的人体关键点预测坐标。

进一步地，所述步骤4包括：

步骤41，将不同尺度的所述人体关键点预测坐标映射回所述待检测图像中，得到不同尺度的人体关键点映射坐标；

步骤42，将不同尺度的所述人体关键点映射坐标求均值，得到所述人体关键点坐标。

第二方面，本申请还提供一种人体关键点检测系统，包括人体关键点估计网络构建模块、网络训练模块、人体关键点坐标预测模块、人体关键点坐标融合模块；

所述人体关键点估计网络构建模块用于构建人体关键点估计网络，所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块；

所述网络训练模块利用训练数据集训练所述人体关键点估计网络，得到人体关键点估计模型；

人体关键点坐标预测模块，通过将待检测图像输入所述人体关键点估计模型，输出不同尺度的人体关键点预测坐标；

人体关键点坐标融合模块，通过将不同尺度的所述人体关键点预测坐标进行融合，得到人体关键点坐标。

本发明的有益效果在于：

(1)本发明是在自顶而下的基础上次加以改进，采用一次前向推理的结构，包括了人体位置框检测和人体关键点检测，即只需要单个模型就可实现人体位置的检测和人体关键点的检测，确保了自顶而下技术方案的准确性的同时，又提高了运行效率。

(2)设计了集成多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块的人体关键点检测网络，使用多通道、多阶段的模式对多尺度特征图进行分析，得到不同尺度的人体关键点预测坐标，最后以多尺度融合的方式将多尺度的人体关键点预测坐标进行融合，得到更加全面且有效的人体关键点坐标，实现人体关键点的高精度识别。

(3)集合在密集人群的应用场景中，本发明可实现多人的人体框和关键点同时识别，能够准确且快速地实现人体关键点的估计，无需额外的模型预先提取人体框，算法流程简便，运算量低，满足各种低算力设备的轻量化部署要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为一种人体关键点检测方法的流程示意图。

图2为人体关键点估计网络结构。

图3为一种人体关键点检测方法中步骤S2的流程示意图。

图4为步骤S3的流程示意图。

图5为一种人体关键点检测系统的组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种人体关键点检测方法，包括以下步骤：

步骤1，构建人体关键点估计网络，人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块；

多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图；

检测头模块用于接受特征图并输出多个尺度的检测头特征图；

人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框；

感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图；

人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标。

步骤2，利用训练数据集训练人体关键点估计网络，得到人体关键点估计模型。

步骤3，将待检测图像输入人体关键点估计模型，输出不同尺度的人体关键点预测坐标。

步骤4，对不同尺度的人体关键点预测坐标进行融合，得到人体关键点坐标。

本实施例，在自顶而下的基础上次加以改进，采用一次前向推理的结构，包括了人体位置框检测和人体关键点检测，即只需要单个模型就可实现人体位置的检测和人体关键点的检测，确保了自顶而下技术方案的准确性的同时，又提高了运行效率。

不同尺度的人体关键的覆盖的相同区域的语义信息不同，为了实现多尺度的人体关键点特征分析，设计了多尺度特征图提取模块，多尺度特征提取模块用于输出至少两个尺度的特征图。

本实施例中，多尺度特征图提取模块输出4个尺度的特征图，检测头模块输出4个尺度的检测头特征图，人体位置框检测模块输出4个尺度的预测人体位置框；感兴趣区域对齐模块输出4个尺度的对齐特征图，人体关键点检测模块输出4个不同尺度的17个人体关键点预测坐标。

设计了集成多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块的人体关键点检测网，使用多通道、多阶段的模式对多尺度特征图进行分析，得到不同尺度的人体关键点预测坐标，最后以多尺度融合的方式将多尺度的人体关键点预测坐标进行融合，得到更加全面且有效的人体关键点坐标，实现人体关键点的高精度识别。

如图2所示，多尺度特征图提取模块包括Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块。

Backbone特征提取模块采用多个残差网络块，得到至少4个尺度的特征图，输出分辨率从小到大的最后4个尺度的特征图，分别为：BONE_end，BONE_end-1，BONE_end-2，BONe_end-3；

自上而下多尺度特征融合模块，输出4个尺度的特征图，分辨率从小到大分别为UP_end，UP_end-1，UP_end-2，UP_end-3，其中，UP_end通过对BONE_end进行卷积操作得到；UP_end-1通过对UP_end进行转置卷积并加上BONE_end-1的卷积操作后得到；UP_end-2通过对UP_end-1进行转置卷积并加上BONE_end-2的卷积操作后得到；UP_end-3通过对UP_end-2进行转置卷积并加上BONE_end-3的卷积操作后得到；

自下而上多尺度特征融合模块，输出4个尺度的特征图，分辨率从小到大分别为DOWN_end，DOWN_end-1，DOWN_end-2，DOWN_end-3，其中，DOWN_end-3通过对UP_end-3卷积操作得到；DOWN_end-2通过对DOWN_end-3卷积操作并加上UP_end-2的卷积操作后得到；DOWN_end-1通过对DOWN_end-2卷积操作并加上UP_end-1的卷积操作后得到；DOWN_end通过对DOWN_end-1卷积操作并加上UP_end的卷积操作后得到。

将图像输入多尺度特征图提取模块输出依次经过Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块，输出4个尺度的特征图，分辨率从小到大分别为DOWN_end，DOWN_end-1，DOWN_end-2，DOWN_end-3。

将DOWN_end，DOWN_end-1，DOWN_end-2，DOWN_end-3输入检测头模块，检测头模块通过对4个尺度的特征图分别做卷积操作，输出4个尺度的检测头特征图，分别为：Head_end，Head_end-1，Head_end-2，Head_end-3。

将Head_end，Head_end-1，Head_end-2，Head_end-3输入人体位置框检测模块，人体位置框检测模块分别对4个尺度的检测头特征图做卷积操作，得到4个尺度的预测人体位置框，分别为BOX_end，BOX_end-1，BOX_end-2，BOX_end-3，为每个尺度中的每个像素预测至少1个anchor，每个anchor预测6个值，分别为人体位置框的中心位置的横坐标、人体位置框的中心位置的纵坐标、人体位置框相对中心位置宽的偏移量、人体位置框相对中心位置高的偏移量、目标存在的置信度box_conf以及人体类别置信度human_conf。

本实施例中，预测人体位置框的特征图的通道数为18，为每个像素预测3个anchor。

每个预测人体位置框的特征图的通道数为18，18表示为每个人体位置框预测3个anchor，每个anchor预测6个值。

将Head_end，Head_end-1，Head_end-2，Head_end-3、人体位置框输入感兴趣区域对齐模块，感兴趣区域对齐模块采用感兴趣区域对齐技术，输出4个尺度的对齐特征图，分别为ALIGN_end，ALIGN_end-1，ALIGN_end-2，ALIGN_end-3。

具体地，在预测阶段，将不同尺度的检测头特征图和预测人体位置框分别采用感兴趣区域对齐技术，得到不同尺度的对齐特征图，通过Head_end和BOX_end得到ALIGN_end，通过Head_end-1和BOX_end-1得到ALIGN_end-1，通过Head_end-2和BOX_end-2得到ALIGN_end-2，通过Head_end-3和BOX_end-3得到ALIGN_end-3。

人体关键点检测模块对4个尺度的对齐特征图ALIGN_end，ALIGN_end-1，ALIGN_end-2，ALIGN_end-3采用卷积操作，得到4个尺度的人体关键点预测特征图，分别为POINT_end,POINT_end-1,POINT_end-2,POINT_end-3，人体关键点预测特征图的通道数为17，17表示人体的17个关键点，即每个通道表示一个人体关键点。

为了建立高精度的人体关键点估计模型，通过步骤2，采用coco数据集对人体关键点估计网络进行训练，如图3所示，步骤2包括：

步骤21，选择训练数据集，训练数据集为coco数据集。

可选择的训练数据集有像COCO、MPII和CrowdPose这样的公共数据集，人体关键点检测属于比较复杂一类的问题。为神经网络模型建立一个合适的数据集是很困难的，图像中每个人的每个关节都必须定位和标记，这是一项琐碎而费时的任务。本实施例采用COCO数据集，它有大约80类图像和大约250000个人物实例。

步骤22，人体位置框为真实人体位置框或预测人体位置框，真实人体位置框为coco数据集中标注的人体位置框，训练过程中实时获取真实人体位置框以及预测人体位置框；

当真实人体位置框与预测人体位置框的IOU≤80％时，人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框；

当真实人体位置框与预测人体位置框的IOU＞80％时，人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框和预测人体位置框。

在人体关键点估计网络训练的初始阶段，由于模型预测的人体位置框不准确，此时，感兴趣区域对齐模块的只接收真实人体位置框，如图2所示，输入包括真实人体位置框，真实人体位置框输入感兴趣区域对齐模块。

随着模型的不断训练，当真实人体位置框与通过模型获得的预测人体位置框的IoU值超过80％时，感兴趣区域对齐模块的将同时接收真实人体位置框和预测人体位置框。增加了样本的多样性和准确性。

步骤23，采用梯度下降法训练人体关键点估计网络，得到人体关键点估计中间模型。

步骤24，对人体关键点估计中间模型的感兴趣区域对齐模块进行调整，使其输入的人体位置框为预测人体位置框，得到人体关键点估计模型。

通过步骤2.3获得了训练好的人体关键点估计中间模型，该模型感兴趣区域对齐模块输入的人体位置框为真实人体位置框和预测人体位置框，但在利用训练好的模型进行人体关键点检测的时候，不存在人工标定的真实人体位置框，只有模型获取的预测人体位置框，基于此，通过步骤2.4对人体关键点估计中间模型的感兴趣区域对齐模块的输入进行调整，将真实人体位置框在感兴趣区域对齐模块中去掉，获得最终的人体关键点估计模型。

步骤2中，训练过程中的总误差公式为：

Loss_total＝αLoss_box+(1-α)Loss_point

其中，Loss_total为总误差，Loss_box为人体位置框总误差，Loss_point为人体关键点总误差，α∈(0,1)用以权衡人体位置框总误差和人体关键点总误差的权重。

本实施例中，同时对模型预测的人体的位置框和人体关键点信息进行约束，这样保证了最终的人体位置关键点估计模型更加准确。

人体位置框总误差公式为：

采用SIoU来计算真实人体位置框和所述预测人体位置框之间的交集；

人体关键点总误差公式为：

本实施例中，采用均方差来计算真实人体关键点和预测人体关键点之间的误差。

人体关键点真实高斯值根据coco数据集中标定的人体关键点坐标，采用高斯分布对人体关键点坐标进行变换获得。

具体地，人体关键点的采用高斯分布来表示，将人体的关键点真实位置坐标的映射到不同尺度的人体关键点预测特征图，并对坐标并取整，设为；设置高斯圆的半径，设为R；在人体关键点预测特征图上，以为圆心，半径为R填充高斯函数计算值。

通过步骤2获得训练好的人体位置关键点估计模型，通过步骤3获得待检测图像中人体的不同尺度的人体关键点预测坐标，如图4所示，步骤3具体步骤为：

步骤31，将待检测图像输入多尺度特征提取模，输出多个尺度的特征图；

步骤32，将特征图输入检测头模，输出多个尺度的检测头特征图；

步骤33，将检测头特征图输入人体位置框检测模块，输出多个尺度的预测人体位置框；

步骤34，将检测头特征图以及预测人体位置框输入感兴趣区域对齐模块，输出多个尺度的对齐特征图；

步骤35，将对齐特征图输入人体关键点检测模块，输出多个尺度的人体关键点预测特征图；

步骤36，在每个尺度的人体关键点预测特征图中，取每个通道中最大值的坐标作为人体关键点预测坐标，得到不同尺度的人体关键点预测坐标。

步骤4用于实现不同尺度的人体关键点预测坐标的融合，步骤4包括：

步骤41，将不同尺度的人体关键点预测坐标映射回待检测图像中，得到不同尺度的人体关键点映射坐标；

步骤42，将不同尺度的人体关键点映射坐标求均值，得到人体关键点坐标。

具体地，步骤41，将不同尺度中的人体关键点预测坐标{X_D,i,Y_D,i}映射回待检测图像中，得到不同尺度的人体关键点映射坐标

步骤42，将不同尺度的人体关键点映射坐标求均值，如下：

得到最终的人体关键点坐标，其中，i＝0，…，16。

17个关键点所对应的人体部位包括：0：鼻子、1：左眼、2：右眼、3：左耳、4：右耳、5：左肩、6：右肩、7：左肘、8：右肘、9：左腕、10：右腕、11：左胯、12：右胯、13：左膝、14：右膝、15：左踝、16：右踝。

集合在密集人群的应用场景中，本实施例可实现多人的人体框和关键点同时识别，能够准确且快速地实现人体关键点的估计，无需额外的模型预先提取人体框，算法流程简便，运算量低，满足各种低算力设备的轻量化部署要求。

第二方面，本实施例还提供一种人体关键点检测系统，包括人体关键点估计网络构建模块、网络训练模块、人体关键点坐标预测模块、人体关键点坐标融合模块；

人体关键点估计网络构建模块用于构建人体关键点估计网络，人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块；

人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标；

网络训练模块利用训练数据集训练人体关键点估计网络，得到人体关键点估计模型；

人体关键点坐标预测模块，通过将待检测图像输入人体关键点估计模型，输出不同尺度的人体关键点预测坐标；

人体关键点坐标融合模块，通过将不同尺度的人体关键点预测坐标进行融合，得到人体关键点坐标。

需要说明的是，本实施例中的各模块(或单元)是逻辑意义上的，具体实现时，多个模块(或单元)可以合并成一个模块(或单元)，一个模块(或单元)也可以拆分成多个模块(或单元)。

本实施中的一种人体关键点检测系统实现了自动化识别且成本低廉、简单便捷、效果明显，其应用实现了在密集人群的应用场景中，能够准确且快速地实现人体关键点的估计，具有降低工作人员工作量，且提高工作效率的优势。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种人体关键点检测方法，其特征在于，包括：

步骤1、构建人体关键点估计网络，所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块；

步骤2、利用训练数据集训练所述人体关键点估计网络，得到人体关键点估计模型；

步骤3、将待检测图像输入所述人体关键点估计模型，输出不同尺度的人体关键点预测坐标；

步骤4、对不同尺度的所述人体关键点预测坐标进行融合，得到人体关键点坐标。

2.根据权利要求1所述的一种人体关键点检测方法，其特征在于，所述多尺度特征图提取模块输出4个尺度的特征图，所述检测头模块输出4个尺度的检测头特征图，所述人体位置框检测模块输出4个尺度的预测人体位置框；所述感兴趣区域对齐模块输出4个尺度的对齐特征图，所述人体关键点检测模块输出4个不同尺度的17个人体关键点预测坐标。

3.根据权利要求2所述的一种人体关键点检测方法，其特征在于，所述多尺度特征图提取模块包括Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块。

4.根据权利要求3所述的一种人体关键点检测方法，其特征在于，所述Backbone特征提取模块采用多个残差网络块，得到至少4个尺度的特征图，输出分辨率从小到大的最后4个尺度的特征图，分别为：BONE_end，BONE_end-1，BONE_end-2，BONe_end-3；

5.根据权利要求2所述的一种人体关键点检测方法，其特征在于，所述检测头模块通过对4个尺度的特征图分别做卷积操作，输出4个尺度的检测头特征图，分别为：Head_end，Head_end-1，Head_end-2，Head_end-3；

所述人体位置框检测模块分别对4个尺度的检测头特征图做卷积操作，得到4个尺度的预测人体位置框，分别为BOX_end，BOX_end-1，BOX_end-2，BOX_end-3，为每个尺度中的每个像素预测至少1个anchor，每个anchor预测6个值，分别为人体位置框的中心位置的横坐标、人体位置框的中心位置的纵坐标、人体位置框相对中心位置宽的偏移量、人体位置框相对中心位置高的偏移量、目标存在的置信度box_conf以及人体类别置信度human_conf；

所述人体关键点检测模块对4个尺度的对齐特征图采用卷积操作，得到4个尺度的人体关键点预测特征图，分别为POINT_end,POINT_end-1,POINT_end-2,POINT_end-3，所述人体关键点预测特征图的通道数为17。

6.根据权利要求5所述的一种人体关键点检测方法，其特征在于，所述预测人体位置框的特征图的通道数为18，为每个像素预测3个anchor。

7.根据权利要求1所述的一种人体关键点检测方法，其特征在于，所述步骤2包括：

步骤2.1，选择所述训练数据集，所述训练数据集为coco数据集；

步骤2.2，所述人体位置框为真实人体位置框或所述预测人体位置框，所述真实人体位置框为coco数据集中标注的人体位置框，训练过程中实时获取所述真实人体位置框以及所述预测人体位置框；

步骤2.3，采用梯度下降法训练所述人体关键点估计网络，得到人体关键点估计中间模型；

步骤2.4，对所述人体关键点估计中间模型的感兴趣区域对齐模块进行调整，使其输入的所述人体位置框为所述预测人体位置框，得到人体关键点估计模型。

8.根据权利要求7所述的一种人体关键点检测方法，其特征在于，所述步骤2中，总误差公式为：

Loss_total＝αLoss_box+(1-α)Loss_point

其中，Loss_total为总误差，Loss_box为人体位置框总误差，Loss_point为人体关键点总误差，α∈(0，1)用以权衡人体位置框总误差和人体关键点总误差的权重；

所述人体位置框总误差公式为：

其中，D表示不同的尺度，i和j分表示人体位置框的中心位置的横、纵坐标，k表示anchor的序号，Box_gt表示真实人体位置框，Box_pred表示预测人体位置框；

所述人体关键点总误差公式为：

其中，h为人体关键点的序号，m和n分别为人体关键点的横、纵坐标，x_m,n,s,h为人体关键点真实高斯值，为人体关键点预测坐标。

9.根据权利要求1所述的一种人体关键点检测方法，其特征在于，所述步骤4包括：

步骤41、将不同尺度的所述人体关键点预测坐标映射回所述待检测图像中，得到不同尺度的人体关键点映射坐标；

步骤42、将不同尺度的所述人体关键点映射坐标求均值，得到所述人体关键点坐标。

10.一种人体关键点检测系统，包括人体关键点估计网络构建模块、网络训练模块、人体关键点坐标预测模块、人体关键点坐标融合模块；