CN112966574A

CN112966574A - 人体三维关键点预测方法、装置及电子设备

Info

Publication number: CN112966574A
Application number: CN202110196456.XA
Authority: CN
Inventors: 陈书杨; 洪初阳; 占佳蒙; 李志铭; 黄影
Original assignee: Xiamen Aidi Sports Technology Co Ltd
Current assignee: Xiamen Aidi Sports Technology Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-15

Abstract

本申请提供一种人体三维关键点预测方法、装置及电子设备，涉及人体关键点预测技术领域，其中，该方法包括：将健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域，再根据各人体位置检测区域确定待检测图像，最后将待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性，其中，人体检测模型和关键点预测模型均是基于训练样本集训练得到的，训练样本集中包括多个训练样本，每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。本申请提供的技术方案可以采用经过姿态属性训练的关键点预测模型，提高在特殊动作场景下人体三维关键点预测算法的识别率。

Description

人体三维关键点预测方法、装置及电子设备

技术领域

本申请涉及人体关键点预测技术，尤其涉及一种人体三维关键点预测方法、装置及电子设备，属于人体三维关键点预测技术领域。

背景技术

人体关键点预测又称为人体姿态估计，是实现人体动作识别、行为分析、人机交互等一系列任务的前置任务，因此，该任务是计算机视觉中一个比较重要的任务。

人体关键点预测具体可以包括二维关键点预测和三维关键点预测，其中，二维关键点预测的算法比较成熟，具体包括美国卡耐基梅隆大学姿态估计算法(Openpose)、卷积姿态识别器(Convolutional Pose Machines，CMP)和_{高分辨率网络}(High-Resoultion Net，HRNet)等算法。在二维关键点技术的基础上，发展出了三维人体姿态(3D Human Pose)和人体姿态视频推理(Video Inference for Human Body Pose，VIBE)等基于单帧图像或视频流的三维关键点预测算法。二维关键点预测和三维关键点预测的主要区别在于三维关键点预测包含了深度信息，因此，三维关键点具有更准确、更广泛的应用场景。例如，借助三维关键点预测技术在健身辅助场景中，计算机可以根据健身过程中的人体三维关键点数据对被测试者的健身动作进行分析，然后根据分析结果进行健身指导。

但是，目前的三维关键点预测算法主要针对的是通用动作场景，对于特殊动作场景(例如体前屈、俯卧撑等健身动作)的识别率较低。

发明内容

有鉴于此，本申请实施例提供了一种人体三维关键点预测方法、装置及电子设备，可以提高在特殊动作场景下人体三维关键点预测算法的识别率。

为了实现上述目的，第一方面，本申请实施例提供一种人体三维关键点预测方法，包括：

将包含人体健身动作的健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域；

根据各人体位置检测区域确定待检测图像；

将待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性；

其中，人体检测模型和关键点预测模型均是基于训练样本集训练得到的，训练样本集中包括多个训练样本，每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。

可选的，人体位置检测区域包括多个，根据人体位置检测区域提取待检测图像，包括：

根据上一帧健身图像的目标人体位置检测区域，在多个人体位置检测区域中确定健身图像的目标人体位置检测区域；

提取健身图像中目标人体位置检测区域内的图像作为待检测图像。

可选的，根据上一帧健身图像的目标人体位置检测区域，在多个人体位置检测区域中确定健身图像的目标人体位置检测区域之前，方法还包括；

确定各人体位置检测区域之间的重叠率；

若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值，则将N个人体位置检测区域合并为一个人体位置检测区域，N小于或等于人体检测模型输出的人体位置检测区域的数量。

可选的，在将健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域之前，方法还包括：

压缩健身图像的分辨率。

获取YOLO检测器和残差网络；

对YOLO检测器和残差网络分别进行剪枝优化；

采用训练样本集对优化后的YOLO检测器进行训练，得到人体检测模型；

采用训练样本集对优化后的残差网络进行训练，得到关键点预测模型；

对已训练的人体检测模型和关键点预测模型进行模型量化。

可选的，关键点预测模型包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络，人体三维关键点包括多个人体三维关键点位置和人体三维关键点位置对应的置信度，姿态属性包括姿态类别和姿态类别对应的置信度；

主干网络用于根据输入的待检测图像得到特征向量；

姿态属性网络用于根据特征向量得到姿态类别和姿态类别对应的置信度；

关键点回归网络用于根据特征向量得到多个人体三维关键点位置；

上采样卷积网络用于根据特征向量得到各人体三维关键点位置对应的置信度。

可选的，训练关键点预测模型采用的损失函数为：

Loss＝a*LossA+b*LossB+c*LossC

其中，Loss表示关键点预测模型的损失函数，LossA表示姿态属性网络的损失函数，LossB表示关键点回归网络的损失函数，LossC表示上采样卷积网络的损失函数，a、b和c表示各损失函数的系数，其中，a+b+c＝1，K表示姿态类别的数量，y表示训练样本中各对应网络的标注值，y^p表示各网络对应的输出，n表示所述人体三维关键点位置的数量的三倍，m表示上采样卷积网络的热图的数量，w_m表示权重矩阵，w_o表示人体三维关键点不同状态下的权重。

第二方面，本申请实施例提供一种人体三维关键点预测装置，包括：

人体检测模块，用于将包含人体健身动作的健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域；

提取模块，用于根据各人体位置检测区域确定待检测图像；

关键点预测模块，用于将待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性；

可选的，人体位置检测区域包括多个，提取模块具体用于：

可选的，提取模块具体用于；

确定各人体位置检测区域之间的重叠率；

可选的，该装置还包括：

压缩模块，用于压缩健身图像的分辨率。

可选的，该装置还包括：

剪枝优化模块，用于获取YOLO检测器和残差网络，并对YOLO检测器和残差网络分别进行剪枝优化；

训练模块，用于采用训练样本集对优化后的YOLO检测器进行训练，得到人体检测模型，并采用训练样本集对优化后的残差网络进行训练，得到关键点预测模型；

模型量化模块，用于对已训练的人体检测模型和关键点预测模型进行模型量化。

主干网络用于根据输入的待检测图像得到特征向量；

可选的，训练关键点预测模型采用的损失函数为：

Loss＝a*LossA+b*LossB+c*LossC

第三方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行上述第一方面或第一方面的任一实施方式的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面或第一方面的任一实施方式的方法。

本申请实施例提供的一种人体三维关键点预测方法、装置及电子设备，可以将包含人体健身动作的健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域，再根据各人体位置检测区域确定待检测图像，最后将待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性，其中，人体检测模型和关键点预测模型均是基于训练样本集训练得到的，训练样本集中包括多个训练样本，每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。本申请提供的技术方案可以采用经过姿态属性训练的关键点预测模型，提高在特殊动作场景下人体三维关键点预测算法的识别率。

附图说明

图1为本申请实施例提供的人体三维关键点预测方法流程示意图；

图2为本申请实施例提供的关键点预测模型的结构示意图；

图3为本申请实施例提供的人体三维关键点预测装置的结构示意图；

图4为本申请实施例提供的电子设备的结构示意图。

具体实施方式

本申请实施例提供的人体三维关键点预测方法可以应用于计算机、笔记本或工作站等电子设备，本申请实施例对电子设备的具体类型不作任何限制。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请实施例提供的人体三维关键点预测方法流程示意图，如图1所示，该方法包括如下步骤：

S110、将包含人体健身动作的健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域。

本申请实施例中的人体检测模型是一种卷积神经网络，可以通过对健身图像进行特征分类，确定健身图像中人体所在的区域，即人体位置检测区域。电子设备可以通过人体检测模型预先确定人体所在的区域，在后续的处理过程中将人体所在区域的图像提取出来，减少待处理的数据大小，进而提高整个人体三维关键点预测方法的处理速度。

在应用之前需要先对该人体检测模型进行训练。电子设备可以基于训练样本集对人体检测模型进行训练，训练样本集中可以包括多个训练样本，每个训练样本可以包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点这四个标注值。

具体的，训练样本集中的训练样本数量越多越好，在一种可能的实现方式中，采用了包含5万张以上样本健身图像的训练样本，以保证人体检测模型的训练效果。电子设备可以将训练样本集切分为训练集、验证集和测试集，且三个训练样本集中的训练样本均不相同。训练集用于对人体检测模型进行训练，因此，训练集的训练样本数最多；验证集用于对已训练的人体检测模型进行验证，以确定人体检测模型的训练成果，因此，验证集的训练样本数相对较少；测试集用于对通过验证的人体检测模型进行测试，以确定人体检测模型是否符合应用要求，因此，测试集的训练样本数相对较少。在一种可能的实现方式中，训练集、验证集和测试集中训练样本数的比例为8:1:1。

最终，通过测试集的人体检测模型为训练好的人体检测模型，电子设备可以将包含人体健身动作的健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域。其中，通过特征分类人体检测模型可以确定多个人体位置检测区域和各人体位置检测区域对应的置信度，电子设备可以根据预先设定的输出条件，根据各人体位置检测区域对应的置信度大小，确定最终输出的人体位置检测区域。

S120、根据各人体位置检测区域确定待检测图像。

在人体检测模型输出的人体位置检测区域为一个的情况下，电子设备可以直接将该人体位置检测区域确定为目标人体位置检测区域，并根据目标人体位置检测区域从健身图像中提取该区域内图像，然后将该图像确定为待检测图像。

在人体检测模型输出的人体位置检测区域为多个的情况下，为了适当减少人体位置检测区域，降低后续的计算量，本申请实施例中还可以采用点位跟踪策略。电子设备可以每秒处理多帧的健身图像，在相邻帧之间，人体三维关键点的位置不会产生大的变换，因此，电子设备可以采用点位跟踪策略。电子设备可以先确定各人体位置检测区域之间的重叠率，若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值，则将N个人体位置检测区域合并为一个人体位置检测区域，N小于或等于人体检测模型输出的人体位置检测区域的数量。通过合并多个人体位置检测区域可以减少后续数据处理时的计算量。然后，电子设备可以根据上一帧健身图像的目标人体位置检测区域，在多个人体位置检测区域中，确定与上一帧健身图像的目标人体位置检测区域最近的人体位置检测区域，并将该人体位置检测区域确定为本次健身图像的目标人体位置检测区域。最后，电子设备可以提取健身图像中目标人体位置检测区域内的图像作为待检测图像。

进一步的，为了拟合多种健身场景中人体的姿态变换，在根据目标人体位置检测区域提取待检测图像之前，电子设备还可以对目标人体位置检测区域进行预设倍数的外扩，以保证健身图像中人体的每一个部分都在待检测图像中，防止待检测图像中的人体部位不完整。

在另一种可能实现的示例中，本申请提供的技术方案还支持多人同时识别的功能，也即是，在同一个健身图像中可能会存在多个人体，此时，人体检测模型可以输出多个人体位置检测区域和各个人体位置检测区域对应的置信度，电子设备还可以将与上一帧健身图像的目标人体位置检测区域的重叠率高于阈值的人体位置检测区域，确定为本次健身图像的目标人体位置检测区域；或将置信度高于阈值的人体位置检测区域确定为本次健身图像的目标人体位置检测区域。最后，电子设备可以得到每个人体对应的目标人体位置检测区域，然后分别提取个目标人体位置检测区域的图像作为待检测图像。

进一步的，本申请提供的技术方案还支持多人物管理功能，即每个被识别的人物都具有对应的识别号，在上述环节中，若人体位置检测区域与上一帧健身图像的目标人体位置检测区域的重叠率高于阈值，且置信度也高于阈值，则电子设备可以确定该人体位置检测区域中的人体为已跟踪的人物。若人体位置检测区域与上一帧健身图像的目标人体位置检测区域的重叠率低于阈值，而置信度高于阈值，则电子设备可以确定该人体位置检测区域中的人体为新出现的人物，可以为该人物建立新的人物识别号。

电子设备可以为根据每个人物的识别号，分别执行步骤S130，并将执行结果与每个人物的识别号进行匹配，满足多人同时识别的需求。

S130、将待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性。

本申请实施例中的关键点预测模型是一种卷积神经网络，可以通过对待检测图像进行特征分类，确定待检测图像中的人体三维关键点和姿态属性。在应用之前需要先对该关键点预测模型进行训练。电子设备可以基于训练样本集对关键点预测模型进行训练，训练样本集中可以包括多个训练样本，每个训练样本可以包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。关键点预测模型可以和人体检测模型采用同一个训练样本集，该训练样本集的具体内容可以参考上述步骤S110中对训练样本集的描述，在此不在赘述。

通过在关键点预测模型的训练中增加有关姿态属性的训练样本，可以将人体三维关键点和姿态属性进行关联，提高关键点预测模型在各类姿态下人体三维关键点的识别率。

具体的，参照图2，图2为本申请实施例提供的关键点预测模型的结构示意图，人体三维关键点可以包括多个人体三维关键点位置和人体三维关键点位置对应的置信度，姿态属性可以包括姿态类别和姿态类别对应的置信度。关键点预测模型可以包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络，其中，主干网络用于根据输入的待检测图像得到特征向量，姿态属性网络用于根据特征向量得到姿态类别和姿态类别对应的置信度，关键点回归网络用于根据特征向量得到多个人体三维关键点位置，上采样卷积网络用于根据特征向量得到各人体三维关键点位置对应的置信度。

在训练时，电子设备可以将待检测图像输入至主干网络中得到特征向量，然后将特征向量分别输入至姿态属性网络、关键点回归网络和上采样卷积网络中，分别得到各网络对应的输出结果。姿态属性网络、关键点回归网络和上采样卷积网络分别设置有对应的损失函数，电子设备可以根据各网络对应的分类结果和训练样本，计算各网络对应的损失函数，然后将每个损失函数的结果加权求和，得到最终的损失值，并根据最终的损失值再次对关键点预测模型进行训练(即模型参数调整)，直到满足训练要求。

具体的，训练关键点预测模型采用的损失函数为下述公式：

Loss＝a*LossA+b*LossB+c*LossC (1)

在一种可能实现的方式中，a可以为0.6，b可以为0.3，c可以为0.1。当人体三维关键点处于完全可见的状态时，w_o可以为1；当人体三维关键点处于被遮挡的状态时，w_o可以为0.5；当人体三维关键点不在待检测图像时，w_o可以为0。其中，人体三维关键点的状态为人工标注的。

本申请实施例中的三个步骤S110、S120和S130为三个独立步骤，在实际应用时，电子设备可以根据自身需求实现多进程加速，即分别对各步骤进行进程加速，提高方案的整体处理速度。

为了提高本申请技术方案的轻量化程度，以支持各种嵌入式电子设备的应用，本申请提供的人体检测模型和关键点预测模型还进行了一些轻量化设计。

具体的，在将健身图像输入至预先训练的人体检测模型之前，压缩健身图像的分辨率，通过降低健身图像的分辨率可以减少计算量。例如，将健身图像的分辨率压缩至192*192。

以YOLO检测器和残差网络作为基础网络，对其进行优化得到人体检测模型和关键点预测模型。其中，YOLO检测器和残差网络均具有轻量化的特点。

具体的，电子设备可以获取YOLO检测器和残差网络，然后对YOLO检测器和残差网络分别进行剪枝优化。在一种可能实现的方式中，对于YOLO检测器，电子设备可以减少其通道个数至原始通道个数的一半，并去除八分之一的分支，以减少YOLO检测器中的参数量和计算量。对于残差网络，电子设备可以减少其通道个数至原始通道个数的一半，并去除十六分之一的分支，将前两层卷积层和上采样卷积层的卷积操作替换为分离卷积，以减少残差网络中的参数量和计算量。

电子设备可以采用训练样本集对优化后的YOLO检测器进行训练，得到人体检测模型，采用训练样本集对优化后的残差网络进行训练，得到关键点预测模型，然后，对已训练的人体检测模型和关键点预测模型进行模型量化。在一种可能实现的方式中，对于YOLO检测器，电子设备可以将人体检测模型的权重数据类型由原来的float32压缩为int8，并对人体检测模型进行微调。对于残差网络，电子设备同样可以将残差网络的权重数据类型由原来的float32压缩为int8，并对残差网络进行微调。

在采用上述经过轻量化设计的人体检测模型和关键点预测模型的情况下，本申请提供的技术方案的精度和计算速率得到明显的提高。经测试，方案的2维关键点PCK@0.2(即关键点预测偏移正确点位误差小于0.2*头部像素长度的概率)指标达到94％，三维人体关键点误差小于50毫米。在电子设备为RK3399pro的情况下，方案的单进程计算效率最高可达25fps。两进程加速计算效率最高可达40fps。

在本申请实施例中，电子设备可以将包含人体健身动作的健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域，再根据各人体位置检测区域确定待检测图像，最后将待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性，其中，人体检测模型和关键点预测模型均是基于训练样本集训练得到的，训练样本集中包括多个训练样本，每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。本申请提供的技术方案可以采用经过姿态属性训练的关键点预测模型，提高在特殊动作场景下人体三维关键点预测算法的识别率。

基于同一发明构思，作为对上述方法的实现，本申请实施例提供了一种人体三维关键点预测装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图3为本申请实施例提供的人体三维关键点预测装置的结构示意图，如图3所示，本实施例提供的装置包括：

人体检测模块110，用于将包含人体健身动作的健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域；

提取模块120，用于根据各人体位置检测区域确定待检测图像；

关键点预测模块130，用于将待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性；

可选的，人体位置检测区域包括多个，提取模块120具体用于：

可选的，提取模块120具体用于；

确定各人体位置检测区域之间的重叠率；

可选的，该装置还包括：

压缩模块140，用于压缩健身图像的分辨率。

可选的，该装置还包括：

剪枝优化模块150，用于获取YOLO检测器和残差网络，并对YOLO检测器和残差网络分别进行剪枝优化；

训练模块160，用于采用训练样本集对优化后的YOLO检测器进行训练，得到人体检测模型，并采用训练样本集对优化后的残差网络进行训练，得到关键点预测模型；

模型量化模块170，用于对已训练的人体检测模型和关键点预测模型进行模型量化。

主干网络用于根据输入的待检测图像得到特征向量；

可选的，训练关键点预测模型采用的损失函数为：

Loss＝a*LossA+b*LossB+c*LossC

本实施例提供的人体三维关键点预测装置可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种电子设备。图4为本申请实施例提供的电子设备的结构示意图，如图4所示，本实施例提供的电子设备包括：存储器21和处理器20，存储器21用于存储计算机程序；处理器20用于在调用计算机程序22时执行上述方法实施例所述的方法。

本实施例提供的电子设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例所述的方法。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种人体三维关键点预测方法，其特征在于，包括：

根据各所述人体位置检测区域确定待检测图像；

将所述待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性；

其中，所述人体检测模型和所述关键点预测模型均是基于训练样本集训练得到的，所述训练样本集中包括多个训练样本，每个训练样本包括样本健身图像、所述样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。

2.根据权利要求1所述的方法，其特征在于，所述人体位置检测区域包括多个，所述根据所述人体位置检测区域提取待检测图像，包括：

根据上一帧健身图像的目标人体位置检测区域，在所述多个人体位置检测区域中确定所述健身图像的目标人体位置检测区域；

提取所述健身图像中目标人体位置检测区域内的图像作为待检测图像。

3.根据权利要求2所述的方法，其特征在于，所述根据上一帧健身图像的目标人体位置检测区域，在所述多个人体位置检测区域中确定所述健身图像的目标人体位置检测区域之前，所述方法还包括；

确定各所述人体位置检测区域之间的重叠率；

若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值，则将所述N个人体位置检测区域合并为一个人体位置检测区域，N小于或等于所述人体检测模型输出的人体位置检测区域的数量。

4.根据权利要求1所述的方法，其特征在于，在所述将所述健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域之前，所述方法还包括：

压缩所述健身图像的分辨率。

5.根据权利要求1所述的方法，其特征在于，在所述将所述健身图像输入至预先训练的人体检测模型中，得到至少一个人体位置检测区域之前，所述方法还包括：

获取YOLO检测器和残差网络；

对所述YOLO检测器和所述残差网络分别进行剪枝优化；

采用所述训练样本集对优化后的YOLO检测器进行训练，得到所述人体检测模型；

采用所述训练样本集对优化后的残差网络进行训练，得到所述关键点预测模型；

对已训练的人体检测模型和关键点预测模型进行模型量化。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述关键点预测模型包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络，所述人体三维关键点包括多个人体三维关键点位置和所述人体三维关键点位置对应的置信度，所述姿态属性包括姿态类别和所述姿态类别对应的置信度；

所述主干网络用于根据输入的待检测图像得到特征向量；

所述姿态属性网络用于根据所述特征向量得到所述姿态类别和所述姿态类别对应的置信度；

所述关键点回归网络用于根据所述特征向量得到所述多个人体三维关键点位置；

所述上采样卷积网络用于根据所述特征向量得到各人体三维关键点位置对应的置信度。

7.根据权利要求6所述的方法，其特征在于，训练所述关键点预测模型采用的损失函数为：

Loss＝a*LossA+b*LossB+c*LossC

其中，Loss表示所述关键点预测模型的损失函数，LossA表示所述姿态属性网络的损失函数，LossB表示所述关键点回归网络的损失函数，LossC表示所述上采样卷积网络的损失函数，a、b和c表示各损失函数的系数，其中，a+b+c＝1，K表示所述姿态类别的数量，y表示所述训练样本中各对应网络的标注值，y^p表示各网络对应的输出，n表示所述人体三维关键点位置的数量的三倍，m表示所述上采样卷积网络的热图的数量，w_m表示权重矩阵，w_o表示所述人体三维关键点不同状态下的权重。

8.一种人体三维关键点预测装置，其特征在于，包括：

提取模块，用于根据各所述人体位置检测区域确定待检测图像；

关键点预测模块，用于将所述待检测图像输入至预先训练的关键点预测模型中，得到人体三维关键点和姿态属性；

9.一种人体三维关键点预测设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。