CN112966574A - 人体三维关键点预测方法、装置及电子设备 - Google Patents

人体三维关键点预测方法、装置及电子设备 Download PDF

Info

Publication number
CN112966574A
CN112966574A CN202110196456.XA CN202110196456A CN112966574A CN 112966574 A CN112966574 A CN 112966574A CN 202110196456 A CN202110196456 A CN 202110196456A CN 112966574 A CN112966574 A CN 112966574A
Authority
CN
China
Prior art keywords
human body
key point
image
position detection
body position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110196456.XA
Other languages
English (en)
Inventor
陈书杨
洪初阳
占佳蒙
李志铭
黄影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Aidi Sports Technology Co Ltd
Original Assignee
Xiamen Aidi Sports Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Aidi Sports Technology Co Ltd filed Critical Xiamen Aidi Sports Technology Co Ltd
Priority to CN202110196456.XA priority Critical patent/CN112966574A/zh
Publication of CN112966574A publication Critical patent/CN112966574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种人体三维关键点预测方法、装置及电子设备,涉及人体关键点预测技术领域,其中,该方法包括:将健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域,再根据各人体位置检测区域确定待检测图像,最后将待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性,其中,人体检测模型和关键点预测模型均是基于训练样本集训练得到的,训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。本申请提供的技术方案可以采用经过姿态属性训练的关键点预测模型,提高在特殊动作场景下人体三维关键点预测算法的识别率。

Description

人体三维关键点预测方法、装置及电子设备
技术领域
本申请涉及人体关键点预测技术,尤其涉及一种人体三维关键点预测方法、装置及电子设备,属于人体三维关键点预测技术领域。
背景技术
人体关键点预测又称为人体姿态估计,是实现人体动作识别、行为分析、人机交互等一系列任务的前置任务,因此,该任务是计算机视觉中一个比较重要的任务。
人体关键点预测具体可以包括二维关键点预测和三维关键点预测,其中,二维关键点预测的算法比较成熟,具体包括美国卡耐基梅隆大学姿态估计算法(Openpose)、卷积姿态识别器(Convolutional Pose Machines,CMP)和高分辨率网络(High-Resoultion Net,HRNet)等算法。在二维关键点技术的基础上,发展出了三维人体姿态(3D Human Pose)和人体姿态视频推理(Video Inference for Human Body Pose,VIBE)等基于单帧图像或视频流的三维关键点预测算法。二维关键点预测和三维关键点预测的主要区别在于三维关键点预测包含了深度信息,因此,三维关键点具有更准确、更广泛的应用场景。例如,借助三维关键点预测技术在健身辅助场景中,计算机可以根据健身过程中的人体三维关键点数据对被测试者的健身动作进行分析,然后根据分析结果进行健身指导。
但是,目前的三维关键点预测算法主要针对的是通用动作场景,对于特殊动作场景(例如体前屈、俯卧撑等健身动作)的识别率较低。
发明内容
有鉴于此,本申请实施例提供了一种人体三维关键点预测方法、装置及电子设备,可以提高在特殊动作场景下人体三维关键点预测算法的识别率。
为了实现上述目的,第一方面,本申请实施例提供一种人体三维关键点预测方法,包括:
将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域;
根据各人体位置检测区域确定待检测图像;
将待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性;
其中,人体检测模型和关键点预测模型均是基于训练样本集训练得到的,训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。
可选的,人体位置检测区域包括多个,根据人体位置检测区域提取待检测图像,包括:
根据上一帧健身图像的目标人体位置检测区域,在多个人体位置检测区域中确定健身图像的目标人体位置检测区域;
提取健身图像中目标人体位置检测区域内的图像作为待检测图像。
可选的,根据上一帧健身图像的目标人体位置检测区域,在多个人体位置检测区域中确定健身图像的目标人体位置检测区域之前,方法还包括;
确定各人体位置检测区域之间的重叠率;
若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值,则将N个人体位置检测区域合并为一个人体位置检测区域,N小于或等于人体检测模型输出的人体位置检测区域的数量。
可选的,在将健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域之前,方法还包括:
压缩健身图像的分辨率。
可选的,在将健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域之前,方法还包括:
获取YOLO检测器和残差网络;
对YOLO检测器和残差网络分别进行剪枝优化;
采用训练样本集对优化后的YOLO检测器进行训练,得到人体检测模型;
采用训练样本集对优化后的残差网络进行训练,得到关键点预测模型;
对已训练的人体检测模型和关键点预测模型进行模型量化。
可选的,关键点预测模型包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络,人体三维关键点包括多个人体三维关键点位置和人体三维关键点位置对应的置信度,姿态属性包括姿态类别和姿态类别对应的置信度;
主干网络用于根据输入的待检测图像得到特征向量;
姿态属性网络用于根据特征向量得到姿态类别和姿态类别对应的置信度;
关键点回归网络用于根据特征向量得到多个人体三维关键点位置;
上采样卷积网络用于根据特征向量得到各人体三维关键点位置对应的置信度。
可选的,训练关键点预测模型采用的损失函数为:
Loss=a*LossA+b*LossB+c*LossC
Figure BDA0002946903590000031
Figure BDA0002946903590000032
Figure BDA0002946903590000033
其中,Loss表示关键点预测模型的损失函数,LossA表示姿态属性网络的损失函数,LossB表示关键点回归网络的损失函数,LossC表示上采样卷积网络的损失函数,a、b和c表示各损失函数的系数,其中,a+b+c=1,K表示姿态类别的数量,y表示训练样本中各对应网络的标注值,yp表示各网络对应的输出,n表示所述人体三维关键点位置的数量的三倍,m表示上采样卷积网络的热图的数量,wm表示权重矩阵,wo表示人体三维关键点不同状态下的权重。
第二方面,本申请实施例提供一种人体三维关键点预测装置,包括:
人体检测模块,用于将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域;
提取模块,用于根据各人体位置检测区域确定待检测图像;
关键点预测模块,用于将待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性;
其中,人体检测模型和关键点预测模型均是基于训练样本集训练得到的,训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。
可选的,人体位置检测区域包括多个,提取模块具体用于:
根据上一帧健身图像的目标人体位置检测区域,在多个人体位置检测区域中确定健身图像的目标人体位置检测区域;
提取健身图像中目标人体位置检测区域内的图像作为待检测图像。
可选的,提取模块具体用于;
确定各人体位置检测区域之间的重叠率;
若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值,则将N个人体位置检测区域合并为一个人体位置检测区域,N小于或等于人体检测模型输出的人体位置检测区域的数量。
可选的,该装置还包括:
压缩模块,用于压缩健身图像的分辨率。
可选的,该装置还包括:
剪枝优化模块,用于获取YOLO检测器和残差网络,并对YOLO检测器和残差网络分别进行剪枝优化;
训练模块,用于采用训练样本集对优化后的YOLO检测器进行训练,得到人体检测模型,并采用训练样本集对优化后的残差网络进行训练,得到关键点预测模型;
模型量化模块,用于对已训练的人体检测模型和关键点预测模型进行模型量化。
可选的,关键点预测模型包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络,人体三维关键点包括多个人体三维关键点位置和人体三维关键点位置对应的置信度,姿态属性包括姿态类别和姿态类别对应的置信度;
主干网络用于根据输入的待检测图像得到特征向量;
姿态属性网络用于根据特征向量得到姿态类别和姿态类别对应的置信度;
关键点回归网络用于根据特征向量得到多个人体三维关键点位置;
上采样卷积网络用于根据特征向量得到各人体三维关键点位置对应的置信度。
可选的,训练关键点预测模型采用的损失函数为:
Loss=a*LossA+b*LossB+c*LossC
Figure BDA0002946903590000051
Figure BDA0002946903590000052
Figure BDA0002946903590000053
其中,Loss表示关键点预测模型的损失函数,LossA表示姿态属性网络的损失函数,LossB表示关键点回归网络的损失函数,LossC表示上采样卷积网络的损失函数,a、b和c表示各损失函数的系数,其中,a+b+c=1,K表示姿态类别的数量,y表示训练样本中各对应网络的标注值,yp表示各网络对应的输出,n表示所述人体三维关键点位置的数量的三倍,m表示上采样卷积网络的热图的数量,wm表示权重矩阵,wo表示人体三维关键点不同状态下的权重。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时执行上述第一方面或第一方面的任一实施方式的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面或第一方面的任一实施方式的方法。
本申请实施例提供的一种人体三维关键点预测方法、装置及电子设备,可以将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域,再根据各人体位置检测区域确定待检测图像,最后将待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性,其中,人体检测模型和关键点预测模型均是基于训练样本集训练得到的,训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。本申请提供的技术方案可以采用经过姿态属性训练的关键点预测模型,提高在特殊动作场景下人体三维关键点预测算法的识别率。
附图说明
图1为本申请实施例提供的人体三维关键点预测方法流程示意图;
图2为本申请实施例提供的关键点预测模型的结构示意图;
图3为本申请实施例提供的人体三维关键点预测装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
本申请实施例提供的人体三维关键点预测方法可以应用于计算机、笔记本或工作站等电子设备,本申请实施例对电子设备的具体类型不作任何限制。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本申请实施例提供的人体三维关键点预测方法流程示意图,如图1所示,该方法包括如下步骤:
S110、将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域。
本申请实施例中的人体检测模型是一种卷积神经网络,可以通过对健身图像进行特征分类,确定健身图像中人体所在的区域,即人体位置检测区域。电子设备可以通过人体检测模型预先确定人体所在的区域,在后续的处理过程中将人体所在区域的图像提取出来,减少待处理的数据大小,进而提高整个人体三维关键点预测方法的处理速度。
在应用之前需要先对该人体检测模型进行训练。电子设备可以基于训练样本集对人体检测模型进行训练,训练样本集中可以包括多个训练样本,每个训练样本可以包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点这四个标注值。
具体的,训练样本集中的训练样本数量越多越好,在一种可能的实现方式中,采用了包含5万张以上样本健身图像的训练样本,以保证人体检测模型的训练效果。电子设备可以将训练样本集切分为训练集、验证集和测试集,且三个训练样本集中的训练样本均不相同。训练集用于对人体检测模型进行训练,因此,训练集的训练样本数最多;验证集用于对已训练的人体检测模型进行验证,以确定人体检测模型的训练成果,因此,验证集的训练样本数相对较少;测试集用于对通过验证的人体检测模型进行测试,以确定人体检测模型是否符合应用要求,因此,测试集的训练样本数相对较少。在一种可能的实现方式中,训练集、验证集和测试集中训练样本数的比例为8:1:1。
最终,通过测试集的人体检测模型为训练好的人体检测模型,电子设备可以将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域。其中,通过特征分类人体检测模型可以确定多个人体位置检测区域和各人体位置检测区域对应的置信度,电子设备可以根据预先设定的输出条件,根据各人体位置检测区域对应的置信度大小,确定最终输出的人体位置检测区域。
S120、根据各人体位置检测区域确定待检测图像。
在人体检测模型输出的人体位置检测区域为一个的情况下,电子设备可以直接将该人体位置检测区域确定为目标人体位置检测区域,并根据目标人体位置检测区域从健身图像中提取该区域内图像,然后将该图像确定为待检测图像。
在人体检测模型输出的人体位置检测区域为多个的情况下,为了适当减少人体位置检测区域,降低后续的计算量,本申请实施例中还可以采用点位跟踪策略。电子设备可以每秒处理多帧的健身图像,在相邻帧之间,人体三维关键点的位置不会产生大的变换,因此,电子设备可以采用点位跟踪策略。电子设备可以先确定各人体位置检测区域之间的重叠率,若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值,则将N个人体位置检测区域合并为一个人体位置检测区域,N小于或等于人体检测模型输出的人体位置检测区域的数量。通过合并多个人体位置检测区域可以减少后续数据处理时的计算量。然后,电子设备可以根据上一帧健身图像的目标人体位置检测区域,在多个人体位置检测区域中,确定与上一帧健身图像的目标人体位置检测区域最近的人体位置检测区域,并将该人体位置检测区域确定为本次健身图像的目标人体位置检测区域。最后,电子设备可以提取健身图像中目标人体位置检测区域内的图像作为待检测图像。
进一步的,为了拟合多种健身场景中人体的姿态变换,在根据目标人体位置检测区域提取待检测图像之前,电子设备还可以对目标人体位置检测区域进行预设倍数的外扩,以保证健身图像中人体的每一个部分都在待检测图像中,防止待检测图像中的人体部位不完整。
在另一种可能实现的示例中,本申请提供的技术方案还支持多人同时识别的功能,也即是,在同一个健身图像中可能会存在多个人体,此时,人体检测模型可以输出多个人体位置检测区域和各个人体位置检测区域对应的置信度,电子设备还可以将与上一帧健身图像的目标人体位置检测区域的重叠率高于阈值的人体位置检测区域,确定为本次健身图像的目标人体位置检测区域;或将置信度高于阈值的人体位置检测区域确定为本次健身图像的目标人体位置检测区域。最后,电子设备可以得到每个人体对应的目标人体位置检测区域,然后分别提取个目标人体位置检测区域的图像作为待检测图像。
进一步的,本申请提供的技术方案还支持多人物管理功能,即每个被识别的人物都具有对应的识别号,在上述环节中,若人体位置检测区域与上一帧健身图像的目标人体位置检测区域的重叠率高于阈值,且置信度也高于阈值,则电子设备可以确定该人体位置检测区域中的人体为已跟踪的人物。若人体位置检测区域与上一帧健身图像的目标人体位置检测区域的重叠率低于阈值,而置信度高于阈值,则电子设备可以确定该人体位置检测区域中的人体为新出现的人物,可以为该人物建立新的人物识别号。
电子设备可以为根据每个人物的识别号,分别执行步骤S130,并将执行结果与每个人物的识别号进行匹配,满足多人同时识别的需求。
S130、将待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性。
本申请实施例中的关键点预测模型是一种卷积神经网络,可以通过对待检测图像进行特征分类,确定待检测图像中的人体三维关键点和姿态属性。在应用之前需要先对该关键点预测模型进行训练。电子设备可以基于训练样本集对关键点预测模型进行训练,训练样本集中可以包括多个训练样本,每个训练样本可以包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。关键点预测模型可以和人体检测模型采用同一个训练样本集,该训练样本集的具体内容可以参考上述步骤S110中对训练样本集的描述,在此不在赘述。
通过在关键点预测模型的训练中增加有关姿态属性的训练样本,可以将人体三维关键点和姿态属性进行关联,提高关键点预测模型在各类姿态下人体三维关键点的识别率。
具体的,参照图2,图2为本申请实施例提供的关键点预测模型的结构示意图,人体三维关键点可以包括多个人体三维关键点位置和人体三维关键点位置对应的置信度,姿态属性可以包括姿态类别和姿态类别对应的置信度。关键点预测模型可以包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络,其中,主干网络用于根据输入的待检测图像得到特征向量,姿态属性网络用于根据特征向量得到姿态类别和姿态类别对应的置信度,关键点回归网络用于根据特征向量得到多个人体三维关键点位置,上采样卷积网络用于根据特征向量得到各人体三维关键点位置对应的置信度。
在训练时,电子设备可以将待检测图像输入至主干网络中得到特征向量,然后将特征向量分别输入至姿态属性网络、关键点回归网络和上采样卷积网络中,分别得到各网络对应的输出结果。姿态属性网络、关键点回归网络和上采样卷积网络分别设置有对应的损失函数,电子设备可以根据各网络对应的分类结果和训练样本,计算各网络对应的损失函数,然后将每个损失函数的结果加权求和,得到最终的损失值,并根据最终的损失值再次对关键点预测模型进行训练(即模型参数调整),直到满足训练要求。
具体的,训练关键点预测模型采用的损失函数为下述公式:
Loss=a*LossA+b*LossB+c*LossC (1)
Figure BDA0002946903590000091
Figure BDA0002946903590000092
Figure BDA0002946903590000093
其中,Loss表示关键点预测模型的损失函数,LossA表示姿态属性网络的损失函数,LossB表示关键点回归网络的损失函数,LossC表示上采样卷积网络的损失函数,a、b和c表示各损失函数的系数,其中,a+b+c=1,K表示姿态类别的数量,y表示训练样本中各对应网络的标注值,yp表示各网络对应的输出,n表示所述人体三维关键点位置的数量的三倍,m表示上采样卷积网络的热图的数量,wm表示权重矩阵,wo表示人体三维关键点不同状态下的权重。
在一种可能实现的方式中,a可以为0.6,b可以为0.3,c可以为0.1。当人体三维关键点处于完全可见的状态时,wo可以为1;当人体三维关键点处于被遮挡的状态时,wo可以为0.5;当人体三维关键点不在待检测图像时,wo可以为0。其中,人体三维关键点的状态为人工标注的。
本申请实施例中的三个步骤S110、S120和S130为三个独立步骤,在实际应用时,电子设备可以根据自身需求实现多进程加速,即分别对各步骤进行进程加速,提高方案的整体处理速度。
为了提高本申请技术方案的轻量化程度,以支持各种嵌入式电子设备的应用,本申请提供的人体检测模型和关键点预测模型还进行了一些轻量化设计。
具体的,在将健身图像输入至预先训练的人体检测模型之前,压缩健身图像的分辨率,通过降低健身图像的分辨率可以减少计算量。例如,将健身图像的分辨率压缩至192*192。
以YOLO检测器和残差网络作为基础网络,对其进行优化得到人体检测模型和关键点预测模型。其中,YOLO检测器和残差网络均具有轻量化的特点。
具体的,电子设备可以获取YOLO检测器和残差网络,然后对YOLO检测器和残差网络分别进行剪枝优化。在一种可能实现的方式中,对于YOLO检测器,电子设备可以减少其通道个数至原始通道个数的一半,并去除八分之一的分支,以减少YOLO检测器中的参数量和计算量。对于残差网络,电子设备可以减少其通道个数至原始通道个数的一半,并去除十六分之一的分支,将前两层卷积层和上采样卷积层的卷积操作替换为分离卷积,以减少残差网络中的参数量和计算量。
电子设备可以采用训练样本集对优化后的YOLO检测器进行训练,得到人体检测模型,采用训练样本集对优化后的残差网络进行训练,得到关键点预测模型,然后,对已训练的人体检测模型和关键点预测模型进行模型量化。在一种可能实现的方式中,对于YOLO检测器,电子设备可以将人体检测模型的权重数据类型由原来的float32压缩为int8,并对人体检测模型进行微调。对于残差网络,电子设备同样可以将残差网络的权重数据类型由原来的float32压缩为int8,并对残差网络进行微调。
在采用上述经过轻量化设计的人体检测模型和关键点预测模型的情况下,本申请提供的技术方案的精度和计算速率得到明显的提高。经测试,方案的2维关键点PCK@0.2(即关键点预测偏移正确点位误差小于0.2*头部像素长度的概率)指标达到94%,三维人体关键点误差小于50毫米。在电子设备为RK3399pro的情况下,方案的单进程计算效率最高可达25fps。两进程加速计算效率最高可达40fps。
在本申请实施例中,电子设备可以将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域,再根据各人体位置检测区域确定待检测图像,最后将待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性,其中,人体检测模型和关键点预测模型均是基于训练样本集训练得到的,训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。本申请提供的技术方案可以采用经过姿态属性训练的关键点预测模型,提高在特殊动作场景下人体三维关键点预测算法的识别率。
基于同一发明构思,作为对上述方法的实现,本申请实施例提供了一种人体三维关键点预测装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
图3为本申请实施例提供的人体三维关键点预测装置的结构示意图,如图3所示,本实施例提供的装置包括:
人体检测模块110,用于将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域;
提取模块120,用于根据各人体位置检测区域确定待检测图像;
关键点预测模块130,用于将待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性;
其中,人体检测模型和关键点预测模型均是基于训练样本集训练得到的,训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。
可选的,人体位置检测区域包括多个,提取模块120具体用于:
根据上一帧健身图像的目标人体位置检测区域,在多个人体位置检测区域中确定健身图像的目标人体位置检测区域;
提取健身图像中目标人体位置检测区域内的图像作为待检测图像。
可选的,提取模块120具体用于;
确定各人体位置检测区域之间的重叠率;
若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值,则将N个人体位置检测区域合并为一个人体位置检测区域,N小于或等于人体检测模型输出的人体位置检测区域的数量。
可选的,该装置还包括:
压缩模块140,用于压缩健身图像的分辨率。
可选的,该装置还包括:
剪枝优化模块150,用于获取YOLO检测器和残差网络,并对YOLO检测器和残差网络分别进行剪枝优化;
训练模块160,用于采用训练样本集对优化后的YOLO检测器进行训练,得到人体检测模型,并采用训练样本集对优化后的残差网络进行训练,得到关键点预测模型;
模型量化模块170,用于对已训练的人体检测模型和关键点预测模型进行模型量化。
可选的,关键点预测模型包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络,人体三维关键点包括多个人体三维关键点位置和人体三维关键点位置对应的置信度,姿态属性包括姿态类别和姿态类别对应的置信度;
主干网络用于根据输入的待检测图像得到特征向量;
姿态属性网络用于根据特征向量得到姿态类别和姿态类别对应的置信度;
关键点回归网络用于根据特征向量得到多个人体三维关键点位置;
上采样卷积网络用于根据特征向量得到各人体三维关键点位置对应的置信度。
可选的,训练关键点预测模型采用的损失函数为:
Loss=a*LossA+b*LossB+c*LossC
Figure BDA0002946903590000121
Figure BDA0002946903590000131
Figure BDA0002946903590000132
其中,Loss表示关键点预测模型的损失函数,LossA表示姿态属性网络的损失函数,LossB表示关键点回归网络的损失函数,LossC表示上采样卷积网络的损失函数,a、b和c表示各损失函数的系数,其中,a+b+c=1,K表示姿态类别的数量,y表示训练样本中各对应网络的标注值,yp表示各网络对应的输出,n表示所述人体三维关键点位置的数量的三倍,m表示上采样卷积网络的热图的数量,wm表示权重矩阵,wo表示人体三维关键点不同状态下的权重。
本实施例提供的人体三维关键点预测装置可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备。图4为本申请实施例提供的电子设备的结构示意图,如图4所示,本实施例提供的电子设备包括:存储器21和处理器20,存储器21用于存储计算机程序;处理器20用于在调用计算机程序22时执行上述方法实施例所述的方法。
本实施例提供的电子设备可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的方法。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种人体三维关键点预测方法,其特征在于,包括:
将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域;
根据各所述人体位置检测区域确定待检测图像;
将所述待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性;
其中,所述人体检测模型和所述关键点预测模型均是基于训练样本集训练得到的,所述训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、所述样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。
2.根据权利要求1所述的方法,其特征在于,所述人体位置检测区域包括多个,所述根据所述人体位置检测区域提取待检测图像,包括:
根据上一帧健身图像的目标人体位置检测区域,在所述多个人体位置检测区域中确定所述健身图像的目标人体位置检测区域;
提取所述健身图像中目标人体位置检测区域内的图像作为待检测图像。
3.根据权利要求2所述的方法,其特征在于,所述根据上一帧健身图像的目标人体位置检测区域,在所述多个人体位置检测区域中确定所述健身图像的目标人体位置检测区域之前,所述方法还包括;
确定各所述人体位置检测区域之间的重叠率;
若N个人体位置检测区域之间的重叠率超过预设的重叠率阈值,则将所述N个人体位置检测区域合并为一个人体位置检测区域,N小于或等于所述人体检测模型输出的人体位置检测区域的数量。
4.根据权利要求1所述的方法,其特征在于,在所述将所述健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域之前,所述方法还包括:
压缩所述健身图像的分辨率。
5.根据权利要求1所述的方法,其特征在于,在所述将所述健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域之前,所述方法还包括:
获取YOLO检测器和残差网络;
对所述YOLO检测器和所述残差网络分别进行剪枝优化;
采用所述训练样本集对优化后的YOLO检测器进行训练,得到所述人体检测模型;
采用所述训练样本集对优化后的残差网络进行训练,得到所述关键点预测模型;
对已训练的人体检测模型和关键点预测模型进行模型量化。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述关键点预测模型包括主干网络、姿态属性网络、关键点回归网络和上采样卷积网络,所述人体三维关键点包括多个人体三维关键点位置和所述人体三维关键点位置对应的置信度,所述姿态属性包括姿态类别和所述姿态类别对应的置信度;
所述主干网络用于根据输入的待检测图像得到特征向量;
所述姿态属性网络用于根据所述特征向量得到所述姿态类别和所述姿态类别对应的置信度;
所述关键点回归网络用于根据所述特征向量得到所述多个人体三维关键点位置;
所述上采样卷积网络用于根据所述特征向量得到各人体三维关键点位置对应的置信度。
7.根据权利要求6所述的方法,其特征在于,训练所述关键点预测模型采用的损失函数为:
Loss=a*LossA+b*LossB+c*LossC
Figure FDA0002946903580000021
Figure FDA0002946903580000022
Figure FDA0002946903580000023
其中,Loss表示所述关键点预测模型的损失函数,LossA表示所述姿态属性网络的损失函数,LossB表示所述关键点回归网络的损失函数,LossC表示所述上采样卷积网络的损失函数,a、b和c表示各损失函数的系数,其中,a+b+c=1,K表示所述姿态类别的数量,y表示所述训练样本中各对应网络的标注值,yp表示各网络对应的输出,n表示所述人体三维关键点位置的数量的三倍,m表示所述上采样卷积网络的热图的数量,wm表示权重矩阵,wo表示所述人体三维关键点不同状态下的权重。
8.一种人体三维关键点预测装置,其特征在于,包括:
人体检测模块,用于将包含人体健身动作的健身图像输入至预先训练的人体检测模型中,得到至少一个人体位置检测区域;
提取模块,用于根据各所述人体位置检测区域确定待检测图像;
关键点预测模块,用于将所述待检测图像输入至预先训练的关键点预测模型中,得到人体三维关键点和姿态属性;
其中,所述人体检测模型和所述关键点预测模型均是基于训练样本集训练得到的,所述训练样本集中包括多个训练样本,每个训练样本包括样本健身图像、所述样本健身图像对应的人体位置检测区域、姿态属性和人体三维关键点。
9.一种人体三维关键点预测设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在调用所述计算机程序时执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202110196456.XA 2021-02-22 2021-02-22 人体三维关键点预测方法、装置及电子设备 Pending CN112966574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110196456.XA CN112966574A (zh) 2021-02-22 2021-02-22 人体三维关键点预测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110196456.XA CN112966574A (zh) 2021-02-22 2021-02-22 人体三维关键点预测方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112966574A true CN112966574A (zh) 2021-06-15

Family

ID=76285448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110196456.XA Pending CN112966574A (zh) 2021-02-22 2021-02-22 人体三维关键点预测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112966574A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505763A (zh) * 2021-09-09 2021-10-15 北京爱笔科技有限公司 关键点检测方法、装置、电子设备及存储介质
CN113591967A (zh) * 2021-07-27 2021-11-02 南京旭锐软件科技有限公司 一种图像处理方法、装置、设备及计算机存储介质
CN113673318A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 一种动作检测方法、装置、计算机设备和存储介质
CN113762133A (zh) * 2021-09-01 2021-12-07 哈尔滨工业大学(威海) 基于人体姿态识别的自重健身辅助教练系统、方法、终端
CN113780176A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 局部遮挡对象识别方法、装置、设备及存储介质
CN116758295A (zh) * 2023-08-15 2023-09-15 摩尔线程智能科技(北京)有限责任公司 关键点检测方法及装置、电子设备和存储介质
WO2024078037A1 (zh) * 2022-10-12 2024-04-18 华人运通(上海)云计算科技有限公司 人体姿态检测方法和基于视觉感知的安全人机交互方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN109948453A (zh) * 2019-02-25 2019-06-28 华中科技大学 一种基于卷积神经网络的多人姿态估计方法
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
CN111368751A (zh) * 2020-03-06 2020-07-03 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN111582154A (zh) * 2020-05-07 2020-08-25 浙江工商大学 基于多任务骨架姿态划分部件的行人重识别方法
CN111611903A (zh) * 2020-05-15 2020-09-01 北京百度网讯科技有限公司 动作识别模型的训练方法、使用方法、装置、设备和介质
CN111753747A (zh) * 2020-06-28 2020-10-09 高新兴科技集团股份有限公司 基于单目摄像头和三维姿态估计的剧烈运动检测方法
WO2020207270A1 (zh) * 2019-04-09 2020-10-15 五邑大学 一种三维人脸重建方法及其系统、装置、存储介质
EP3745352A1 (en) * 2019-05-31 2020-12-02 Presize UG Methods and systems for determining body measurements and providing clothing size recommendations
CN112307940A (zh) * 2020-10-28 2021-02-02 有半岛(北京)信息科技有限公司 模型训练方法、人体姿态检测方法、装置、设备及介质
CN112364815A (zh) * 2020-11-26 2021-02-12 河南颂达信息技术有限公司 基于三维模型的跳高运动员跳高姿态检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN109948453A (zh) * 2019-02-25 2019-06-28 华中科技大学 一种基于卷积神经网络的多人姿态估计方法
WO2020207270A1 (zh) * 2019-04-09 2020-10-15 五邑大学 一种三维人脸重建方法及其系统、装置、存储介质
EP3745352A1 (en) * 2019-05-31 2020-12-02 Presize UG Methods and systems for determining body measurements and providing clothing size recommendations
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
CN111368751A (zh) * 2020-03-06 2020-07-03 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN111582154A (zh) * 2020-05-07 2020-08-25 浙江工商大学 基于多任务骨架姿态划分部件的行人重识别方法
CN111611903A (zh) * 2020-05-15 2020-09-01 北京百度网讯科技有限公司 动作识别模型的训练方法、使用方法、装置、设备和介质
CN111753747A (zh) * 2020-06-28 2020-10-09 高新兴科技集团股份有限公司 基于单目摄像头和三维姿态估计的剧烈运动检测方法
CN112307940A (zh) * 2020-10-28 2021-02-02 有半岛(北京)信息科技有限公司 模型训练方法、人体姿态检测方法、装置、设备及介质
CN112364815A (zh) * 2020-11-26 2021-02-12 河南颂达信息技术有限公司 基于三维模型的跳高运动员跳高姿态检测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673318A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 一种动作检测方法、装置、计算机设备和存储介质
CN113673318B (zh) * 2021-07-12 2024-05-03 浙江大华技术股份有限公司 一种动作检测方法、装置、计算机设备和存储介质
CN113591967A (zh) * 2021-07-27 2021-11-02 南京旭锐软件科技有限公司 一种图像处理方法、装置、设备及计算机存储介质
CN113591967B (zh) * 2021-07-27 2024-06-11 南京旭锐软件科技有限公司 一种图像处理方法、装置、设备及计算机存储介质
CN113762133A (zh) * 2021-09-01 2021-12-07 哈尔滨工业大学(威海) 基于人体姿态识别的自重健身辅助教练系统、方法、终端
CN113505763A (zh) * 2021-09-09 2021-10-15 北京爱笔科技有限公司 关键点检测方法、装置、电子设备及存储介质
CN113505763B (zh) * 2021-09-09 2022-02-01 北京爱笔科技有限公司 关键点检测方法、装置、电子设备及存储介质
CN113780176A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 局部遮挡对象识别方法、装置、设备及存储介质
CN113780176B (zh) * 2021-09-10 2023-08-25 平安科技(深圳)有限公司 局部遮挡对象识别方法、装置、设备及存储介质
WO2024078037A1 (zh) * 2022-10-12 2024-04-18 华人运通(上海)云计算科技有限公司 人体姿态检测方法和基于视觉感知的安全人机交互方法
CN116758295A (zh) * 2023-08-15 2023-09-15 摩尔线程智能科技(北京)有限责任公司 关键点检测方法及装置、电子设备和存储介质
CN116758295B (zh) * 2023-08-15 2024-06-04 摩尔线程智能科技(北京)有限责任公司 关键点检测方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112966574A (zh) 人体三维关键点预测方法、装置及电子设备
CN110728209B (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
CN109871780B (zh) 一种人脸质量判决方法、系统及人脸识别方法、系统
CN111428088A (zh) 视频分类方法、装置及服务器
CN112784810B (zh) 手势识别方法、装置、计算机设备和存储介质
CN109934300B (zh) 模型压缩方法、装置、计算机设备及存储介质
CN112784763A (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN111914782A (zh) 人脸及其特征点的检测方法、装置、电子设备和存储介质
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN109325440A (zh) 人体动作识别方法及系统
CN112580458A (zh) 人脸表情识别方法、装置、设备及存储介质
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN111784658B (zh) 一种用于人脸图像的质量分析方法和系统
CN111401192A (zh) 基于人工智能的模型训练方法和相关装置
CN111275694B (zh) 一种注意力机制引导的递进式划分人体解析系统及方法
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN115564030A (zh) 目标检测模型的压缩方法、检测方法、装置及相关设备
CN111738199A (zh) 图像信息验证方法、装置、计算装置和介质
CN114360073A (zh) 一种图像识别方法及相关装置
CN113706550A (zh) 图像场景识别和模型训练方法、装置和计算机设备
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN115471901A (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination