CN116912884A - 一种人体关键点检测方法及系统 - Google Patents

一种人体关键点检测方法及系统 Download PDF

Info

Publication number
CN116912884A
CN116912884A CN202310899391.4A CN202310899391A CN116912884A CN 116912884 A CN116912884 A CN 116912884A CN 202310899391 A CN202310899391 A CN 202310899391A CN 116912884 A CN116912884 A CN 116912884A
Authority
CN
China
Prior art keywords
human body
key point
body key
module
position frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310899391.4A
Other languages
English (en)
Other versions
CN116912884B (zh
Inventor
李继凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Uwonders Technology Co ltd
Original Assignee
Beijing Uwonders Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Uwonders Technology Co ltd filed Critical Beijing Uwonders Technology Co ltd
Priority to CN202310899391.4A priority Critical patent/CN116912884B/zh
Publication of CN116912884A publication Critical patent/CN116912884A/zh
Application granted granted Critical
Publication of CN116912884B publication Critical patent/CN116912884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人体关键点检测方法及系统,该方法包括,步骤1、构建人体关键点估计网络,所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块;步骤2、利用训练数据集训练所述人体关键点估计网络,得到人体关键点估计模型;步骤3、将待检测图像输入所述人体关键点估计模型,输出不同尺度的人体关键点预测坐标;步骤4、对不同尺度的所述人体关键点预测坐标进行融合,得到人体关键点坐标。本发明是在自顶而下的基础上次加以改进,采用一次前向推理的结构,即只需要单个模型就可实现人体位置的检测和人体关键点的检测,确保了检测精度的同时,又提高了运行效率。

Description

一种人体关键点检测方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种人体关键点检测方法及系统。
背景技术
人体关键点检测通过对人体主要骨骼点(关键点)的位置预测,实现人体姿态估计。人体姿态估计是计算机视觉领域的基础任务之一,可广泛应用于动作识别、行人跟踪、自动驾驶、人机交互等领域。行业内的技术采用分为自底而上(bottom-up)和自顶而下(top-down)两种思路。
自底而上的方法直接从原图检测人体关键点,再根据不同关键点间的关系进行分组。自顶而下的方法先检测行人区域,再对每个行人进行关键点检测,可视为行人检测和单人姿态估计的组合。通常自顶而下的技术方案的准确性要高于自底而上,但是效率却要低于自底而下。
为了实现高精度的人体关键点检测,发明专利一种多人人体姿态估计方法(CN111339903B),公开了采用自底向上与自顶向下两种方法结合的两阶段训练方法,训练深度特征人体关键点检测模型,首先进行自底向上的方法训练该深度特征人体关键点检测模型,然后进行自顶向下的方法训练该深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图;采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点。
上述方法,可实现图像中多人体关键点的识别,但模型训练过程复杂,特提出本发明,本发明是在自顶而下的基础上次加以改进,在确保自顶而下技术方案的准确性的同时,又提高了运行效率。
发明内容
本发明的发明目的是针对现有技术的不足,提供了一种人体关键点检测方法及系统,可精确实现人体关键点的估计,适用范围广。
第一方面,本申请提供一种人体关键点检测方法,包括:
步骤1,构建人体关键点估计网络,所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块;
所述多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图;
所述检测头模块用于接受特征图并输出多个尺度的检测头特征图;
所述人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框;
所述感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图;
所述人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标;
步骤2,利用训练数据集训练所述人体关键点估计网络,得到人体关键点估计模型;
步骤3,将待检测图像输入所述人体关键点估计模型,输出不同尺度的人体关键点预测坐标;
步骤4,对不同尺度的所述人体关键点预测坐标进行融合,得到人体关键点坐标。
进一步地,所述多尺度特征图提取模块输出4个尺度的特征图,所述检测头模块输出4个尺度的检测头特征图,所述人体位置框检测模块输出4个尺度的预测人体位置框;所述感兴趣区域对齐模块输出4个尺度的对齐特征图,所述人体关键点检测模块输出4个不同尺度的17个人体关键点预测坐标。
进一步地,所述多尺度特征图提取模块包括Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块。
进一步地,所述Backbone特征提取模块采用多个残差网络块,得到至少4个尺度的特征图,输出分辨率从小到大的最后4个尺度的特征图,分别为:BONEend,BONEend-1,BONEend-2,BONeend-3
所述自上而下多尺度特征融合模块,输出4个尺度的特征图,分辨率从小到大分别为UPend,UPend-1,UPend-2,UPend-3,其中,UPend通过对BONEend进行卷积操作得到;UPend-1通过对UPend进行转置卷积并加上BONEend-1的卷积操作后得到;UPend-2通过对UPend-1进行转置卷积并加上BONEend-2的卷积操作后得到;UPend-3通过对UPend-2进行转置卷积并加上BONEend-3的卷积操作后得到;
所述自下而上多尺度特征融合模块,输出4个尺度的特征图,分辨率从小到大分别为DOWNend,DOWNend-1,DOWNend-2,DOWNend-3,其中,DOWNend-3通过对UPend-3卷积操作得到;DOWNend-2通过对DOWNend-3卷积操作并加上UPend-2的卷积操作后得到;DOWNend-1通过对DOWNend-2卷积操作并加上UPend-1的卷积操作后得到;DOWNend通过对DOWNend-1卷积操作并加上UPend的卷积操作后得到。
进一步地,所述检测头模块通过对4个尺度的特征图分别做卷积操作,输出4个尺度的检测头特征图,分别为:Headend,Headend-1,Headend-2,Headend-3
进一步地,所述人体位置框检测模块分别对4个尺度的检测头特征图做卷积操作,得到4个尺度的预测人体位置框,分别为BOXend,BOXend-1,BOXend-2,BOXend-3,为每个尺度中的每个像素预测至少1个anchor,每个anchor预测6个值,分别为人体位置框的中心位置的横坐标、人体位置框的中心位置的纵坐标、人体位置框相对中心位置宽的偏移量、人体位置框相对中心位置高的偏移量、目标存在的置信度boxconf以及人体类别置信度humanconf
进一步地,所述预测人体位置框的特征图的通道数为18,为每个像素预测3个anchor。
进一步地,所述感兴趣区域对齐模块采用感兴趣区域对齐技术,输出4个尺度的对齐特征图,分别为ALIGNend,ALIGNend-1,ALIGNend-2,ALIGNend-3
进一步地,所述人体关键点检测模块对4个尺度的对齐特征图采用卷积操作,得到4个尺度的人体关键点预测特征图,分别为POINTend,POINTend-1,POINTend-2,POINTend-3,所述人体关键点预测特征图的通道数为17。
进一步地,所述步骤2包括:
步骤21,选择所述训练数据集,所述训练数据集为coco数据集;
步骤22,所述人体位置框为真实人体位置框或所述预测人体位置框,所述真实人体位置框为coco数据集中标注的人体位置框,训练过程中实时获取所述真实人体位置框以及所述预测人体位置框;
当所述真实人体位置框与所述预测人体位置框的IOU≤80%时,所述人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框;
当所述真实人体位置框与所述预测人体位置框的IOU>80%时,所述人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框和预测人体位置框;
步骤23,采用梯度下降法训练所述人体关键点估计网络,得到人体关键点估计中间模型;
步骤24,对所述人体关键点估计中间模型的感兴趣区域对齐模块进行调整,使其输入的所述人体位置框为所述预测人体位置框,得到人体关键点估计模型。
进一步地,所述步骤2中,总误差公式为:
Losstotal=αLossbox+(1-α)Losspoint
其中,Losstotal为总误差,Lossbox为人体位置框总误差,Losspoint为人体关键点总误差,α∈(0,1)用以权衡人体位置框总误差和人体关键点总误差的权重。
进一步地,所述人体位置框总误差公式为:
采用SIoU来计算所述真实人体位置框和所述预测人体位置框之间的交集;
其中,D表示不同的尺度,i和j分表示人体位置预测特征图的横纵坐标,k表示anchor的序号,Boxgt表示真实人体位置框,Boxpred表示预测人体位置框。
进一步地,所述人体关键点总误差公式为:
其中,D为不同的尺度,h为人体关键点的序号,m和n分别为人体关键点预测特征图的横纵坐标,xm,n,s,h为人体关键点真实高斯值,为人体关键点预测坐标。
进一步地,所述人体关键点真实高斯值根据coco数据集中标定的人体关键点坐标,采用高斯分布对所述人体关键点坐标进行变换获得。
进一步地,人体关键点的采用高斯分布来表示,将人体的关键点真实位置坐标的映射到不同尺度的人体关键点预测特征图,并对坐标并取整,设为;设置高斯圆的半径,设为R;在人体关键点预测特征图上,以为圆心,半径为R填充高斯函数计算值。
进一步地,所述步骤3具体步骤为:
步骤31,将待检测图像输入所述多尺度特征提取模,输出多个尺度的特征图;
步骤32,将所述特征图输入所述检测头模,输出多个尺度的检测头特征图;
步骤33,将所述检测头特征图输入所述人体位置框检测模块,输出多个尺度的预测人体位置框;
步骤34,将所述检测头特征图以及所述预测人体位置框输入所述感兴趣区域对齐模块,输出多个尺度的对齐特征图;
步骤35,将所述对齐特征图输入人体关键点检测模块,输出多个尺度的人体关键点预测特征图;
步骤36,在每个尺度的所述人体关键点预测特征图中,取每个通道中最大值的坐标作为人体关键点预测坐标,得到不同尺度的人体关键点预测坐标。
进一步地,所述步骤4包括:
步骤41,将不同尺度的所述人体关键点预测坐标映射回所述待检测图像中,得到不同尺度的人体关键点映射坐标;
步骤42,将不同尺度的所述人体关键点映射坐标求均值,得到所述人体关键点坐标。
第二方面,本申请还提供一种人体关键点检测系统,包括人体关键点估计网络构建模块、网络训练模块、人体关键点坐标预测模块、人体关键点坐标融合模块;
所述人体关键点估计网络构建模块用于构建人体关键点估计网络,所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块;
所述多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图;
所述检测头模块用于接受特征图并输出多个尺度的检测头特征图;
所述人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框;
所述感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图;
所述人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标;
所述网络训练模块利用训练数据集训练所述人体关键点估计网络,得到人体关键点估计模型;
人体关键点坐标预测模块,通过将待检测图像输入所述人体关键点估计模型,输出不同尺度的人体关键点预测坐标;
人体关键点坐标融合模块,通过将不同尺度的所述人体关键点预测坐标进行融合,得到人体关键点坐标。
本发明的有益效果在于:
(1)本发明是在自顶而下的基础上次加以改进,采用一次前向推理的结构,包括了人体位置框检测和人体关键点检测,即只需要单个模型就可实现人体位置的检测和人体关键点的检测,确保了自顶而下技术方案的准确性的同时,又提高了运行效率。
(2)设计了集成多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块的人体关键点检测网络,使用多通道、多阶段的模式对多尺度特征图进行分析,得到不同尺度的人体关键点预测坐标,最后以多尺度融合的方式将多尺度的人体关键点预测坐标进行融合,得到更加全面且有效的人体关键点坐标,实现人体关键点的高精度识别。
(3)集合在密集人群的应用场景中,本发明可实现多人的人体框和关键点同时识别,能够准确且快速地实现人体关键点的估计,无需额外的模型预先提取人体框,算法流程简便,运算量低,满足各种低算力设备的轻量化部署要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为一种人体关键点检测方法的流程示意图。
图2为人体关键点估计网络结构。
图3为一种人体关键点检测方法中步骤S2的流程示意图。
图4为步骤S3的流程示意图。
图5为一种人体关键点检测系统的组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种人体关键点检测方法,包括以下步骤:
步骤1,构建人体关键点估计网络,人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块;
多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图;
检测头模块用于接受特征图并输出多个尺度的检测头特征图;
人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框;
感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图;
人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标。
步骤2,利用训练数据集训练人体关键点估计网络,得到人体关键点估计模型。
步骤3,将待检测图像输入人体关键点估计模型,输出不同尺度的人体关键点预测坐标。
步骤4,对不同尺度的人体关键点预测坐标进行融合,得到人体关键点坐标。
本实施例,在自顶而下的基础上次加以改进,采用一次前向推理的结构,包括了人体位置框检测和人体关键点检测,即只需要单个模型就可实现人体位置的检测和人体关键点的检测,确保了自顶而下技术方案的准确性的同时,又提高了运行效率。
不同尺度的人体关键的覆盖的相同区域的语义信息不同,为了实现多尺度的人体关键点特征分析,设计了多尺度特征图提取模块,多尺度特征提取模块用于输出至少两个尺度的特征图。
本实施例中,多尺度特征图提取模块输出4个尺度的特征图,检测头模块输出4个尺度的检测头特征图,人体位置框检测模块输出4个尺度的预测人体位置框;感兴趣区域对齐模块输出4个尺度的对齐特征图,人体关键点检测模块输出4个不同尺度的17个人体关键点预测坐标。
设计了集成多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块的人体关键点检测网,使用多通道、多阶段的模式对多尺度特征图进行分析,得到不同尺度的人体关键点预测坐标,最后以多尺度融合的方式将多尺度的人体关键点预测坐标进行融合,得到更加全面且有效的人体关键点坐标,实现人体关键点的高精度识别。
如图2所示,多尺度特征图提取模块包括Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块。
Backbone特征提取模块采用多个残差网络块,得到至少4个尺度的特征图,输出分辨率从小到大的最后4个尺度的特征图,分别为:BONEend,BONEend-1,BONEend-2,BONeend-3
自上而下多尺度特征融合模块,输出4个尺度的特征图,分辨率从小到大分别为UPend,UPend-1,UPend-2,UPend-3,其中,UPend通过对BONEend进行卷积操作得到;UPend-1通过对UPend进行转置卷积并加上BONEend-1的卷积操作后得到;UPend-2通过对UPend-1进行转置卷积并加上BONEend-2的卷积操作后得到;UPend-3通过对UPend-2进行转置卷积并加上BONEend-3的卷积操作后得到;
自下而上多尺度特征融合模块,输出4个尺度的特征图,分辨率从小到大分别为DOWNend,DOWNend-1,DOWNend-2,DOWNend-3,其中,DOWNend-3通过对UPend-3卷积操作得到;DOWNend-2通过对DOWNend-3卷积操作并加上UPend-2的卷积操作后得到;DOWNend-1通过对DOWNend-2卷积操作并加上UPend-1的卷积操作后得到;DOWNend通过对DOWNend-1卷积操作并加上UPend的卷积操作后得到。
将图像输入多尺度特征图提取模块输出依次经过Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块,输出4个尺度的特征图,分辨率从小到大分别为DOWNend,DOWNend-1,DOWNend-2,DOWNend-3
将DOWNend,DOWNend-1,DOWNend-2,DOWNend-3输入检测头模块,检测头模块通过对4个尺度的特征图分别做卷积操作,输出4个尺度的检测头特征图,分别为:Headend,Headend-1,Headend-2,Headend-3
将Headend,Headend-1,Headend-2,Headend-3输入人体位置框检测模块,人体位置框检测模块分别对4个尺度的检测头特征图做卷积操作,得到4个尺度的预测人体位置框,分别为BOXend,BOXend-1,BOXend-2,BOXend-3,为每个尺度中的每个像素预测至少1个anchor,每个anchor预测6个值,分别为人体位置框的中心位置的横坐标、人体位置框的中心位置的纵坐标、人体位置框相对中心位置宽的偏移量、人体位置框相对中心位置高的偏移量、目标存在的置信度boxconf以及人体类别置信度humanconf
本实施例中,预测人体位置框的特征图的通道数为18,为每个像素预测3个anchor。
每个预测人体位置框的特征图的通道数为18,18表示为每个人体位置框预测3个anchor,每个anchor预测6个值。
将Headend,Headend-1,Headend-2,Headend-3、人体位置框输入感兴趣区域对齐模块,感兴趣区域对齐模块采用感兴趣区域对齐技术,输出4个尺度的对齐特征图,分别为ALIGNend,ALIGNend-1,ALIGNend-2,ALIGNend-3
具体地,在预测阶段,将不同尺度的检测头特征图和预测人体位置框分别采用感兴趣区域对齐技术,得到不同尺度的对齐特征图,通过Headend和BOXend得到ALIGNend,通过Headend-1和BOXend-1得到ALIGNend-1,通过Headend-2和BOXend-2得到ALIGNend-2,通过Headend-3和BOXend-3得到ALIGNend-3
人体关键点检测模块对4个尺度的对齐特征图ALIGNend,ALIGNend-1,ALIGNend-2,ALIGNend-3采用卷积操作,得到4个尺度的人体关键点预测特征图,分别为POINTend,POINTend-1,POINTend-2,POINTend-3,人体关键点预测特征图的通道数为17,17表示人体的17个关键点,即每个通道表示一个人体关键点。
为了建立高精度的人体关键点估计模型,通过步骤2,采用coco数据集对人体关键点估计网络进行训练,如图3所示,步骤2包括:
步骤21,选择训练数据集,训练数据集为coco数据集。
可选择的训练数据集有像COCO、MPII和CrowdPose这样的公共数据集,人体关键点检测属于比较复杂一类的问题。为神经网络模型建立一个合适的数据集是很困难的,图像中每个人的每个关节都必须定位和标记,这是一项琐碎而费时的任务。本实施例采用COCO数据集,它有大约80类图像和大约250000个人物实例。
步骤22,人体位置框为真实人体位置框或预测人体位置框,真实人体位置框为coco数据集中标注的人体位置框,训练过程中实时获取真实人体位置框以及预测人体位置框;
当真实人体位置框与预测人体位置框的IOU≤80%时,人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框;
当真实人体位置框与预测人体位置框的IOU>80%时,人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框和预测人体位置框。
在人体关键点估计网络训练的初始阶段,由于模型预测的人体位置框不准确,此时,感兴趣区域对齐模块的只接收真实人体位置框,如图2所示,输入包括真实人体位置框,真实人体位置框输入感兴趣区域对齐模块。
随着模型的不断训练,当真实人体位置框与通过模型获得的预测人体位置框的IoU值超过80%时,感兴趣区域对齐模块的将同时接收真实人体位置框和预测人体位置框。增加了样本的多样性和准确性。
步骤23,采用梯度下降法训练人体关键点估计网络,得到人体关键点估计中间模型。
步骤24,对人体关键点估计中间模型的感兴趣区域对齐模块进行调整,使其输入的人体位置框为预测人体位置框,得到人体关键点估计模型。
通过步骤2.3获得了训练好的人体关键点估计中间模型,该模型感兴趣区域对齐模块输入的人体位置框为真实人体位置框和预测人体位置框,但在利用训练好的模型进行人体关键点检测的时候,不存在人工标定的真实人体位置框,只有模型获取的预测人体位置框,基于此,通过步骤2.4对人体关键点估计中间模型的感兴趣区域对齐模块的输入进行调整,将真实人体位置框在感兴趣区域对齐模块中去掉,获得最终的人体关键点估计模型。
步骤2中,训练过程中的总误差公式为:
Losstotal=αLossbox+(1-α)Losspoint
其中,Losstotal为总误差,Lossbox为人体位置框总误差,Losspoint为人体关键点总误差,α∈(0,1)用以权衡人体位置框总误差和人体关键点总误差的权重。
本实施例中,同时对模型预测的人体的位置框和人体关键点信息进行约束,这样保证了最终的人体位置关键点估计模型更加准确。
人体位置框总误差公式为:
采用SIoU来计算真实人体位置框和所述预测人体位置框之间的交集;
其中,D表示不同的尺度,i和j分表示人体位置预测特征图的横纵坐标,k表示anchor的序号,Boxgt表示真实人体位置框,Boxpred表示预测人体位置框。
人体关键点总误差公式为:
其中,D为不同的尺度,h为人体关键点的序号,m和n分别为人体关键点预测特征图的横纵坐标,xm,n,s,h为人体关键点真实高斯值,为人体关键点预测坐标。
本实施例中,采用均方差来计算真实人体关键点和预测人体关键点之间的误差。
人体关键点真实高斯值根据coco数据集中标定的人体关键点坐标,采用高斯分布对人体关键点坐标进行变换获得。
具体地,人体关键点的采用高斯分布来表示,将人体的关键点真实位置坐标的映射到不同尺度的人体关键点预测特征图,并对坐标并取整,设为;设置高斯圆的半径,设为R;在人体关键点预测特征图上,以为圆心,半径为R填充高斯函数计算值。
通过步骤2获得训练好的人体位置关键点估计模型,通过步骤3获得待检测图像中人体的不同尺度的人体关键点预测坐标,如图4所示,步骤3具体步骤为:
步骤31,将待检测图像输入多尺度特征提取模,输出多个尺度的特征图;
步骤32,将特征图输入检测头模,输出多个尺度的检测头特征图;
步骤33,将检测头特征图输入人体位置框检测模块,输出多个尺度的预测人体位置框;
步骤34,将检测头特征图以及预测人体位置框输入感兴趣区域对齐模块,输出多个尺度的对齐特征图;
步骤35,将对齐特征图输入人体关键点检测模块,输出多个尺度的人体关键点预测特征图;
步骤36,在每个尺度的人体关键点预测特征图中,取每个通道中最大值的坐标作为人体关键点预测坐标,得到不同尺度的人体关键点预测坐标。
步骤4用于实现不同尺度的人体关键点预测坐标的融合,步骤4包括:
步骤41,将不同尺度的人体关键点预测坐标映射回待检测图像中,得到不同尺度的人体关键点映射坐标;
步骤42,将不同尺度的人体关键点映射坐标求均值,得到人体关键点坐标。
具体地,步骤41,将不同尺度中的人体关键点预测坐标{XD,i,YD,i}映射回待检测图像中,得到不同尺度的人体关键点映射坐标
步骤42,将不同尺度的人体关键点映射坐标求均值,如下:
得到最终的人体关键点坐标,其中,i=0,…,16。
17个关键点所对应的人体部位包括:0:鼻子、1:左眼、2:右眼、3:左耳、4:右耳、5:左肩、6:右肩、7:左肘、8:右肘、9:左腕、10:右腕、11:左胯、12:右胯、13:左膝、14:右膝、15:左踝、16:右踝。
集合在密集人群的应用场景中,本实施例可实现多人的人体框和关键点同时识别,能够准确且快速地实现人体关键点的估计,无需额外的模型预先提取人体框,算法流程简便,运算量低,满足各种低算力设备的轻量化部署要求。
第二方面,本实施例还提供一种人体关键点检测系统,包括人体关键点估计网络构建模块、网络训练模块、人体关键点坐标预测模块、人体关键点坐标融合模块;
人体关键点估计网络构建模块用于构建人体关键点估计网络,人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块;
多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图;
检测头模块用于接受特征图并输出多个尺度的检测头特征图;
人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框;
感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图;
人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标;
网络训练模块利用训练数据集训练人体关键点估计网络,得到人体关键点估计模型;
人体关键点坐标预测模块,通过将待检测图像输入人体关键点估计模型,输出不同尺度的人体关键点预测坐标;
人体关键点坐标融合模块,通过将不同尺度的人体关键点预测坐标进行融合,得到人体关键点坐标。
需要说明的是,本实施例中的各模块(或单元)是逻辑意义上的,具体实现时,多个模块(或单元)可以合并成一个模块(或单元),一个模块(或单元)也可以拆分成多个模块(或单元)。
本实施中的一种人体关键点检测系统实现了自动化识别且成本低廉、简单便捷、效果明显,其应用实现了在密集人群的应用场景中,能够准确且快速地实现人体关键点的估计,具有降低工作人员工作量,且提高工作效率的优势。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (10)

1.一种人体关键点检测方法,其特征在于,包括:
步骤1、构建人体关键点估计网络,所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块;
所述多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图;
所述检测头模块用于接受特征图并输出多个尺度的检测头特征图;
所述人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框;
所述感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图;
所述人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标;
步骤2、利用训练数据集训练所述人体关键点估计网络,得到人体关键点估计模型;
步骤3、将待检测图像输入所述人体关键点估计模型,输出不同尺度的人体关键点预测坐标;
步骤4、对不同尺度的所述人体关键点预测坐标进行融合,得到人体关键点坐标。
2.根据权利要求1所述的一种人体关键点检测方法,其特征在于,所述多尺度特征图提取模块输出4个尺度的特征图,所述检测头模块输出4个尺度的检测头特征图,所述人体位置框检测模块输出4个尺度的预测人体位置框;所述感兴趣区域对齐模块输出4个尺度的对齐特征图,所述人体关键点检测模块输出4个不同尺度的17个人体关键点预测坐标。
3.根据权利要求2所述的一种人体关键点检测方法,其特征在于,所述多尺度特征图提取模块包括Backbone特征提取模块、自上而下多尺度特征融合模块以及自下而上多尺度特征融合模块。
4.根据权利要求3所述的一种人体关键点检测方法,其特征在于,所述Backbone特征提取模块采用多个残差网络块,得到至少4个尺度的特征图,输出分辨率从小到大的最后4个尺度的特征图,分别为:BONEend,BONEend-1,BONEend-2,BONeend-3
所述自上而下多尺度特征融合模块,输出4个尺度的特征图,分辨率从小到大分别为UPend,UPend-1,UPend-2,UPend-3,其中,UPend通过对BONEend进行卷积操作得到;UPend-1通过对UPend进行转置卷积并加上BONEend-1的卷积操作后得到;UPend-2通过对UPend-1进行转置卷积并加上BONEend-2的卷积操作后得到;UPend-3通过对UPend-2进行转置卷积并加上BONEend-3的卷积操作后得到;
所述自下而上多尺度特征融合模块,输出4个尺度的特征图,分辨率从小到大分别为DOWNend,DOWNend-1,DOWNend-2,DOWNend-3,其中,DOWNend-3通过对UPend-3卷积操作得到;DOWNend-2通过对DOWNend-3卷积操作并加上UPend-2的卷积操作后得到;DOWNend-1通过对DOWNend-2卷积操作并加上UPend-1的卷积操作后得到;DOWNend通过对DOWNend-1卷积操作并加上UPend的卷积操作后得到。
5.根据权利要求2所述的一种人体关键点检测方法,其特征在于,所述检测头模块通过对4个尺度的特征图分别做卷积操作,输出4个尺度的检测头特征图,分别为:Headend,Headend-1,Headend-2,Headend-3
所述人体位置框检测模块分别对4个尺度的检测头特征图做卷积操作,得到4个尺度的预测人体位置框,分别为BOXend,BOXend-1,BOXend-2,BOXend-3,为每个尺度中的每个像素预测至少1个anchor,每个anchor预测6个值,分别为人体位置框的中心位置的横坐标、人体位置框的中心位置的纵坐标、人体位置框相对中心位置宽的偏移量、人体位置框相对中心位置高的偏移量、目标存在的置信度boxconf以及人体类别置信度humanconf
所述人体关键点检测模块对4个尺度的对齐特征图采用卷积操作,得到4个尺度的人体关键点预测特征图,分别为POINTend,POINTend-1,POINTend-2,POINTend-3,所述人体关键点预测特征图的通道数为17。
6.根据权利要求5所述的一种人体关键点检测方法,其特征在于,所述预测人体位置框的特征图的通道数为18,为每个像素预测3个anchor。
7.根据权利要求1所述的一种人体关键点检测方法,其特征在于,所述步骤2包括:
步骤2.1,选择所述训练数据集,所述训练数据集为coco数据集;
步骤2.2,所述人体位置框为真实人体位置框或所述预测人体位置框,所述真实人体位置框为coco数据集中标注的人体位置框,训练过程中实时获取所述真实人体位置框以及所述预测人体位置框;
当所述真实人体位置框与所述预测人体位置框的IOU≤80%时,所述人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框;
当所述真实人体位置框与所述预测人体位置框的IOU>80%时,所述人体关键点估计网络的感兴趣区域对齐模块输入的人体位置框为真实人体位置框和预测人体位置框;
步骤2.3,采用梯度下降法训练所述人体关键点估计网络,得到人体关键点估计中间模型;
步骤2.4,对所述人体关键点估计中间模型的感兴趣区域对齐模块进行调整,使其输入的所述人体位置框为所述预测人体位置框,得到人体关键点估计模型。
8.根据权利要求7所述的一种人体关键点检测方法,其特征在于,所述步骤2中,总误差公式为:
Losstotal=αLossbox+(1-α)Losspoint
其中,Losstotal为总误差,Lossbox为人体位置框总误差,Losspoint为人体关键点总误差,α∈(0,1)用以权衡人体位置框总误差和人体关键点总误差的权重;
所述人体位置框总误差公式为:
采用SIoU来计算所述真实人体位置框和所述预测人体位置框之间的交集;
其中,D表示不同的尺度,i和j分表示人体位置框的中心位置的横、纵坐标,k表示anchor的序号,Boxgt表示真实人体位置框,Boxpred表示预测人体位置框;
所述人体关键点总误差公式为:
其中,h为人体关键点的序号,m和n分别为人体关键点的横、纵坐标,xm,n,s,h为人体关键点真实高斯值,为人体关键点预测坐标。
9.根据权利要求1所述的一种人体关键点检测方法,其特征在于,所述步骤4包括:
步骤41、将不同尺度的所述人体关键点预测坐标映射回所述待检测图像中,得到不同尺度的人体关键点映射坐标;
步骤42、将不同尺度的所述人体关键点映射坐标求均值,得到所述人体关键点坐标。
10.一种人体关键点检测系统,包括人体关键点估计网络构建模块、网络训练模块、人体关键点坐标预测模块、人体关键点坐标融合模块;
所述人体关键点估计网络构建模块用于构建人体关键点估计网络,所述人体关键点估计网络包括多尺度特征提取模块、检测头模块、人体位置框检测模块、感兴趣区域对齐模块和人体关键点检测模块;
所述多尺度特征提取模块用于接受输入图像并输出多个尺度的特征图;
所述检测头模块用于接受特征图并输出多个尺度的检测头特征图;
所述人体位置框检测模块用于接受检测头特征图并输出多个尺度的预测人体位置框;
所述感兴趣区域对齐模块用于接受检测头特征图、人体位置框并输出多个尺度的对齐特征图;
所述人体关键点检测模块用于接受对齐特征图并输出不同尺度的人体关键点预测坐标;
所述网络训练模块利用训练数据集训练所述人体关键点估计网络,得到人体关键点估计模型;
人体关键点坐标预测模块,通过将待检测图像输入所述人体关键点估计模型,输出不同尺度的人体关键点预测坐标;
人体关键点坐标融合模块,通过将不同尺度的所述人体关键点预测坐标进行融合,得到人体关键点坐标。
CN202310899391.4A 2023-07-21 2023-07-21 一种人体关键点检测方法及系统 Active CN116912884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310899391.4A CN116912884B (zh) 2023-07-21 2023-07-21 一种人体关键点检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310899391.4A CN116912884B (zh) 2023-07-21 2023-07-21 一种人体关键点检测方法及系统

Publications (2)

Publication Number Publication Date
CN116912884A true CN116912884A (zh) 2023-10-20
CN116912884B CN116912884B (zh) 2024-03-19

Family

ID=88356221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310899391.4A Active CN116912884B (zh) 2023-07-21 2023-07-21 一种人体关键点检测方法及系统

Country Status (1)

Country Link
CN (1) CN116912884B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276316A (zh) * 2019-06-26 2019-09-24 电子科技大学 一种基于深度学习的人体关键点检测方法
CN110443144A (zh) * 2019-07-09 2019-11-12 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111274977A (zh) * 2020-01-22 2020-06-12 中能国际建筑投资集团有限公司 多任务卷积神经网络模型及使用方法、装置和存储介质
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
CN112528913A (zh) * 2020-12-18 2021-03-19 中山艾尚智同信息科技有限公司 一种基于图像的砂石颗粒物粒径检测分析系统
US20210312171A1 (en) * 2020-11-09 2021-10-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Human body three-dimensional key point detection method, model training method and related devices
WO2022036777A1 (zh) * 2020-08-21 2022-02-24 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN115223114A (zh) * 2022-09-16 2022-10-21 松立控股集团股份有限公司 一种基于双向融合特征金字塔的端到端车辆姿态估计方法
CN115424290A (zh) * 2022-07-26 2022-12-02 浙江大华技术股份有限公司 人体姿态估计方法、装置、终端及计算机可读存储介质
CN116189140A (zh) * 2022-12-20 2023-05-30 重庆邮电大学 一种基于双目视觉的车辆三维目标检测算法
CN116453205A (zh) * 2022-11-22 2023-07-18 深圳市旗扬特种装备技术工程有限公司 一种营运车辆滞站揽客行为识别方法、装置及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276316A (zh) * 2019-06-26 2019-09-24 电子科技大学 一种基于深度学习的人体关键点检测方法
CN110443144A (zh) * 2019-07-09 2019-11-12 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111274977A (zh) * 2020-01-22 2020-06-12 中能国际建筑投资集团有限公司 多任务卷积神经网络模型及使用方法、装置和存储介质
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
WO2022036777A1 (zh) * 2020-08-21 2022-02-24 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置
US20210312171A1 (en) * 2020-11-09 2021-10-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Human body three-dimensional key point detection method, model training method and related devices
CN112528913A (zh) * 2020-12-18 2021-03-19 中山艾尚智同信息科技有限公司 一种基于图像的砂石颗粒物粒径检测分析系统
CN115424290A (zh) * 2022-07-26 2022-12-02 浙江大华技术股份有限公司 人体姿态估计方法、装置、终端及计算机可读存储介质
CN115223114A (zh) * 2022-09-16 2022-10-21 松立控股集团股份有限公司 一种基于双向融合特征金字塔的端到端车辆姿态估计方法
CN116453205A (zh) * 2022-11-22 2023-07-18 深圳市旗扬特种装备技术工程有限公司 一种营运车辆滞站揽客行为识别方法、装置及系统
CN116189140A (zh) * 2022-12-20 2023-05-30 重庆邮电大学 一种基于双目视觉的车辆三维目标检测算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DEBAPRIYA MAJI ET AL.: "YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss", 《2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》, pages 2636 - 2645 *
GYEONGSIK MOON ET AL.: "Multi-scale Aggregation R-CNN for 2D Multi-person Pose Estimation", 《ARXIV:1905.03912[CS.CV]》, pages 1 - 9 *
ZHANJUN CHANG ET AL.: "Human shooting pose accuracy recognition algorithm based on optimized YOLOv5", 《THIRD INTERNATIONAL CONFERENCE ON COMPUTER VISION AND DATA MINING (ICCVDM 2022)》, pages 1 - 7 *
李杰: "基于深度卷积神经网络的关键点检测算法研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 02 *

Also Published As

Publication number Publication date
CN116912884B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN111340797A (zh) 一种激光雷达与双目相机数据融合检测方法及系统
CN110298266A (zh) 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN113377888B (zh) 训练目标检测模型和检测目标的方法
CN106611157A (zh) 一种基于光流定位和滑动窗口检测的多人姿态识别方法
CN109919331A (zh) 一种机载设备智能维修辅助系统及方法
CN110991513B (zh) 一种具有类人连续学习能力的图像目标识别系统及方法
CN111209811B (zh) 一种实时检测眼球注意力位置的方法及系统
CN110334584B (zh) 一种基于区域全卷积网络的手势识别方法
CN109886356A (zh) 一种基于三分支神经网络的目标追踪方法
US20220315243A1 (en) Method for identification and recognition of aircraft take-off and landing runway based on pspnet network
CN111931804A (zh) 一种基于rgbd摄像机的人体动作自动评分方法
CN110533720A (zh) 基于联合约束的语义slam系统及方法
CN107292318A (zh) 基于中心暗通道先验信息的图像显著性物体检测方法
EP4105600A2 (en) Method for automatically producing map data, related apparatus and computer program product
CN112381045A (zh) 一种面向物联网移动端设备的轻量级人体姿态识别方法
CN104599291A (zh) 基于结构相似度和显著性分析的红外运动目标检测方法
CN114677558A (zh) 一种基于方向梯度直方图与改进胶囊网络的目标检测方法
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
CN112669452B (zh) 一种基于卷积神经网络多分支结构的物体定位方法
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法
CN116912884B (zh) 一种人体关键点检测方法及系统
CN111553954A (zh) 一种基于直接法单目slam的在线光度标定方法
CN111881744B (zh) 一种基于空间位置信息的人脸特征点定位方法及系统
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
CN113901903A (zh) 道路识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant