CN113076891B - 基于改进高分辨率网络的人体姿态预测方法及系统 - Google Patents

基于改进高分辨率网络的人体姿态预测方法及系统 Download PDF

Info

Publication number
CN113076891B
CN113076891B CN202110382970.2A CN202110382970A CN113076891B CN 113076891 B CN113076891 B CN 113076891B CN 202110382970 A CN202110382970 A CN 202110382970A CN 113076891 B CN113076891 B CN 113076891B
Authority
CN
China
Prior art keywords
prediction
loss
gesture
human body
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110382970.2A
Other languages
English (en)
Other versions
CN113076891A (zh
Inventor
康文雄
陈兴发
林泽楠
万好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Guangzhou Engineering Construction Supervision Co ltd
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110382970.2A priority Critical patent/CN113076891B/zh
Publication of CN113076891A publication Critical patent/CN113076891A/zh
Application granted granted Critical
Publication of CN113076891B publication Critical patent/CN113076891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于改进高分辨率网络的人体姿态预测方法及系统,该方法包括以下步骤:图像获取步骤:获取环境图像;姿态关键点预测步骤:将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图,其中姿态关键点预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签,姿态关键点预测模型基于高分辨率网络结合粗预测损失得到;人体姿态解码步骤:基于姿态关键点的得分热力图结算形成人体姿态预测线,将人体姿态预测线映射在环境图像中得到人体姿态预测图像。本发明通过引入肢体损失约束深层神经网络学习相连节点的关系,提高了对姿态关键点的预测准确性。

Description

基于改进高分辨率网络的人体姿态预测方法及系统
技术领域
本发明涉及机器视觉识别技术领域,尤其涉及一种基于改进高分辨率网络的人体姿态预测方法及系统。
背景技术
随着民航事业的发展,基于计算机视觉的人体行为识别越发受到民航、安防等视频监控场景落地的关注。人体姿态算法是行为识别的主要研究方向,其目的是准确识别出给定图像中所有人的关节点(又称为关键点)像素点所在的位置。同时,人体姿态预测被广泛应用于人机交互、视频理解、视频监控等实际场景中。但由于遮挡、光照、尺度等因素,人体姿态预测依然是一项颇具挑战的研究任务。
随着深度学习技术的发展,尤其是深度卷积神经网络在计算机视觉领域的广泛应用,深度卷积神经网络极大地促进了计算机视觉的发展。近年来,人体姿态预测算法的研究主要是基于卷积神经网络展开的。根据给定图像中人员的数量,人体姿态预测可分为多人姿态预测和单人姿态预测。而由于多人姿态预测在现实场景中更为常见,且更具研究价值。现有的多人姿态预测算法主要分为自顶向下(top-down)的方法和自底向上(bottom-up)的方法。
自顶向下的方法往往具有较高的准确度,但是速度较慢。自顶向下的方法先检测输入图像中的人员,再对每个人员的图像进行姿态预测(即进行单人姿态预测),这种方法较为依赖第一步中人员的检测结果,借助当前出色的行人检测器,自顶向下的方法可以输出准确的姿态。在自顶向下的方法研究中,单人姿态预测往往是其研究重点。其中,沙漏网络(Hourglass Network)是姿态预测网络模型中最常使用的骨干网络,沙漏网络由多组沙漏模块堆叠而成,每一个沙漏模块均包含下采样和上采样的过程,使得卷积网络拥有很大的感受野,从而较好地获取全局信息,因此获得比较好的姿态预测性能。此外,通过跳接通道,浅层局部特征也能很好地传递到深层网络,极大地提高了人体姿态预测的精度。受到该方法的启发,深层特征与浅层特征的融合可以进一步提升姿态预测网络的性能,在沙漏网络中增加每个阶段网络之间的跳接通道以便特征更好地传递和融合。同时,对不同阶段沙漏网络的输出采用不同的监督信息,对前两层沙漏网络的输出采用平滑的高斯热图标签,而对后面的输出则使用尖锐的高斯热图标签。
为了取得更好的预测性能,在现有技术中,许多研究工作设计了复杂的深度卷积神经网络或者通过堆叠网络的方式来提升网络模型的拟合能力。其中基于高分辨率网络HRNet的姿态预测方法为具有较先进的性能的复杂神经网络。但是,这类方法往往会带来计算量和参数量的极大增加,从而影响人体姿态预测算法在实际场景的落地应用。不同于沙漏网络使用不同分辨率网络模块串联的结构,高分辨率网络HRNet并联了多个不同分辨率的网络支路,各个支路之间通过上采样或下采样的操作进行尺寸对齐后融合。这种网络结构既能很好地提取全局信息,又能维持高分辨率的特征,使得人体关键点定位更精确。
如图1所示,现有技术中高分辨率网络HRNet有四个不同分辨率的并行支路,其分辨率分别是输入图像的1/4、1/8、1/16、1/32,而为了维系每个支路的信息量平衡,其卷积通道数依次增加,根据最大分辨率通道的卷积通道数量。该高分辨率网络从高分辨率子网作为第一阶段开始,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网通过特征融合模块并行连接。HRNet有两个版本:HRNet-W32和HRNet-W48。通过将网络的卷积通道数量增加,HRNet-W48比HRNet-W32具有更高的预测精度,但是也增加了大量的参数和计算量。
记特征融合模块Cmn的输出为Fmn,m为分辨率通道的索引,n为高分辨率模块的索引,其网络的输出为:
H01=fo1(F15)
fo1为第一输出层O1的映射函数。
该高分辨率网络基于预测得分热图的方式进行姿态关键点的预测,具体采用MSE损失函数对最终的关键点得分热图计算损失值:
其中,H01为关键点的预测得分热图,为标签热图,/> k为关键点数量,h*w为输出尺寸。
虽然基于预测得分热图的方式进行姿态关键点的预测有较好的预测精度,但是该高分辨率网络在应用时存在不足:(1)孤立地预测每个关键点的得分热图,缺少关键点之间的联系,基于HRNet的姿态关键点预测方法无法准确地预测一个节点与之相关的肢体向量,也无法准确地预测它的父节点或者子节点,在部分关节点存在遮挡情况进行预测时,模型的准确性差。(2)基于预测得分热图的方式进行姿态关键点的预测不利于学习关键点之间的联系。(3)在基本不增加计算量和参数量的情况下,无法提高模型性能,模型的准确性提升能力差。(4)当输入图像具有相近的其他人的关键点(干扰节点)时,容易错误地预测到干扰节点,鲁棒性差。
发明内容
为了克服现有技术存在的缺陷与不足,本发明的第一目的在于提供一种基于改进高分辨率网络的人体姿态预测方法,在高分辨率网络中加入了粗预测损失,能准确地预测出遮挡节点的位置和减轻伪节点的干扰,在应对背光、遮挡、伪关节点干扰等情况,具有更好的预测结果。
本发明的第二目的在于提供一种基于改进高分辨率网络的人体姿态预测系统。
为了达到上述第一目的,本发明采用以下技术方案:
一种基于改进高分辨率网络的人体姿态预测方法,包括以下步骤:
图像获取步骤:获取环境图像;
姿态关键点预测步骤:将所述环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图,其中所述姿态关键点预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签,所述姿态关键点预测模型基于高分辨率网络结合粗预测损失得到,所述粗预测损失通过结合肢体损失和姿态关键点坐标的损失得到;
人体姿态解码步骤:基于姿态关键点的得分热力图解算关键点的坐标,进而形成人体姿态预测线,将人体姿态预测线映射在所述环境图像中得到人体姿态预测图像。
作为优选的技术方案,所述粗预测损失,具体为:
其中为关键点得分热图损失,Llimb为肢体损失,Llimb为姿态关键点坐标的损失,λ为损失权重。
作为优选的技术方案,所述姿态关键点坐标的损失使用MSE损失函数结合积分法得到,具体为:
其中,argsoftmax为积分函数,Jp为关键点坐标,为关键点p对应的第一阶段得分热图,p为关键点的序号,/>为关键点p对应的标签坐标,/>为关键点p对应的标签热图,k为关键点个数。
作为优选的技术方案,所述肢体损失使用MSE损失函数对每个肢体向量进行约束得到,具体为:
其中S为组成各肢体的首尾关键点序号对集合,i和j表示关键点的序号,为关键点i对应的标签坐标。
作为优选的技术方案,设置λ为0.0001。
作为优选的技术方案,所述姿态关键点预测模型采用二阶段的训练方式进行训练;
训练的第一阶段采用了所述粗预测损失,结合热图损失和肢体损失优化网络,直至模型收敛得到第一训练网络;
训练的第二阶段在第一训练网络中加入精细化模块,直至网络收敛得到第二训练网络,将第二训练网络作为姿态关键点预测模型;
所述训练的第二阶段在第一训练网络中加入精细化模块,具体为将精细化模块设置在第一输出层O1的输出端,即对第一输出层O1输出的关键点的预测得分热图进行微调优化,精细化模块输出至第二输出层O2
作为优选的技术方案,所述精细化模块使用MSE损失进行特征拼接:
H02=fO2(H01’⊙F13⊙F14))
fO2表示第二输出层O2的映射函数,⊙表示特征拼接,F13表示第一高分辨率融合输出,具体为第一分辨率通道下的第三高分辨率特征融合模块C13的输出,F14表示第二高分辨率融合输出,具体为第一分辨率通道下的第四高分辨率特征融合模块C14的输出,H01’为采用了粗预测损失的第一输出层的输出;
在训练的第二阶段中,改进高分辨率网络使用精细化损失,该精细化损失具体为:
其中H02为采用了精细化模块进行微调优化后对关键点的预测得分热图,即第二输出层的输出,为标签热图。
作为优选的技术方案,还包括以下步骤:
人员检测步骤:检测环境图像中待识别的人员目标;
姿态坐标汇总步骤:将多个关键点的坐标汇总映射到同一环境图像,形成多条人体姿态预测线,得到多人人体姿态预测图像。
为了达到上述第二目的,本发明采用以下技术方案:
一种基于改进高分辨率网络的人体姿态预测系统,包括图像获取模块、姿态关键点预测模块和人体姿态解码模块;
所述图像获取模块用于获取环境图像;
所述姿态关键点预测模块用于将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图,其中姿态关键点预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签;
所述人体姿态解码模块用于根据姿态关键点的得分热力图解算关键点的坐标,进而形成人体姿态预测线,将人体姿态预测线映射在环境图像中得到人体姿态预测图像。
作为优选的技术方案,还包括人员检测模块和姿态坐标汇总模块;
所述人员检测模块用于检测环境图像中待识别的人员目标;
所述姿态坐标汇总模块用于将多个关键点的坐标汇总映射到同一环境图像,形成多条人体姿态预测线,得到多人人体姿态预测图像。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明在神经网络的最终损失中加入了粗预测损失,具体通过结合热图损失和肢体损失优化神经网络,直至模型收敛,使得神经网络在能准确预测一个节点与之相关的肢体向量时,就能准确地预测它的父节点或者子节点,当部分关节点存在遮挡情况时,基于粗预测损失通过临近节点的指引,神经网络可以更有效地预测被遮挡节点的位置,大大提高了神经网络对遮挡节点的预测能力,即通过引入肢体损失约束深层神经网络学习相连节点的关系,增强神经网络模型对人体结构知识的学习,提高了神经网络对姿态关键点的预测准确性;同时本发明基于粗预测损失,能准确地预测出遮挡节点的位置和减轻伪节点的干扰(应对背光、遮挡、伪关节点干扰等情况),从而提高了鲁棒性。
2)本发明采用了精细化模块,利用浅层网络特征准确的位置信息,融合浅层网络特征进一步对预测结果进行优化,达到在基本不增加计算量和参数量的情况下,有效提高姿态预测识别任务的准确性。
附图说明
图1为现有技术中高分辨率网络HRNet的网络结构框图;
图2为本发明实施例1中基于改进高分辨率网络的人体姿态预测方法的步骤流程图;
图3为本发明实施例1中人体树形结构的示意图;
图4为本发明实施例2中改进高分辨率网络LB-HRNet的网络结构框图;
图5为本发明实施例2中精细化模块的结构示意图;
图6(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第一测试图的预测结果示意图;
图6(b)为本发明实施例2中基于高分辨率网络HRNnet对第一测试图的预测结果示意图;
图7(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第二测试图的预测结果示意图;
图7(b)为本发明实施例2中基于高分辨率网络HRNnet对第二测试图的预测结果示意图;
图8(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第三测试图的预测结果示意图;
图8(b)为本发明实施例2中基于高分辨率网络HRNnet对第三测试图的预测结果示意图;
图9(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第四测试图的预测结果示意图;
图9(b)为本发明实施例2中基于高分辨率网络HRNnet对第四测试图的预测结果示意图;
图10(a)为本发明实施例3中基于改进高分辨率网络的人体姿态预测方法应用于单人姿态估计的步骤流程图
图10(b)为本发明实施例3中基于改进高分辨率网络的人体姿态预测方法应用于多人姿态估计的步骤流程图。
具体实施方式
在本公开的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在该词前面的元素或者物件涵盖出现在该词后面列举的元素或者物件及其等同,而不排除其他元素或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
实施例1
如图2所示,本实施例提供了一种基于改进高分辨率网络的人体姿态预测方法,该方法包括以下步骤:
图像获取步骤:获取环境图像。实际应用时,直接使用RGB摄像头获取环境图像。
姿态关键点预测步骤:将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图,其中姿态关键点预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签;
人体姿态解码步骤:基于姿态关键点的得分热力图解算关键点的坐标,进而形成人体姿态预测线,将人体姿态预测线映射在环境图像中得到人体姿态预测图像。实际应用时,人体具有多个关键点,每个关键点对应一张得分热力图,每张得分热力图的最大值处像素坐标即为对应关键点的坐标,对每张热力图求取最大值对应坐标即可得到所有的人体关键点坐标。
如图3所示,将人体结构以一种树状结构表示,具体每一个关键点都与其父子关键点具有强烈的连接关系。但是目前自顶向下的方法中往往只是孤立地预测每个关键点的得分热图,尽管通过多个分辨率通道,高分辨率网络HRNet具有良好的全局特征提取能力,但依旧没有考虑关键点之间的联系。
为了使姿态关键点预测模型学习关键点之间的联系,本实施例中的姿态关键点预测模型采用改进高分辨率网络,该改进高分辨率网络在高分辨率网络HRNet的基础上加入了粗预测损失。改进高分辨率网络通过增加肢体损失Limb Loss,结合肢体损失和姿态关键点坐标的损失得到粗预测损失,使得网络更多地学习全局信息和各个关键点之间的联系,约束网络学习正确及合理的姿态。
实际应用时,为了更方便地添加关键点之间的约束,根据积分法将关键点的得分热图积分得到关键点坐标,并且该过程可微,本实施例使用MSE损失函数结合积分法得到的姿态关键点坐标的损失:
其中,argsoftmax为积分函数,Jp为关键点坐标,为关键点i对应的第一阶段得分热图,p为关键点的序号,/>为关键点p对应的标签坐标,/>为关键点p对应的标签热图,k为关键点个数。
实际应用时,为了加强各个关键点之间的联系,本实施例使用MSE损失函数对每个肢体向量进行约束得到肢体损失:
其中S为组成各肢体的首尾关键点序号对集合,i和j表示关键点的序号。
在本实施例中,粗预测损失具体为:
其中L为粗预测损失,为关键点得分热图损失,Llimb为肢体损失,Llimb为姿态关键点坐标的损失,λ为损失权重。
实际应用时,为了平衡热图损失和肢体损失的数量级差距,本实施例中的粗预测损失的λ优选0.0001。此外,此处不对损失权重λ做限制,本领域技术人员根据实际情况调整。
实施例2
本实施例2的技术方案除了下述技术特征外,其它技术方案与实施例1相同:本实施例采用二阶段的训练方式。
在本实施例中,训练的第一阶段采用了实施例1中的粗预测损失,结合热图损失和肢体损失优化网络,直至模型收敛得到第一训练网络;
训练的第二阶段在第一训练网络中加入精细化模块,直至网络收敛得到第二训练网络,将第二训练网络作为姿态关键点预测模型;
如图4和图5所示,为进一步提高每个关键点的定位精度,本实施例提出了一种两阶段的结构对每个关键点进行微调优化,为此本实施例提出LB-HRNet(Look Back HRNet)网络。本实施例通过特征融合模块并行连接高分辨率到低分辨率的子网,该网络包含4个串行的高分辨率模块,即四个高分辨率模块的模块,第一高分辨率模块具有一个分辨率通道,第二高分辨率模块具有2个分辨率通道,第三高分辨率模块具有3个分辨率通道,第四高分辨率模块具有4个分辨率通道。令Bmn为分辨率特征图,其中m为分辨率通道的索引,n为高分辨率模块的索引。4个高分辨率模块依次串行连接,该网络分别在第二、第三、第四高分辨率模块的输出设置高分辨率特征融合层,在高分辨率特征融合层中预设高分辨率特征融合模块,并用Cmn表示。在第二高分辨率模块的输出中,分别设置第一分辨率通道下的第三高分辨率特征融合模块C13、第二分辨率通道下的第三高分辨率特征融合模块C23和第三分辨率通道下的第三高分辨率特征融合模块C33进行连接第三高分辨率模块。在第三高分辨率模块的输出中,分别设置第一分辨率通道下的第四高分辨率特征融合模块C14、第二分辨率通道下的第四高分辨率特征融合模块C24、第三分辨率通道下的第四高分辨率特征融合模块C34和第四分辨率通道下的第四高分辨率特征融合模块C44进行连接第四高分辨率模块。在第四高分辨率模块的输出中,设置第一分辨率通道下的第五高分辨率特征融合模块C15进行连接第一输出层O1
结合图4和图5所示,利用浅层特征对高分辨率网络的第一输出层O1的输出结果进一步精练,达到在基本不增加计算量和参数量的情况下,有效提高模型性能的目的。实际应用时,将精细化模块设置在第一输出层O1的输出端,将第一高分辨率融合输出、第二高分辨率融合输出与采用了粗预测损失的第一输出层的输出进行特征拼接,通过卷积模块连接至第二输出层O2,即对第一输出层O1输出的关键点的预测得分热图进行微调优化,精细化模块输出至第二输出层O2,从而得到更精确的姿态关键点得分热力图。
在本实施例中,精细化模块使用MSE损失对F13、F14和H01’进行特征拼接,通过卷积模块输出:
Ho2=fO2(Ho1’⊙F13⊙F14))
fO2表示第二输出层O2的映射函数,⊙表示特征拼接,F13表示第一高分辨率融合输出,具体为第一分辨率通道下的第三高分辨率特征融合模块C13的输出,F14表示第二高分辨率融合输出,具体为第一分辨率通道下的第四高分辨率特征融合模块C14的输出,H01’为采用了粗预测损失的第一输出层的输出;
在本实施例中,浅层特征包含较为精确的位置信息,特征融合模块用于融合浅层特征对粗预测结构进行微调,可以使得姿态关键点的得分热力图更精确。
在训练的第二阶段中,改进高分辨率网络使用精细化损失,该精细化损失具体为:
其中H02为采用了精细化模块进行微调优化后对关键点的预测得分热图,即第二输出层的输出,为标签热图。
对于姿态预测这种定位精度要求高的任务,在卷积神经网络中,深层的特征由于感受野大,更容易学习全局特征而容易丢失细节,浅层特征更偏向于学习对定位有利的局部特征。因此浅层特征在定位学习局部特征中十分有用。
实际应用时,本实施例采用的改进高分辨率网络保持网络结构与HRNet-W32一致,此外,本实施例在此不对改进高分辨率网络的网络结构做限制,此处保持网络结构一致,便于后续对比验证不同方案下的姿态识别准确度。
为了验证方法的有效性,本实施例在公开数据集MSCOCO上进行多组对比实验,并分析本申请的方法与目前主流的一些经典方法的性能优劣。本实施例实验所选用的MSCOCO数据集是目前最常用的2D多人姿态预测公开数据集,包含超过200000张图像,每张图像标注了所有人体的18个关键点。本实施例的姿态关键点预测模型模型在MSCOCO train2017上训练,并在val2017上和test2017测试测试。此外,本实施例遵循的测试规则,使用了目前最为广泛使用的评价指标OKS(Object Keypoint Similarity)对各方法进行对比分析,分析结果如下:
(1)定量分析:
本实施例以HRNet-W32作为基础模型进行改进实验。为了实验的公平性,除了网络结构和损失函数设置不同以外,其他设置均与保持一致。训练过程中,我们采用二阶段的训练方式,训练的第一阶段为粗预测,不考虑细化模块,保持网络结构与HRNet-W32一致,结合热图损失和肢体损失优化网络,直至模型收敛。第二阶段,加入精细化模块网络,与一阶段网络共同训练整个网络,直至网络收敛。在val2017的测试对比结果如下表1所示,其中所有模型的输入尺寸均为256x 192,且在ImageNet数据集上预训练骨干网络模型;
表1各模型方法在coco val2017的实验结果对比
如表1所示,通过对比基线方法HRNet-W32,本实施例提出的基于改进高分辨率网络的人体姿态预测方法在基本不增加计算量和参数量的情况下,性能(AP)提升了0.6%。对比HRNet-W48,本实施例在性能与之相近,但是计算量减少了50%,参数量减少55%。
为了进一步证明本申请方法的有效性,我们进一步在test2017上对比测试了本申请方法和基线方法,测试结果如下表2所示:
表2各模型方法在coco val2017的实验结果对比
如表2所示,对比HRNet-W32,本实施例提出的基于改进高分辨率网络的人体姿态预测方法,性能略微提高。
(2)定性分析
为了更直观地分析本实施例提出的基于改进高分辨率网络的人体姿态预测方法,本实施例在数据集MSCOCOval2017上进行定性分析。
如图6(a)至图9(b)所示,对比本实施例的人体姿态预测方法与基线方法的姿态预测可视化结果,可以发现,在应对背光、遮挡、伪关节点干扰等情况,本实施例的人体姿态预测方法具有较高的鲁棒性,通过邻居节点能准确地预测出遮挡节点的位置和减轻伪节点的干扰。
(3)消融实验
为了进一步验证所提出的两个改进方法的有效性,本申请对其进行了消融实验,结果如下表3所示。实验以HRNet-32为基线模型,分别测试单独使用肢体损失改进方法、单独使用look back改进方法和共同使用两种方法的性能。
表3在coco val2017的消融实验结果,N表示未使用,Y表示使用
从表3结果可见,本申请的两种改进方法均有效,且同时使用两种方法能起到促进作用,更进一步提升模型的网络性能。
针对民航视频监控和安防等现实场景的落地应用需求,本申请基于高分辨率网络HRNet提出了一种基于改进高分辨率网络的人体姿态预测方法。首先引入肢体损失约束深层网络学习相连节点的关系,增强网络模型对人体结构知识的学习,提高了网络对姿态关键点的预测准确性。其次,为了充分利用浅层网络特征准确的位置信息,融合浅层网络特征进一步对预测结果进行优化,进一步提高模型的准确性。实验证明,在计算量少50%,参数量少55%的前提下达到与复杂高分辨网络HRNet-W48接近的预测精度。此外,本申请所提出的改进方法也能够通过简单的修改应用到其他模型中。
实施例3
结合图3所示,本实施将实施例1或实施例2提及的基于改进高分辨率网络的人体姿态预测方法应用多人姿态预测,具体地,该方法还包括以下步骤:
人员检测步骤:检测环境图像中待识别的人员目标;
姿态坐标汇总步骤:将多个关键点的坐标汇总映射到同一环境图像,形成多条人体姿态预测线,得到多人人体姿态预测图像。
如图10(a)所示,在对单人姿态进行预测时,通过姿态关键点预测模型输出关键点的得分热力图,进而根据得分热力图结算姿态;
如图10(b)所示,在对多人姿态进行预测时,还需对人员进行检测,识别输入图像中所有目标人员的位置,依据每个人员位置裁剪为单人图像,分别对单人图像进行单人姿态预测,最终将每个人的姿态预测结果合并进行输出。
实施例4
本实施例提供了一种基于改进高分辨率网络的人体姿态预测系统,该系统包括图像获取模块、姿态关键点预测模块和人体姿态解码模块;
在本实施例中,图像获取模块用于获取环境图像。
在本实施例中,姿态关键点预测模块用于将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图,其中姿态关键点预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签;
在本实施例中,人体姿态解码模块用于根据姿态关键点的得分热力图解算关键点的坐标,进而形成人体姿态预测线,将人体姿态预测线映射在环境图像中得到人体姿态预测图像。
在本实施例中,该基于改进高分辨率网络的人体姿态预测系统还设有人员检测模块和姿态坐标汇总模块;
人员检测模块用于检测环境图像中待识别的人员目标;实际应用时,通过检测人员目标的数量和位置确定处理区域。
姿态坐标汇总模块用于将多个关键点的坐标汇总映射到同一环境图像,形成多条人体姿态预测线,得到多人人体姿态预测图像。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于改进高分辨率网络的人体姿态预测方法,其特征在于,包括以下步骤:
图像获取步骤:获取环境图像;
姿态关键点预测步骤:将所述环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图,其中所述姿态关键点预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签,所述姿态关键点预测模型基于高分辨率网络结合粗预测损失得到,所述粗预测损失通过结合肢体损失和姿态关键点坐标的损失得到;
所述姿态关键点坐标的损失使用MSE损失函数结合积分法得到,具体为:
其中,argsoftmax为积分函数,Jp为关键点坐标,为关键点p对应的第一阶段得分热图,p为关键点的序号,/>为关键点p对应的标签坐标,/>为关键点p对应的标签热图,k为关键点个数;
所述肢体损失使用MSE损失函数对每个肢体向量进行约束得到,具体为:
其中S为组成各肢体的首尾关键点序号对集合,i和j表示关键点的序号,为关键点i对应的标签坐标;
人体姿态解码步骤:基于姿态关键点的得分热力图解算关键点的坐标,进而形成人体姿态预测线,将人体姿态预测线映射在所述环境图像中得到人体姿态预测图像。
2.根据权利要求1所述的基于改进高分辨率网络的人体姿态预测方法,其特征在于,所述粗预测损失,具体为:
其中为关键点得分热图损失,Llimb为肢体损失,Ljoint为姿态关键点坐标的损失,λ为损失权重。
3.根据权利要求2所述的基于改进高分辨率网络的人体姿态预测方法,其特征在于,设置λ为0.0001。
4.根据权利要求1所述的基于改进高分辨率网络的人体姿态预测方法,其特征在于,所述姿态关键点预测模型采用二阶段的训练方式进行训练;
训练的第一阶段采用了所述粗预测损失,结合热图损失和肢体损失优化网络,直至模型收敛得到第一训练网络;
训练的第二阶段在第一训练网络中加入精细化模块,直至网络收敛得到第二训练网络,将第二训练网络作为姿态关键点预测模型;
所述训练的第二阶段在第一训练网络中加入精细化模块,具体为将精细化模块设置在第一输出层O1的输出端,即对第一输出层O1输出的关键点的预测得分热图进行微调优化,精细化模块输出至第二输出层O2
5.根据权利要求4所述的基于改进高分辨率网络的人体姿态预测方法,其特征在于,所述精细化模块使用MSE损失进行特征拼接:
H02=f02(H01’⊙F13⊙F14))
f02表示第二输出层O2的映射函数,⊙表示特征拼接,F13表示第一高分辨率融合输出,F14表示第二高分辨率融合输出,H01’为采用了粗预测损失的第一输出层的输出;
在训练的第二阶段中,改进高分辨率网络使用精细化损失,该精细化损失具体为:
其中H02为采用了精细化模块进行微调优化后对关键点的预测得分热图,即第二输出层的输出,为标签热图。
6.根据权利要求1所述的基于改进高分辨率网络的人体姿态预测方法,其特征在于,还包括以下步骤:
人员检测步骤:检测环境图像中待识别的人员目标;
姿态坐标汇总步骤:将多个关键点的坐标汇总映射到同一环境图像,形成多条人体姿态预测线,得到多人人体姿态预测图像。
7.一种基于改进高分辨率网络的人体姿态预测系统,其特征在于,包括图像获取模块、姿态关键点预测模块和人体姿态解码模块;
所述图像获取模块用于获取环境图像;
所述姿态关键点预测模块用于将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图,其中姿态关键点预测模型为使用多组数据通过机器学习训练得出,多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签;所述姿态关键点预测模型基于高分辨率网络结合粗预测损失得到,所述粗预测损失通过结合肢体损失和姿态关键点坐标的损失得到;
所述姿态关键点坐标的损失使用MSE损失函数结合积分法得到,具体为:
其中,argsoftmax为积分函数,Jp为关键点坐标,为关键点p对应的第一阶段得分热图,p为关键点的序号,/>为关键点p对应的标签坐标,/>为关键点p对应的标签热图,k为关键点个数;
所述肢体损失使用MSE损失函数对每个肢体向量进行约束得到,具体为:
其中S为组成各肢体的首尾关键点序号对集合,i和j表示关键点的序号,为关键点i对应的标签坐标;
所述人体姿态解码模块用于根据姿态关键点的得分热力图解算关键点的坐标,进而形成人体姿态预测线,将人体姿态预测线映射在环境图像中得到人体姿态预测图像。
8.根据权利要求7所述的基于改进高分辨率网络的人体姿态预测系统,其特征在于,还包括人员检测模块和姿态坐标汇总模块;
所述人员检测模块用于检测环境图像中待识别的人员目标;
所述姿态坐标汇总模块用于将多个关键点的坐标汇总映射到同一环境图像,形成多条人体姿态预测线,得到多人人体姿态预测图像。
CN202110382970.2A 2021-04-09 2021-04-09 基于改进高分辨率网络的人体姿态预测方法及系统 Active CN113076891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110382970.2A CN113076891B (zh) 2021-04-09 2021-04-09 基于改进高分辨率网络的人体姿态预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110382970.2A CN113076891B (zh) 2021-04-09 2021-04-09 基于改进高分辨率网络的人体姿态预测方法及系统

Publications (2)

Publication Number Publication Date
CN113076891A CN113076891A (zh) 2021-07-06
CN113076891B true CN113076891B (zh) 2023-08-22

Family

ID=76615781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110382970.2A Active CN113076891B (zh) 2021-04-09 2021-04-09 基于改进高分辨率网络的人体姿态预测方法及系统

Country Status (1)

Country Link
CN (1) CN113076891B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492216B (zh) * 2022-04-19 2022-07-19 中国石油大学(华东) 一种基于高分辨率表征学习的抽油机运行轨迹模拟方法
CN115019108A (zh) * 2022-06-29 2022-09-06 重庆紫光华山智安科技有限公司 模型训练及帽子检测方法、装置、电子设备及存储介质
CN116665311B (zh) * 2023-07-31 2023-10-20 苏州万店掌网络科技有限公司 行为识别方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598554A (zh) * 2019-08-09 2019-12-20 中国地质大学(武汉) 基于对抗学习的多人姿态估计方法
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111191622A (zh) * 2020-01-03 2020-05-22 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
CN111832383A (zh) * 2020-05-08 2020-10-27 北京嘀嘀无限科技发展有限公司 姿态关键点识别模型的训练方法、姿态识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598554A (zh) * 2019-08-09 2019-12-20 中国地质大学(武汉) 基于对抗学习的多人姿态估计方法
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111191622A (zh) * 2020-01-03 2020-05-22 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
CN111832383A (zh) * 2020-05-08 2020-10-27 北京嘀嘀无限科技发展有限公司 姿态关键点识别模型的训练方法、姿态识别方法及装置

Also Published As

Publication number Publication date
CN113076891A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN113076891B (zh) 基于改进高分辨率网络的人体姿态预测方法及系统
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN108960211B (zh) 一种多目标人体姿态检测方法以及系统
CN110084850B (zh) 一种基于图像语义分割的动态场景视觉定位方法
CN107832672A (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
CN109559320A (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN107329962B (zh) 图像检索数据库生成方法、增强现实的方法及装置
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及系统
CN112132013B (zh) 一种车辆关键点检测方法
Sun et al. Unmanned surface vessel visual object detection under all-weather conditions with optimized feature fusion network in YOLOv4
CN117671509B (zh) 遥感目标检测方法、装置、电子设备及存储介质
CN113378675A (zh) 一种同时检测和特征提取的人脸识别方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN116311353A (zh) 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质
CN115049833A (zh) 一种基于局部特征增强和相似性度量的点云部件分割方法
CN114118303A (zh) 基于先验约束的人脸关键点检测方法及装置
CN117422963B (zh) 基于高维度特征映射和特征聚合的跨模态地点识别方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN112651294A (zh) 基于多尺度融合的遮挡人体姿势识别方法
CN107330382A (zh) 基于局部卷积特征联合表示的单样本人脸识别方法及装置
CN113920587B (zh) 基于卷积神经网络的人体姿态估计方法
CN116385477A (zh) 一种基于图像分割的杆塔图像配准方法
CN113343953B (zh) 一种用于遥感场景识别的fgr-am方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240605

Address after: Room 808, Geping Business Building, No. 685 Baiyun Avenue South, Baiyun District, Guangzhou City, Guangdong Province, 510405

Patentee after: GUANGZHOU GUANGZHOU ENGINEERING CONSTRUCTION SUPERVISION Co.,Ltd.

Country or region after: China

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee before: SOUTH CHINA University OF TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right