CN113076891B

CN113076891B - 基于改进高分辨率网络的人体姿态预测方法及系统

Info

Publication number: CN113076891B
Application number: CN202110382970.2A
Authority: CN
Inventors: 康文雄; 陈兴发; 林泽楠; 万好
Original assignee: South China University of Technology SCUT
Current assignee: Guangzhou Guangzhou Engineering Construction Supervision Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2023-08-22
Anticipated expiration: 2041-04-09
Also published as: CN113076891A

Abstract

本发明公开了一种基于改进高分辨率网络的人体姿态预测方法及系统，该方法包括以下步骤：图像获取步骤：获取环境图像；姿态关键点预测步骤：将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图，其中姿态关键点预测模型为使用多组数据通过机器学习训练得出，多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签，姿态关键点预测模型基于高分辨率网络结合粗预测损失得到；人体姿态解码步骤：基于姿态关键点的得分热力图结算形成人体姿态预测线，将人体姿态预测线映射在环境图像中得到人体姿态预测图像。本发明通过引入肢体损失约束深层神经网络学习相连节点的关系，提高了对姿态关键点的预测准确性。

Description

基于改进高分辨率网络的人体姿态预测方法及系统

技术领域

本发明涉及机器视觉识别技术领域，尤其涉及一种基于改进高分辨率网络的人体姿态预测方法及系统。

背景技术

随着民航事业的发展，基于计算机视觉的人体行为识别越发受到民航、安防等视频监控场景落地的关注。人体姿态算法是行为识别的主要研究方向，其目的是准确识别出给定图像中所有人的关节点(又称为关键点)像素点所在的位置。同时，人体姿态预测被广泛应用于人机交互、视频理解、视频监控等实际场景中。但由于遮挡、光照、尺度等因素，人体姿态预测依然是一项颇具挑战的研究任务。

随着深度学习技术的发展，尤其是深度卷积神经网络在计算机视觉领域的广泛应用，深度卷积神经网络极大地促进了计算机视觉的发展。近年来，人体姿态预测算法的研究主要是基于卷积神经网络展开的。根据给定图像中人员的数量，人体姿态预测可分为多人姿态预测和单人姿态预测。而由于多人姿态预测在现实场景中更为常见，且更具研究价值。现有的多人姿态预测算法主要分为自顶向下(top-down)的方法和自底向上(bottom-up)的方法。

自顶向下的方法往往具有较高的准确度，但是速度较慢。自顶向下的方法先检测输入图像中的人员，再对每个人员的图像进行姿态预测(即进行单人姿态预测)，这种方法较为依赖第一步中人员的检测结果，借助当前出色的行人检测器，自顶向下的方法可以输出准确的姿态。在自顶向下的方法研究中，单人姿态预测往往是其研究重点。其中，沙漏网络(Hourglass Network)是姿态预测网络模型中最常使用的骨干网络，沙漏网络由多组沙漏模块堆叠而成，每一个沙漏模块均包含下采样和上采样的过程，使得卷积网络拥有很大的感受野，从而较好地获取全局信息，因此获得比较好的姿态预测性能。此外，通过跳接通道，浅层局部特征也能很好地传递到深层网络，极大地提高了人体姿态预测的精度。受到该方法的启发，深层特征与浅层特征的融合可以进一步提升姿态预测网络的性能，在沙漏网络中增加每个阶段网络之间的跳接通道以便特征更好地传递和融合。同时，对不同阶段沙漏网络的输出采用不同的监督信息，对前两层沙漏网络的输出采用平滑的高斯热图标签，而对后面的输出则使用尖锐的高斯热图标签。

为了取得更好的预测性能，在现有技术中，许多研究工作设计了复杂的深度卷积神经网络或者通过堆叠网络的方式来提升网络模型的拟合能力。其中基于高分辨率网络HRNet的姿态预测方法为具有较先进的性能的复杂神经网络。但是，这类方法往往会带来计算量和参数量的极大增加，从而影响人体姿态预测算法在实际场景的落地应用。不同于沙漏网络使用不同分辨率网络模块串联的结构，高分辨率网络HRNet并联了多个不同分辨率的网络支路，各个支路之间通过上采样或下采样的操作进行尺寸对齐后融合。这种网络结构既能很好地提取全局信息，又能维持高分辨率的特征，使得人体关键点定位更精确。

如图1所示，现有技术中高分辨率网络HRNet有四个不同分辨率的并行支路，其分辨率分别是输入图像的1/4、1/8、1/16、1/32，而为了维系每个支路的信息量平衡，其卷积通道数依次增加，根据最大分辨率通道的卷积通道数量。该高分辨率网络从高分辨率子网作为第一阶段开始，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网通过特征融合模块并行连接。HRNet有两个版本：HRNet-W32和HRNet-W48。通过将网络的卷积通道数量增加，HRNet-W48比HRNet-W32具有更高的预测精度，但是也增加了大量的参数和计算量。

记特征融合模块C_mn的输出为F_mn，m为分辨率通道的索引，n为高分辨率模块的索引，其网络的输出为：

H₀₁＝f_o1(F₁₅)

f_o1为第一输出层O₁的映射函数。

该高分辨率网络基于预测得分热图的方式进行姿态关键点的预测，具体采用MSE损失函数对最终的关键点得分热图计算损失值：

其中，H₀₁为关键点的预测得分热图，为标签热图，/> k为关键点数量，h*w为输出尺寸。

虽然基于预测得分热图的方式进行姿态关键点的预测有较好的预测精度，但是该高分辨率网络在应用时存在不足：(1)孤立地预测每个关键点的得分热图，缺少关键点之间的联系，基于HRNet的姿态关键点预测方法无法准确地预测一个节点与之相关的肢体向量，也无法准确地预测它的父节点或者子节点，在部分关节点存在遮挡情况进行预测时，模型的准确性差。(2)基于预测得分热图的方式进行姿态关键点的预测不利于学习关键点之间的联系。(3)在基本不增加计算量和参数量的情况下，无法提高模型性能，模型的准确性提升能力差。(4)当输入图像具有相近的其他人的关键点(干扰节点)时，容易错误地预测到干扰节点，鲁棒性差。

发明内容

为了克服现有技术存在的缺陷与不足，本发明的第一目的在于提供一种基于改进高分辨率网络的人体姿态预测方法，在高分辨率网络中加入了粗预测损失，能准确地预测出遮挡节点的位置和减轻伪节点的干扰，在应对背光、遮挡、伪关节点干扰等情况，具有更好的预测结果。

本发明的第二目的在于提供一种基于改进高分辨率网络的人体姿态预测系统。

为了达到上述第一目的，本发明采用以下技术方案：

一种基于改进高分辨率网络的人体姿态预测方法，包括以下步骤：

图像获取步骤：获取环境图像；

姿态关键点预测步骤：将所述环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图，其中所述姿态关键点预测模型为使用多组数据通过机器学习训练得出，多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签，所述姿态关键点预测模型基于高分辨率网络结合粗预测损失得到，所述粗预测损失通过结合肢体损失和姿态关键点坐标的损失得到；

人体姿态解码步骤：基于姿态关键点的得分热力图解算关键点的坐标，进而形成人体姿态预测线，将人体姿态预测线映射在所述环境图像中得到人体姿态预测图像。

作为优选的技术方案，所述粗预测损失，具体为：

其中为关键点得分热图损失，L_limb为肢体损失，L_limb为姿态关键点坐标的损失，λ为损失权重。

作为优选的技术方案，所述姿态关键点坐标的损失使用MSE损失函数结合积分法得到，具体为：

其中，argsoftmax为积分函数，J_p为关键点坐标，为关键点p对应的第一阶段得分热图，p为关键点的序号，/>为关键点p对应的标签坐标，/>为关键点p对应的标签热图，k为关键点个数。

作为优选的技术方案，所述肢体损失使用MSE损失函数对每个肢体向量进行约束得到，具体为：

其中S为组成各肢体的首尾关键点序号对集合，i和j表示关键点的序号，为关键点i对应的标签坐标。

作为优选的技术方案，设置λ为0.0001。

作为优选的技术方案，所述姿态关键点预测模型采用二阶段的训练方式进行训练；

训练的第一阶段采用了所述粗预测损失，结合热图损失和肢体损失优化网络，直至模型收敛得到第一训练网络；

训练的第二阶段在第一训练网络中加入精细化模块，直至网络收敛得到第二训练网络，将第二训练网络作为姿态关键点预测模型；

所述训练的第二阶段在第一训练网络中加入精细化模块，具体为将精细化模块设置在第一输出层O₁的输出端，即对第一输出层O₁输出的关键点的预测得分热图进行微调优化，精细化模块输出至第二输出层O₂。

作为优选的技术方案，所述精细化模块使用MSE损失进行特征拼接：

H₀₂＝f_O2(H₀₁’⊙F₁₃⊙F₁₄))

f_O2表示第二输出层O₂的映射函数，⊙表示特征拼接，F₁₃表示第一高分辨率融合输出，具体为第一分辨率通道下的第三高分辨率特征融合模块C₁₃的输出，F₁₄表示第二高分辨率融合输出，具体为第一分辨率通道下的第四高分辨率特征融合模块C₁₄的输出，H₀₁’为采用了粗预测损失的第一输出层的输出；

在训练的第二阶段中，改进高分辨率网络使用精细化损失，该精细化损失具体为：

其中H₀₂为采用了精细化模块进行微调优化后对关键点的预测得分热图，即第二输出层的输出，为标签热图。

作为优选的技术方案，还包括以下步骤：

人员检测步骤：检测环境图像中待识别的人员目标；

姿态坐标汇总步骤：将多个关键点的坐标汇总映射到同一环境图像，形成多条人体姿态预测线，得到多人人体姿态预测图像。

为了达到上述第二目的，本发明采用以下技术方案：

一种基于改进高分辨率网络的人体姿态预测系统，包括图像获取模块、姿态关键点预测模块和人体姿态解码模块；

所述图像获取模块用于获取环境图像；

所述姿态关键点预测模块用于将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图，其中姿态关键点预测模型为使用多组数据通过机器学习训练得出，多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签；

所述人体姿态解码模块用于根据姿态关键点的得分热力图解算关键点的坐标，进而形成人体姿态预测线，将人体姿态预测线映射在环境图像中得到人体姿态预测图像。

作为优选的技术方案，还包括人员检测模块和姿态坐标汇总模块；

所述人员检测模块用于检测环境图像中待识别的人员目标；

所述姿态坐标汇总模块用于将多个关键点的坐标汇总映射到同一环境图像，形成多条人体姿态预测线，得到多人人体姿态预测图像。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明在神经网络的最终损失中加入了粗预测损失，具体通过结合热图损失和肢体损失优化神经网络，直至模型收敛，使得神经网络在能准确预测一个节点与之相关的肢体向量时，就能准确地预测它的父节点或者子节点，当部分关节点存在遮挡情况时，基于粗预测损失通过临近节点的指引，神经网络可以更有效地预测被遮挡节点的位置，大大提高了神经网络对遮挡节点的预测能力，即通过引入肢体损失约束深层神经网络学习相连节点的关系，增强神经网络模型对人体结构知识的学习，提高了神经网络对姿态关键点的预测准确性；同时本发明基于粗预测损失，能准确地预测出遮挡节点的位置和减轻伪节点的干扰(应对背光、遮挡、伪关节点干扰等情况)，从而提高了鲁棒性。

2)本发明采用了精细化模块，利用浅层网络特征准确的位置信息，融合浅层网络特征进一步对预测结果进行优化，达到在基本不增加计算量和参数量的情况下，有效提高姿态预测识别任务的准确性。

附图说明

图1为现有技术中高分辨率网络HRNet的网络结构框图；

图2为本发明实施例1中基于改进高分辨率网络的人体姿态预测方法的步骤流程图；

图3为本发明实施例1中人体树形结构的示意图；

图4为本发明实施例2中改进高分辨率网络LB-HRNet的网络结构框图；

图5为本发明实施例2中精细化模块的结构示意图；

图6(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第一测试图的预测结果示意图；

图6(b)为本发明实施例2中基于高分辨率网络HRNnet对第一测试图的预测结果示意图；

图7(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第二测试图的预测结果示意图；

图7(b)为本发明实施例2中基于高分辨率网络HRNnet对第二测试图的预测结果示意图；

图8(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第三测试图的预测结果示意图；

图8(b)为本发明实施例2中基于高分辨率网络HRNnet对第三测试图的预测结果示意图；

图9(a)为本发明实施例2中基于改进高分辨率网络LB-HRNnet对第四测试图的预测结果示意图；

图9(b)为本发明实施例2中基于高分辨率网络HRNnet对第四测试图的预测结果示意图；

图10(a)为本发明实施例3中基于改进高分辨率网络的人体姿态预测方法应用于单人姿态估计的步骤流程图

图10(b)为本发明实施例3中基于改进高分辨率网络的人体姿态预测方法应用于多人姿态估计的步骤流程图。

具体实施方式

在本公开的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在该词前面的元素或者物件涵盖出现在该词后面列举的元素或者物件及其等同，而不排除其他元素或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

实施例1

如图2所示，本实施例提供了一种基于改进高分辨率网络的人体姿态预测方法，该方法包括以下步骤：

图像获取步骤：获取环境图像。实际应用时，直接使用RGB摄像头获取环境图像。

姿态关键点预测步骤：将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图，其中姿态关键点预测模型为使用多组数据通过机器学习训练得出，多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签；

人体姿态解码步骤：基于姿态关键点的得分热力图解算关键点的坐标，进而形成人体姿态预测线，将人体姿态预测线映射在环境图像中得到人体姿态预测图像。实际应用时，人体具有多个关键点，每个关键点对应一张得分热力图，每张得分热力图的最大值处像素坐标即为对应关键点的坐标，对每张热力图求取最大值对应坐标即可得到所有的人体关键点坐标。

如图3所示，将人体结构以一种树状结构表示，具体每一个关键点都与其父子关键点具有强烈的连接关系。但是目前自顶向下的方法中往往只是孤立地预测每个关键点的得分热图，尽管通过多个分辨率通道，高分辨率网络HRNet具有良好的全局特征提取能力，但依旧没有考虑关键点之间的联系。

为了使姿态关键点预测模型学习关键点之间的联系，本实施例中的姿态关键点预测模型采用改进高分辨率网络，该改进高分辨率网络在高分辨率网络HRNet的基础上加入了粗预测损失。改进高分辨率网络通过增加肢体损失Limb Loss，结合肢体损失和姿态关键点坐标的损失得到粗预测损失，使得网络更多地学习全局信息和各个关键点之间的联系，约束网络学习正确及合理的姿态。

实际应用时，为了更方便地添加关键点之间的约束，根据积分法将关键点的得分热图积分得到关键点坐标，并且该过程可微，本实施例使用MSE损失函数结合积分法得到的姿态关键点坐标的损失：

其中，argsoftmax为积分函数，J_p为关键点坐标，为关键点i对应的第一阶段得分热图，p为关键点的序号，/>为关键点p对应的标签坐标，/>为关键点p对应的标签热图，k为关键点个数。

实际应用时，为了加强各个关键点之间的联系，本实施例使用MSE损失函数对每个肢体向量进行约束得到肢体损失：

其中S为组成各肢体的首尾关键点序号对集合，i和j表示关键点的序号。

在本实施例中，粗预测损失具体为：

其中L为粗预测损失，为关键点得分热图损失，L_limb为肢体损失，L_limb为姿态关键点坐标的损失，λ为损失权重。

实际应用时，为了平衡热图损失和肢体损失的数量级差距，本实施例中的粗预测损失的λ优选0.0001。此外，此处不对损失权重λ做限制，本领域技术人员根据实际情况调整。

实施例2

本实施例2的技术方案除了下述技术特征外，其它技术方案与实施例1相同：本实施例采用二阶段的训练方式。

在本实施例中，训练的第一阶段采用了实施例1中的粗预测损失，结合热图损失和肢体损失优化网络，直至模型收敛得到第一训练网络；

如图4和图5所示，为进一步提高每个关键点的定位精度，本实施例提出了一种两阶段的结构对每个关键点进行微调优化，为此本实施例提出LB-HRNet(Look Back HRNet)网络。本实施例通过特征融合模块并行连接高分辨率到低分辨率的子网，该网络包含4个串行的高分辨率模块，即四个高分辨率模块的模块，第一高分辨率模块具有一个分辨率通道，第二高分辨率模块具有2个分辨率通道，第三高分辨率模块具有3个分辨率通道，第四高分辨率模块具有4个分辨率通道。令B_mn为分辨率特征图，其中m为分辨率通道的索引，n为高分辨率模块的索引。4个高分辨率模块依次串行连接，该网络分别在第二、第三、第四高分辨率模块的输出设置高分辨率特征融合层，在高分辨率特征融合层中预设高分辨率特征融合模块，并用C_mn表示。在第二高分辨率模块的输出中，分别设置第一分辨率通道下的第三高分辨率特征融合模块C₁₃、第二分辨率通道下的第三高分辨率特征融合模块C₂₃和第三分辨率通道下的第三高分辨率特征融合模块C₃₃进行连接第三高分辨率模块。在第三高分辨率模块的输出中，分别设置第一分辨率通道下的第四高分辨率特征融合模块C₁₄、第二分辨率通道下的第四高分辨率特征融合模块C₂₄、第三分辨率通道下的第四高分辨率特征融合模块C₃₄和第四分辨率通道下的第四高分辨率特征融合模块C₄₄进行连接第四高分辨率模块。在第四高分辨率模块的输出中，设置第一分辨率通道下的第五高分辨率特征融合模块C₁₅进行连接第一输出层O₁。

结合图4和图5所示，利用浅层特征对高分辨率网络的第一输出层O₁的输出结果进一步精练，达到在基本不增加计算量和参数量的情况下，有效提高模型性能的目的。实际应用时，将精细化模块设置在第一输出层O₁的输出端，将第一高分辨率融合输出、第二高分辨率融合输出与采用了粗预测损失的第一输出层的输出进行特征拼接，通过卷积模块连接至第二输出层O₂，即对第一输出层O₁输出的关键点的预测得分热图进行微调优化，精细化模块输出至第二输出层O₂，从而得到更精确的姿态关键点得分热力图。

在本实施例中，精细化模块使用MSE损失对F₁₃、F₁₄和H₀₁’进行特征拼接，通过卷积模块输出：

H_o2＝f_O2(H_o1’⊙F₁₃⊙F₁₄))

在本实施例中，浅层特征包含较为精确的位置信息，特征融合模块用于融合浅层特征对粗预测结构进行微调，可以使得姿态关键点的得分热力图更精确。

对于姿态预测这种定位精度要求高的任务，在卷积神经网络中，深层的特征由于感受野大，更容易学习全局特征而容易丢失细节，浅层特征更偏向于学习对定位有利的局部特征。因此浅层特征在定位学习局部特征中十分有用。

实际应用时，本实施例采用的改进高分辨率网络保持网络结构与HRNet-W32一致，此外，本实施例在此不对改进高分辨率网络的网络结构做限制，此处保持网络结构一致，便于后续对比验证不同方案下的姿态识别准确度。

为了验证方法的有效性，本实施例在公开数据集MSCOCO上进行多组对比实验，并分析本申请的方法与目前主流的一些经典方法的性能优劣。本实施例实验所选用的MSCOCO数据集是目前最常用的2D多人姿态预测公开数据集，包含超过200000张图像，每张图像标注了所有人体的18个关键点。本实施例的姿态关键点预测模型模型在MSCOCO train2017上训练，并在val2017上和test2017测试测试。此外，本实施例遵循的测试规则，使用了目前最为广泛使用的评价指标OKS(Object Keypoint Similarity)对各方法进行对比分析，分析结果如下：

(1)定量分析：

本实施例以HRNet-W32作为基础模型进行改进实验。为了实验的公平性，除了网络结构和损失函数设置不同以外，其他设置均与保持一致。训练过程中，我们采用二阶段的训练方式，训练的第一阶段为粗预测，不考虑细化模块，保持网络结构与HRNet-W32一致，结合热图损失和肢体损失优化网络，直至模型收敛。第二阶段，加入精细化模块网络，与一阶段网络共同训练整个网络，直至网络收敛。在val2017的测试对比结果如下表1所示，其中所有模型的输入尺寸均为256x 192，且在ImageNet数据集上预训练骨干网络模型；

表1各模型方法在coco val2017的实验结果对比

如表1所示，通过对比基线方法HRNet-W32，本实施例提出的基于改进高分辨率网络的人体姿态预测方法在基本不增加计算量和参数量的情况下，性能(AP)提升了0.6％。对比HRNet-W48，本实施例在性能与之相近，但是计算量减少了50％，参数量减少55％。

为了进一步证明本申请方法的有效性，我们进一步在test2017上对比测试了本申请方法和基线方法，测试结果如下表2所示：

表2各模型方法在coco val2017的实验结果对比

如表2所示，对比HRNet-W32，本实施例提出的基于改进高分辨率网络的人体姿态预测方法，性能略微提高。

(2)定性分析

为了更直观地分析本实施例提出的基于改进高分辨率网络的人体姿态预测方法，本实施例在数据集MSCOCOval2017上进行定性分析。

如图6(a)至图9(b)所示，对比本实施例的人体姿态预测方法与基线方法的姿态预测可视化结果，可以发现，在应对背光、遮挡、伪关节点干扰等情况，本实施例的人体姿态预测方法具有较高的鲁棒性，通过邻居节点能准确地预测出遮挡节点的位置和减轻伪节点的干扰。

(3)消融实验

为了进一步验证所提出的两个改进方法的有效性，本申请对其进行了消融实验，结果如下表3所示。实验以HRNet-32为基线模型，分别测试单独使用肢体损失改进方法、单独使用look back改进方法和共同使用两种方法的性能。

表3在coco val2017的消融实验结果，N表示未使用，Y表示使用

从表3结果可见，本申请的两种改进方法均有效，且同时使用两种方法能起到促进作用，更进一步提升模型的网络性能。

针对民航视频监控和安防等现实场景的落地应用需求，本申请基于高分辨率网络HRNet提出了一种基于改进高分辨率网络的人体姿态预测方法。首先引入肢体损失约束深层网络学习相连节点的关系，增强网络模型对人体结构知识的学习，提高了网络对姿态关键点的预测准确性。其次，为了充分利用浅层网络特征准确的位置信息，融合浅层网络特征进一步对预测结果进行优化，进一步提高模型的准确性。实验证明，在计算量少50％，参数量少55％的前提下达到与复杂高分辨网络HRNet-W48接近的预测精度。此外，本申请所提出的改进方法也能够通过简单的修改应用到其他模型中。

实施例3

结合图3所示，本实施将实施例1或实施例2提及的基于改进高分辨率网络的人体姿态预测方法应用多人姿态预测，具体地，该方法还包括以下步骤：

人员检测步骤：检测环境图像中待识别的人员目标；

如图10(a)所示，在对单人姿态进行预测时，通过姿态关键点预测模型输出关键点的得分热力图，进而根据得分热力图结算姿态；

如图10(b)所示，在对多人姿态进行预测时，还需对人员进行检测，识别输入图像中所有目标人员的位置，依据每个人员位置裁剪为单人图像，分别对单人图像进行单人姿态预测，最终将每个人的姿态预测结果合并进行输出。

实施例4

本实施例提供了一种基于改进高分辨率网络的人体姿态预测系统，该系统包括图像获取模块、姿态关键点预测模块和人体姿态解码模块；

在本实施例中，图像获取模块用于获取环境图像。

在本实施例中，姿态关键点预测模块用于将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图，其中姿态关键点预测模型为使用多组数据通过机器学习训练得出，多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签；

在本实施例中，人体姿态解码模块用于根据姿态关键点的得分热力图解算关键点的坐标，进而形成人体姿态预测线，将人体姿态预测线映射在环境图像中得到人体姿态预测图像。

在本实施例中，该基于改进高分辨率网络的人体姿态预测系统还设有人员检测模块和姿态坐标汇总模块；

人员检测模块用于检测环境图像中待识别的人员目标；实际应用时，通过检测人员目标的数量和位置确定处理区域。

姿态坐标汇总模块用于将多个关键点的坐标汇总映射到同一环境图像，形成多条人体姿态预测线，得到多人人体姿态预测图像。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于改进高分辨率网络的人体姿态预测方法，其特征在于，包括以下步骤：

图像获取步骤：获取环境图像；

所述姿态关键点坐标的损失使用MSE损失函数结合积分法得到，具体为：

其中，argsoftmax为积分函数，J_p为关键点坐标，为关键点p对应的第一阶段得分热图，p为关键点的序号，/>为关键点p对应的标签坐标，/>为关键点p对应的标签热图，k为关键点个数；

所述肢体损失使用MSE损失函数对每个肢体向量进行约束得到，具体为：

其中S为组成各肢体的首尾关键点序号对集合，i和j表示关键点的序号，为关键点i对应的标签坐标；

2.根据权利要求1所述的基于改进高分辨率网络的人体姿态预测方法，其特征在于，所述粗预测损失，具体为：

其中为关键点得分热图损失，L_limb为肢体损失，L_joint为姿态关键点坐标的损失，λ为损失权重。

3.根据权利要求2所述的基于改进高分辨率网络的人体姿态预测方法，其特征在于，设置λ为0.0001。

4.根据权利要求1所述的基于改进高分辨率网络的人体姿态预测方法，其特征在于，所述姿态关键点预测模型采用二阶段的训练方式进行训练；

5.根据权利要求4所述的基于改进高分辨率网络的人体姿态预测方法，其特征在于，所述精细化模块使用MSE损失进行特征拼接：

H₀₂＝f₀₂(H_01’⊙F₁₃⊙F₁₄))

f₀₂表示第二输出层O₂的映射函数，⊙表示特征拼接，F₁₃表示第一高分辨率融合输出，F₁₄表示第二高分辨率融合输出，H_01’为采用了粗预测损失的第一输出层的输出；

6.根据权利要求1所述的基于改进高分辨率网络的人体姿态预测方法，其特征在于，还包括以下步骤：

人员检测步骤：检测环境图像中待识别的人员目标；

7.一种基于改进高分辨率网络的人体姿态预测系统，其特征在于，包括图像获取模块、姿态关键点预测模块和人体姿态解码模块；

所述图像获取模块用于获取环境图像；

所述姿态关键点预测模块用于将环境图像输入到姿态关键点预测模型中确定每个目标的姿态关键点得分热力图，其中姿态关键点预测模型为使用多组数据通过机器学习训练得出，多组数据中的每组数据包括环境图像和标识该环境图像中人的姿态关键点的标签；所述姿态关键点预测模型基于高分辨率网络结合粗预测损失得到，所述粗预测损失通过结合肢体损失和姿态关键点坐标的损失得到；

8.根据权利要求7所述的基于改进高分辨率网络的人体姿态预测系统，其特征在于，还包括人员检测模块和姿态坐标汇总模块；

所述人员检测模块用于检测环境图像中待识别的人员目标；