CN117037215B

CN117037215B - 人体姿态估计模型训练方法、估计方法、装置及电子设备

Info

Publication number: CN117037215B
Application number: CN202311028070.3A
Authority: CN
Inventors: 孙俊; 向欢
Original assignee: Uni Entropy Intelligent Technology Wuxi Co ltd
Current assignee: Uni Entropy Intelligent Technology Wuxi Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2024-03-22
Anticipated expiration: 2043-08-15
Also published as: CN117037215A

Abstract

本发明涉及人体姿态估计技术领域，具体公开了一种人体姿态估计模型训练方法、估计方法、装置及电子设备，包括：获取训练数据集，所述训练数据集包括原始图像和标注数据，所述标注数据包括与所述原始图像对应的标注人体边界框和标注关键点数据；将所述原始图像输入至人体姿态估计网络结构，获得与所述原始图像对应的预测数据，所述预测数据包括预测人体边界框和预测关键点数据，所述人体姿态估计网络结构根据目标检测算法获得；根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型。本发明提供的人体姿态估计模型训练方法能够保证准确性的同时降低计算量。

Description

人体姿态估计模型训练方法、估计方法、装置及电子设备

技术领域

本发明涉及人体姿态估计技术领域，尤其涉及一种人体姿态估计模型训练方法、人体姿态估计方法、人体姿态估计模型训练装置及电子设备。

背景技术

随着信息技术的快速发展，基于视觉图像的人工智能研究在实际场景中得到了越来越广泛的应用。不同种类的摄像头分布广泛，大量的图像和视频数据得以积累，而这些数据都绕不开人的参与。因此人体姿态估计具有非常重要的研究前景和应用价值。人体姿态估计可以通过图像推断出人体各个关键点的位置坐标，如头、四肢、腰等，并标记出各关键点之间的肢干。这种技术能够为人机交互、虚拟现实、人体行为分析等领域提供重要的支持和服务。

传统的人体姿态估计主要是基于图模型的人体姿态估计，难以使用复杂和多样化的场景和任务；而随着卷积神经网络的发展，虽然出现多种基于神经网络的人体姿态估计，但是由于人体姿态估计涉及到肢体自由度高、人体尺度跨度大、多人互动遮挡、服装遮挡等复杂因素，使得特征提取变得异常复杂。目前，已有的姿态估计算法更多地关注于提高准确性，虽然在一定程度上取得了一定的成果，但由于深度神经网络所需要的参数量和计算量巨大，加上后处理的繁琐，即使达到了足够的准确率，也难以在实时或小型终端上应用。同时，人体姿态估计任务也面临着目标检测同样需要解决的共性问题，如光照、实时性、轻量化等。

综上所述，在资源受限的情况下，实现人体姿态估计并推广应用仍然是一项具有挑战性的任务，因此，如何能够提供一种平衡计算量和准确率的人体姿态估计模型成为本领域技术人员亟待解决的技术问题。

发明内容

本发明提供了一种人体姿态估计模型训练方法、人体姿态估计方法、人体姿态估计模型训练装置及电子设备，解决相关技术中存在的无法权衡人体姿态估计的计算量与准确性的问题。

作为本发明的第一个方面，提供一种人体姿态估计模型训练方法，其中，包括：

获取训练数据集，所述训练数据集包括原始图像和标注数据，所述标注数据包括与所述原始图像对应的标注人体边界框和标注关键点数据；

将所述原始图像输入至人体姿态估计网络结构，获得与所述原始图像对应的预测数据，所述预测数据包括预测人体边界框和预测关键点数据，所述人体姿态估计网络结构根据目标检测算法获得；

根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型。

进一步地，所述人体姿态估计网络结构根据目标检测算法获得，包括：

对输入的原始图像进行多尺度特征提取，并获得N尺度提取特征，其中N为大于1的自然数；

将N尺度提取特征中的至少M尺度提取特征进行特征融合，获得M个特征融合结果，其中M为大于1的自然数，且M小于N；

根据M个特征融合结果分别进行人体边界框检测和关键点数据检测，获得M个人体边界框检测结果和M关键点数据检测结果；

根据M个人体边界框检测结果进行预测获得M个预测人体边界框，以及根据M个关键点数据检测结果进行预测获得M个预测关键点数据。

进一步地，对输入的原始图像进行多尺度特征提取，并获得N尺度提取特征，包括：

将所述输入的原始图像进行向量处理，获得图像向量特征；

对图形向量特征进行通道重排，获得重排向量特征；

对所述重排向量特征进行特征分层处理，获得并行分层特征；

针对每层特征分别进行卷积计算，获得分层特征计算结果；

将分层特征的计算结果进行串联拼接，获得N尺度提取特征。

进一步地，针对每层特征分别进行卷积计算，获得分层特征计算结果，包括：

根据深度卷积将每层特征分别进行深度信息分离；

根据逐点卷积对分离的深度信息使用1*1的卷积进行通道融合，获得分层特征计算结果。

进一步地，对输入的原始图像进行多尺度特征提取，并获得N尺度提取特征，还包括在获得分层特征计算结果之前进行的：

对获得的N尺度提取特征进行通道注意力计算，获得通道注意力计算结果；

根据通道注意力计算结果进行空间注意力计算，获得空间注意力计算结果。

进一步地，将N尺度提取特征中的至少M尺度提取特征进行特征融合，获得M个特征融合结果，包括：

根据双向特征金字塔网络对N尺度特征中的至少M尺度提取特征进行特征融合；

对至少M尺度提取特征的融合结果进行注意力计算，获得M个特征融合结果。

进一步地，根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型，包括：

设定人体姿态估计网络结构的损失函数；

根据所述损失函数对所述预测数据及所述标注数据进行优化，获得人体姿态估计模型；

所述损失函数的表达式为：

其中，x表示所述预测数据及所述标注数据的误差。

作为本发明的另一个方面，提供一种人体姿态估计方法，其中，包括：

获取待估计图像信息；

对所述待估计图像信息进行预处理，获得预处理图像；

将所述预处理图像输入至人体姿态估计模型，获得人体姿态估计结果；

输出所述人体姿态估计结果；

其中所述人体姿态估计模型为根据前文所述的人体姿态估计模型训练方法获得。

作为本发明的另一个方面，提供一种人体姿态估计模型训练装置，用于实现前文所述的人体姿态估计模型训练方法，其中，包括：

获取模块，用于获取训练数据集，所述训练数据集包括原始图像和标注数据，所述标注数据包括与所述原始图像对应的标注人体边界框和标注关键点数据；

预测模块，用于将所述原始图像输入至人体姿态估计网络结构，获得与所述原始图像对应的预测数据，所述预测数据包括预测人体边界框和预测关键点数据，所述人体姿态估计网络结构根据目标检测算法获得；

优化训练模块，用于根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型。

作为本发明的另一个方面，提供一种电子设备，其中，包括存储器和处理器，所述存储器用于存储计算机介质，所述处理器用于加载并执行所述计算机介质以实现前文所述的人体姿态估计模型训练方法，或者，用于实现前文所述的人体姿态估计方法。

本发明提供的人体姿态估计模型训练方法，通过目标检测算法获得人体姿态估计网络结构，该人体姿态估计网络结构在对原始图像进行预测时可以直接一次性获得预测人体边界框和预测关键点数据，而无需分为先后顺序获得，相比现有技术能够有效降低计算量，而最终进行优化后获得的人体姿态估计模型在进行人体姿态估计时的估计结果准确度并不会降低，因此，本发明提供的人体姿态估计模型训练方法，能够获得准确的人体姿态估计结果，且由于计算量低于现有技术，能够在小型终端上进行应用。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。

图1为本发明提供的人体姿态估计模型训练方法的流程图。

图2为本发明提供的人体姿态估计网络结构根据目标检测算法获得的流程图。

图3a为本发明提供的人体姿态估计网络结构的结构框图。

图3b为本发明提供的人体姿态估计网络结构的具体内部网络结构示意图。

图4为本发明提供的C2f模块的实现流程图。

图5为本发明提供的深度卷积将输入特征图的深度信息分离的过程示意图。

图6为本发明提供的卷积进行通道融合的过程示意图。

图7为本发明提供的CBAM模块的流程图。

图8a为本发明提供的通道注意力模块实现流程图。

图8b为本发明提供的空间注意力模块实现流程图。

图9为本发明提供的双向特征金字塔网络的结构示意图。

图10为本发明提供的SmoothL1与L1,L2损失函数曲线对比示意图。

图11为本发明提供的电子设备的结构框图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。

为了使本领域技术人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对现有技术中的人体姿态估计，由于其为了追求准确率而导致计算量大难以实际应用的问题，在本实施例中提供了一种人体姿态估计模型训练方法，图1是根据本发明实施例提供的人体姿态估计模型训练方法的流程图，如图1所示，包括：

S100、获取训练数据集，所述训练数据集包括原始图像和标注数据，所述标注数据包括与所述原始图像对应的标注人体边界框和标注关键点数据；

在本发明实施例中，所述训练数据集具体可以为COCO数据集。

S200、将所述原始图像输入至人体姿态估计网络结构，获得与所述原始图像对应的预测数据，所述预测数据包括预测人体边界框和预测关键点数据，所述人体姿态估计网络结构根据目标检测算法获得；

在本发明实施例中，人体姿态估计网络结构具体可以根据目标检测算法获得，此处目标检测算法具体可以为在YOLOv5的基础上进行改进的目标检测算法。

由于采用目标检测算法能够有效降低计算量且不会降低计算准确度，因此通过该目标检测算法获得的人体姿态估计网络结构能够有效平衡计算量和准确率，当应用在人体姿态估计中时能够获得准确的人体姿态估计结果，且由于计算量低于现有技术，能够在小型终端上进行应用。

S300、根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型。

在通过上述模板检测算法获得的人体姿态估计网络结构对原始图像进行预测后获得的预测数据，通过该预测数据与标注数据之间的误差进行不断优化，实现对人体姿态估计网络结构的优化训练，当预测数据与标注数据之间的误差达到优化目标值时所对应的人体姿态估计网络结构即为人体姿态估计模型。

本发明实施例提供的人体姿态估计模型训练方法，通过目标检测算法获得人体姿态估计网络结构，该人体姿态估计网络结构在对原始图像进行预测时可以直接一次性获得预测人体边界框和预测关键点数据，而无需分为先后顺序获得，相比现有技术能够有效降低计算量，而最终进行优化后获得的人体姿态估计模型在进行人体姿态估计时的估计结果准确度并不会降低，因此，本发明提供的人体姿态估计模型训练方法，能够获得准确的人体姿态估计结果，且由于计算量低于现有技术，能够在小型终端上进行应用。

需要说明的是，在本发明实施例中，人体姿态估计可以看作是单类的人体检测问题，每个人体边界框需要输出{x,y,w,h,conf,class}，其中，x表示边界框的中心点横向坐标，y表示边界框的中心点总想坐标，w表示边界框的宽度，h表示边界框的高度，conf表示边界框的置信度，class表示边界框的预测类别。每个人有n个关键点，每个关键点对应识别的位置和可信度{x,y,conf}，所以一个关键点头对应输出关键点共有3n个元素，即在原边界框的输出基础上增加关键点的输出，其中，C_x表示边界框中心的横坐标，C_y表示边界框中心的纵坐标，W表示边界框的宽度，H表示边界框的高度，box_conf表示边界框的置信度，class_conf表示边界框的预测类别，分别代表第i个关键点的横坐标，纵坐标及关键点置信度，总体预测向量P_v可以定义如下：

以COCO数据集为例，每个人需要标注17个关键点，则本发明对于每个目标，会同时进行关键点头和边界框头的预测。其中，关键点头预测51个元素的关键点信息，用于确定人体关键点的位置；边界框头预测6个元素，用于确定目标的位置、大小和置信度等信息。这些预测结果会被用来计算目标的类别和边界框的置信度等重要信息，以帮助模型更准确地进行目标检测和关键点估计任务，从而提高模型的精度和效果。

在训练过程中，关键点的置信度取决于关键点的可见性，如果关键点是可见的包括被遮挡的情况，则将真实值置信度设置为1，如果它在视野之外，则将该点的置信度设置为0。在预测阶段，模型将对每个被检测到的人体筛选17个置信度大于0.5的关键点关联到该检测框。检测框和关键点的坐标都会根据目标中心进行变换，但两者不同之处在于检测框的尺寸则根据目标的高度和宽度进行归一化处理，而关键点并没有与Anchor的高度和宽度进行归一化。

作为本发明的具体实施方式，如图2所示，所述人体姿态估计网络结构根据目标检测算法获得，包括：

S210、对输入的原始图像进行多尺度特征提取，并获得N尺度提取特征，其中N为大于1的自然数；

在本发明实施例中，如图3a和图3b所示，为人体姿态估计网络结构的结构框图。对输入的原始图像进行处理后进行降采样以实现多尺度特征提取。

具体地，对输入的原始图像进行多尺度特征提取，并获得N尺度提取特征，包括：

将所述输入的原始图像进行向量处理，获得图像向量特征；

对图形向量特征进行通道重排，获得重排向量特征；

针对每层特征分别进行卷积计算，获得分层特征计算结果；

将分层特征的计算结果进行串联拼接，获得N尺度提取特征。

如图4所示，在进行多尺度特征提取时，主干网络层采用C2f模块实现卷积计算。

具体地，为了减少计算量和提高模型效率，C2f模块中使用Conv，BN，SiLU三个组合而成的卷积块，以及n个BottleNeck，C2f加入了更多分支，丰富梯度回传时的支流，采用了更为高效的计算方式。在C2f模块中，首先对输入特征图进行通道重排，然后采用Split来做特征分层形成并行分支。每一层计算后的结果都将有1/2的通道直接参与下一个模块的计算，发挥了特征复用的效果。通过不同的卷积核操作后获取不同的感受野和分辨率，再将不同的部分进行串联拼接，增强了模型的准确性。相比于现有技术中有些采用C3模块，C2f少了一层卷积操作，参数量只有C3的1/3。因此，在本发明实施例中，在进行特征提取时通过C2f模块实现卷积计算，可以更好地提高模型的性能。

在本发明实施例中，为了更进一步减少计算量，针对每层特征分别进行卷积计算，获得分层特征计算结果，包括：

根据深度卷积将每层特征分别进行深度信息分离；

应当理解的是，在深度神经网络中，深度可分离卷积用于提取特征时，具有较少的参数量和计算复杂度，同时可以有效地减少过拟合现象和提高泛化能力。深度可分离卷积具体将常规卷积的操作分解为两个过程，第一阶段是深度卷积将输入特征图的深度信息分离，如图5。第二阶段是逐点卷积对上一阶段的结果使用的卷积进行通道融合，如图6。其中，深度卷积是指对输入特征图的每个通道分别进行卷积操作，不同通道之间没有交互，相当于对每个通道分别使用一个独立的滤波器，这样可以将原始的卷积核分解成若干个小卷积核，每个小卷积核只负责提取单个通道的特征，因此参数量减小了很多。逐点卷积是指使用一个1×1的卷积核对深度卷积的输出进行卷积操作，使得通道数减少到所需的数量。

应当理解的是，通过减少通道数量这一轻量化处理，能够有效降低计算量。因此，可以在人体姿态估计网络结构中所有使用到卷积运算时均可以采用上述深度可分离卷积计算方式来减少通道数以达到降低计算量的目的。

另外，为了提升特征提取的准确性，对输入的原始图像进行多尺度特征提取，并获得N尺度提取特征，还包括在获得分层特征计算结果之前进行的：

具体地，本发明实施例中采用卷积注意力模块(CBAM模块)，CBAM模块是基于SE模块发展而来，SE模块提出把注意力放在通道上，希望学习不同通道之间的权重，而事实上目标空间结构也包含很重要的信息，CBAM不仅增强对重要通道的关注，同时还关注空间维度上的重要特征信息，将两者有效结合在一起。如图7所示，为CBAM模块的流程图，其中表示元素相乘，计算过程为：

其中，F表示获得的N尺度提取特征，F′表示通道注意力模块M_c对获得的N尺度提取特征在通道层添加权重得到的通道注意力计算结果，F″表示空间注意力模块M_s对通道注意力计算结果在空间层添加权重获得的空间注意力计算结果。

在本发明实施例中，通道注意力模块结构如图8a所示，计算过程如公式(1)，首先通过全局平均池化和全局最大池化两种池化方式对H×W×C的特征图降维，其中H、W和C分别表示输入特征图(即N尺度提取特征)的高度、宽度和通道数。经过池化分别得到两个1*1*c的向量后，输入到共享的MLP中，将其相加再通过sigmoid归一化，与输入特征图在通道层相乘，得到通道注意力的输出特征图。

空间注意力模块结构如图8b所示，计算过程如公式(2)，首先在一个通道上对将H×W×C的特征图进行最大池化和平均池化，得到两个H×W×1的特征图。然后将两个特征图在通道维度拼接起来，得到一个H×W×2的特征图，再经过一个7×7的卷积形成H×W×1的特征图，然后通过Sigmoid归一化，生成的空间权重最终与输入特征图相乘，得到空间注意力的输出特征图。

S220、将N尺度提取特征中的至少M尺度提取特征进行特征融合，获得M个特征融合结果，其中M为大于1的自然数，且M小于N；

在本发明实施例中，为了减少计算量，采用基于双向特种金字塔的多尺度融合方式。

具体地，将N尺度提取特征中的至少M尺度提取特征进行特征融合，获得M个特征融合结果，包括：

应当理解的是，由于人的尺度变化大且遮挡复杂，人体姿态估计网络对空间位置信息的敏感度较高。相比于目标检测任务，需要从多个尺度中提取更多的特征，以提高姿态估计的准确性。因此在本发明实施例中，如图9所示，采用双向特征金字塔网络(BiFPN)，BiFPN在解决多尺度特征融合问题时，引入了双向特征传播和注意力机制，在PAN网络的基础上去除中间只有一个输入口的节点以减少冗余参数，同时更充分地利用多级残差，增加信息通道而不额外增加参数，以提高特征的质量和表达能力。其中每个BiFPN单元都包含了一个自上而下和自下而上的连接，将低层次的特征图中的高频信息传递到高层次特征图中，同时将高层次特征图中的低频信息传递到低层次特征图中，从而实现跨层次的信息传递和融合。此外，BiFPN还引入了SE注意力机制来提高特征的表达能力和区分度，使模型更着重关注重要的特征信息。SE注意力在每个通道上引入一个压缩操作和一个激活操作，以对每个通道的重要性进行学习。

S230、根据M个特征融合结果分别进行人体边界框检测和关键点数据检测，获得M个人体边界框检测结果和M关键点数据检测结果；

S240、根据M个人体边界框检测结果进行预测获得M个预测人体边界框，以及根据M个关键点数据检测结果进行预测获得M个预测关键点数据。

在本发明实施例中，根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型，包括：

设定人体姿态估计网络结构的损失函数；

所述损失函数的表达式为：

其中，x表示所述预测数据及所述标注数据的误差。

如图10所示，Smooth L1 loss在误差较小时比L1 loss和L2 loss更加平滑，能够减少异常值对训练的影响；在误差较大时比L1 loss更加平滑，能够避免梯度突变。在预测值与真实值差距小时，Smooth L1 loss可以保证足够小，从而保持较快的收敛速度，同时在预测值与真实值差距大时可以避免梯度爆炸和梯度消失的问题。

综上，本发明提供的人体姿态估计模型训练方法，针对目标检测算法YOLO v5进行改进，实实现对人体姿态估计模型的训练，其中以C2f模块取代原有C3瓶颈残差模块，并为小目标检测增加一层下采样，以提取更高分辨特征，在主干网络中使用深度可分离卷积进行计算，提取不同尺度的特征图后送往以BiFPN，经过多尺度融合特征后，将结果送入四层不同尺度的Head预测，每层的检测头得到两个解耦的分支输出，一个是box head，用于预测检测框的类别、位置和置信度，另一个分支是keypoints head，用于回归以该个体目标为中心的关联关键点。在本发明实施例中，基于C2f的单阶段人体姿态估计，相比于C3模块，少了一层卷积操作，参数量只有C3的1/3，因此能够实现高效且计算量少的计算，可以更好地提高模型的性能。另外，将将CBAM模块加入到特征提取的最后一层输入前，不仅可以保持高速推理速度，而且可以自适应地学习不同特征通道的权重，从而减少不必要的噪声干扰并提升目标的检测和姿态估计精度。CBAM模块的加入可以在不增加网络参数的情况下提高网络的泛化能力，减少过拟合现象的发生。因此，能够更好地提高主干网络的特征表示能力、识别准确度和泛化能力。

下面结合实验对比对本发明提供的人体姿态估计模型训练方法的效果进行说明。

(1)实验环境：使用python3.8编译，使用的深度学习框架是pytorch 1.12.0，采用RTX 3060Ti显卡进行模型的训练。

(2)实验训练策略：先在训练集进行训练后用验证集进行评估，保存在验证集上效果最好的模型，训练时沿用YOLO v5的数据增强策略，设置随机比例范围0.5-1.5，随机平移范围[-10，10]，随机翻转概率为0.5以及马赛克增强处理，使用Adam更新梯度，初始学习率设为0.01，动量为0.937，权重惩罚系数是为5e-4。网络在COCO数据集上与其他各先进算法进行比较，选取AP，AP⁵⁰，AP⁷⁵，AP^M，AP^L以及AP等数值作为实验算法精度的评价指标，选取参数量Params和计算量GFLOPS以及在CPU和GPU上测试时计检测速度FPS作为实验算法性能的评价指标。

(3)实验结果：本发明在对关键点回归精度有不同要求的任务中均具有优越性。

(4)对比实验：为评估本发明的整体性能并验证其可行性，在COCO数据集上同常用的关键点检测模型进行了对比实验，实验结果如表1所示，参数量相比基准网络YOLO-Pose下降了10％。在计算量方面，也比SPM、HigherHRNet两个自底向上的网络分别低了39％和72％，并在GPU测试速度方面表现最优，比YOLO-Pose快了6.9％。在CPU测试速度方面，其速度略慢于YOLO-Pose，但明显优于其他模型。综上分析可得，本发明在速度与准确性之间做了较好的权衡，在实际应用中具备高性价比。

表1实验结果对比表

作为本发明的另一实施例，提供一种人体姿态估计方法，其中，包括：

获取待估计图像信息；

对所述待估计图像信息进行预处理，获得预处理图像；

输出所述人体姿态估计结果；

在本发明实施例中，当应用上述人体姿态估计模型训练方法进行训练所获得的人体姿态估计模型进行人体姿态估计时，首先将获取到的待估计图像信息进行一些预处理，例如剔除一些错误图像等等。之后输入至人体姿态估计模型进行人体姿态估计，并获得人体姿态估计结果。

因此，本发明提供的人体姿态估计方法，由于采用前文的人体姿态估计模型训练方法所获得的人体姿态估计模型，因而能够权衡人体姿态估计的速度与准确性，在保证人体姿态估计准确性的前提下计算量也会比较低，能够应用在小型终端上，因此该人体姿态估计方法的推广应用更加容易实现。

作为本发明的另一实施例，提供一种人体姿态估计模型训练装置，用于实现前文所述的人体姿态估计模型训练方法，其中，人体姿态估计模型训练装置包括：

关于本发明提供的人体姿态估计模型训练装置的具体工作过程及原理可以参照前文的人体姿态估计模型训练方法的描述，此处不再赘述。

作为本发明的另一实施例，提供一种电子设备，其中，包括存储器和处理器，所述存储器用于存储计算机介质，所述处理器用于加载并执行所述计算机介质以实现前文所述的人体姿态估计模型训练方法，或者，用于实现前文所述的人体姿态估计方法。

如图11所示，该电子设备10可以包括：至少一个处理器11，例如CPU(CentralProcessing Unit，中央处理器)，至少一个通信接口13，存储器14，至少一个通信总线12。其中，通信总线12用于实现这些组件之间的连接通信。其中，通信接口13可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口13还可以包括标准的有线接口、无线接口。存储器14可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器14可选的还可以是至少一个位于远离前述处理器11的存储装置。其中，存储器14中存储应用程序，且处理器11调用存储器14中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线12可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线12可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器14可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器14还可以包括上述种类的存储器的组合。

其中，处理器11可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器11还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：genericarraylogic,缩写：GAL)或其任意组合。

可选地，存储器14还用于存储程序指令。处理器11可以调用程序指令，实现如本发明图1实施例中所示的人体姿态估计模型训练方法，或实现如本发明前文中所述的人体姿态估计方法。

作为本发明的另一实施例，提供一种计算机可读存储介质，其中，所述计算机可读存储介质用于存储计算机指令，当所述计算机指令被处理器加载并执行时以实现前文所述的人体姿态估计模型训练方法，或者，实现前文所述的人体姿态估计方法。

在本发明实施例中，提供了一种非暂态计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的人体姿态估计模型训练方法，或，人体姿态估计方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种人体姿态估计模型训练方法，其特征在于，包括：

根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型；

所述人体姿态估计网络结构根据目标检测算法获得，包括：

对输入的原始图像进行多尺度特征提取，并获得N个尺度提取特征，其中N为大于1的自然数；

将N个尺度提取特征中的至少M个尺度提取特征进行特征融合，获得M个特征融合结果，其中M为大于1的自然数，且M小于N；

根据M个特征融合结果分别进行人体边界框检测和关键点数据检测，获得M个人体边界框检测结果和M个关键点数据检测结果；

根据M个人体边界框检测结果进行预测获得M个预测人体边界框，以及根据M个关键点数据检测结果进行预测获得M个预测关键点数据；

将N个尺度提取特征中的至少M个尺度提取特征进行特征融合，获得M个特征融合结果，包括：

根据双向特征金字塔网络对N个尺度特征中的至少M个尺度提取特征进行特征融合；

对至少M个尺度提取特征的融合结果进行注意力计算，获得M个特征融合结果；

对输入的原始图像进行多尺度特征提取，并获得N个尺度提取特征，包括：

将所述输入的原始图像进行向量处理，获得图像向量特征；

对图形向量特征进行通道重排，获得重排向量特征；

针对每层特征分别进行卷积计算，获得分层特征计算结果；

将分层特征的计算结果进行串联拼接，获得N个尺度提取特征；

对输入的原始图像进行多尺度特征提取，并获得N个尺度提取特征，还包括在获得分层特征计算结果之前进行的：

对获得的N个尺度提取特征进行通道注意力计算，获得通道注意力计算结果；

2.根据权利要求1所述的人体姿态估计模型训练方法，其特征在于，针对每层特征分别进行卷积计算，获得分层特征计算结果，包括：

根据深度卷积将每层特征分别进行深度信息分离；

3.根据权利要求1所述的人体姿态估计模型训练方法，其特征在于，根据所述预测数据及所述标注数据对所述人体姿态估计网络结构进行优化训练，获得人体姿态估计模型，包括：

设定人体姿态估计网络结构的损失函数；

所述损失函数的表达式为：，其中，/>表示所述预测数据及所述标注数据的误差。

4.一种人体姿态估计方法，其特征在于，包括：

获取待估计图像信息；

对所述待估计图像信息进行预处理，获得预处理图像；

输出所述人体姿态估计结果；

其中所述人体姿态估计模型为根据权利要求1至3中任意一项所述的人体姿态估计模型训练方法获得。

5.一种人体姿态估计模型训练装置，用于实现权利要求1至3中任意一项所述的人体姿态估计模型训练方法，其特征在于，包括：

6.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机介质，所述处理器用于加载并执行所述计算机介质以实现权利要求1至3中任意一项所述的人体姿态估计模型训练方法，或者，用于实现权利要求4所述的人体姿态估计方法。