CN114140831A

CN114140831A - 人体姿态估计方法、装置、电子设备及存储介质

Info

Publication number: CN114140831A
Application number: CN202210113382.3A
Authority: CN
Inventors: 陈盈盈; 周鲁; 王金桥; 王海鑫
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu Beijing Technology Co ltd
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-03-04
Anticipated expiration: 2042-01-30
Also published as: CN114140831B

Abstract

本发明提供一种人体姿态估计方法、装置、电子设备及存储介质，方法包括：获取目标图像；将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息；其中，所述人体姿态估计模型，是基于样本行人场景图像进行训练后得到的，用于估计图像中人体姿态信息；所述人体姿态信息包括人体实例及对应的人体关键点位置，通过人体姿态估计模型实现了端到端的人体姿态估计，提升了人体姿态估计的效率。

Description

人体姿态估计方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人体姿态估计方法、装置、电子设备及存储介质。

背景技术

近年来，随着深度学习在图像分类、目标检测和语义分割等众多计算机视觉应用中良好的性能体现，人体姿态估计也通过深度学习实现了快速的进步。人体姿态估计表示对人体关键点位置进行定位，人体的关键点包括人体关节或者部位，如肩部、肘部、脚踝等。人体姿态估计是其他相关应用和各种视觉应用的基础，例如，视频姿势估计、跟踪和人体动作识别等。当图像中出现多个人体实例时，人体姿态估计不仅需要定位每个关键点位置，还需要确定每个关键点对应的人体实例。

目前，多人场景下的人体姿态估计方法主要包括：自顶向下和自底向上；其中，自顶向下的方法通过目标检测方法定位人体实例，然后预测每个人体实例的关键点位置；自底向上的方法通过预测所有人体关键点位置，然后通过对关键点的分组，将每个检测到的关键点划分到对应的人体实例中。

然而，自顶向下的方法需要人体检测模型确定人体位置，再用单人姿态估计模型完成人体关键点定位，为每个检测到的人体实例执行单人的姿态估计算法，随着图像中的人数增长，姿态估计的计算复杂度呈线性增加，运算时间不稳定；自底向上的方法需要复杂的后处理方法对关键点分组，运行效率低。除此之外，以上两种人体姿态估计方法通常都采用热力图的方式预测关键点，需要多个步骤才能获得最终的关键点坐标，使得模型不可能以端到端的方式进行训练。

发明内容

本发明提供一种人体姿态估计方法、装置、电子设备及存储介质，用以解决人体姿态估计效率低的缺陷，实现端到端的人体姿态估计，提升人体姿态估计的效率。

本发明提供一种人体姿态估计方法，方法包括：

获取目标图像；

将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息；其中，所述人体姿态估计模型，是基于样本行人场景图像进行训练后得到的，用于估计图像中人体姿态信息；所述人体姿态信息包括人体实例及对应的人体关键点位置。

根据本发明提供的一种人体姿态估计方法，所述人体姿态估计模型，包括：主干网、上下文特征编码器、检测解码器和姿态解码器；其中，

所述主干网，用于提取所述目标图像的图像特征；

所述上下文特征编码器，用于采用自注意力机制对所述图像特征进行上下文特征编码，得到编码特征；

所述检测解码器，用于检测所述目标图像中各人体实例的人体外接矩形框坐标及第一人体关键点坐标；

所述姿态解码器，用于基于各所述人体实例的第一人体关键点坐标在对应的编码特征图上动态采样的特征，确定各所述人体实例的第二人体关键点坐标。

根据本发明提供的一种人体姿态估计方法，所述将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息，包括：

将所述目标图像输入至所述主干网，得到所述主干网输出的所述目标图像的图像特征；

将所述图像特征输入至所述上下文特征编码器，得到所述上下文特征编码器输出的所述图像特征对应的编码特征；

将所述编码特征输入至所述检测解码器，得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标；

将所述编码特征输入至所述姿态解码器，得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。

根据本发明提供的一种人体姿态估计方法，所述将所述编码特征输入到所述上下文特征编码器之前，所述方法还包括：

基于所述目标图像对应的位置嵌入向量集合及所述图像特征对应的第一特征序列，确定所述图像特征对应的第二特征序列。

根据本发明提供的一种人体姿态估计方法，所述将所述编码特征输入至所述姿态解码器之前，所述方法还包括：

基于所述检测解码器输出的所述目标图像中各所述人体实例的人体外接矩形框坐标，确定所述编码特征对应的各所述人体实例的编码特征图。

根据本发明提供的一种人体姿态估计方法，所述将所述编码特征输入至所述姿态解码器，得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标，包括：

将所述编码特征图输入至所述姿态解码器，所述姿态解码器基于所述检测解码器输出的各所述人体实例的第一人体关键点坐标在对应的所述编码特征图上进行动态采样；

基于所述姿态解码器在对应的所述编码特征图上动态采样的特征，得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。

根据本发明提供的一种人体姿态估计方法，所述人体姿态估计模型使用的最优二分匹配，是基于所述样本行人场景图像对应的目标集合中的监督真值与所述人体姿态估计模型输出的人体姿态信息之间的相似度；其中，

所述最优二分匹配采用公式（1）表示：

（1）

其中，

表示所有监督真值和人体姿态信息匹配方式的集合，

表示目标集合中第i个监督真值，

表示预测集合中第i个人体姿态信息，

表示损失函数。

本发明还提供一种人体姿态估计装置，装置包括：

获取模块，用于获取目标图像；

姿态估计模块，用于将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息；其中，所述人体姿态估计模型，是基于样本行人场景图像进行训练后得到的，用于估计图像中人体姿态信息；所述人体姿态信息包括人体实例及对应的人体关键点位置。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述人体姿态估计方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述人体姿态估计方法的步骤。

本发明提供的人体姿态估计方法，通过获取目标图像，将目标图像输入至人体姿态估计模型，得到人体姿态估计模型输出的目标图像中人体姿态信息，从而获取目标图像中各人体实例的人体关键点位置，实现端到端的人体姿态估计，提升了人体姿态估计的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的人体姿态估计方法的流程示意图之一；

图2是本发明提供的人体姿态估计方法的流程示意图之二；

图3是本发明提供的人体姿态估计方法的流程示意图之三；

图4是本发明提供的上下文特征编码器的结构示意图；

图5是本发明提供的检测解码器的结构示意图；

图6是本发明提供的姿态解码器的结构示意图；

图7是本发明提供的人体姿态估计方法的流程示意图之四；

图8是本发明提供的人体姿态估计装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明的人体姿态估计方法。

图1是本发明提供的人体姿态估计方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取目标图像。

可选地，本发明提供的人体姿态估计方法可应用于人体姿态的估计场景中。本发明提供的人体姿态估计方法的执行主体可以为本发明提供的人体姿态估计装置，例如电子设备、或者该人体姿态估计装置中的用于执行人体姿态估计方法的控制模块。

可选地，目标图像可以通过使用手机、相机或者摄像机等拍摄方式进行获取，也可以通过视频监控的方式获取。

步骤120，将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息；其中，所述人体姿态估计模型，是基于样本行人场景图像进行训练后得到的，用于估计图像中人体姿态信息；所述人体姿态信息包括人体实例及对应的人体关键点位置。

可选地，人体姿态估计模型用于估计图像中人体姿态信息，得到图像中各人体实例的人体关键点位置，从而确定人体姿态。

可选地，样本行人场景图像表示在对人体姿态估计模型进行训练时所使用的图像，通过样本行人场景图像标注人体关键点位置以及人体外接矩形框，组成人体姿态估计数据集；通过标注的人体关键点位置以及人体外接矩形框等信息生成对应的监督信息，其中，生成监督信息包括：归一化标注的人体外接矩形框坐标和人体关键点位置，将其映射到0至1的范围内；将人体关键点位置坐标在图像中的绝对位置坐标转换为在人体外接矩形框中的相对位置坐标；其中，绝对位置指人体关键点在图像中的位置，相对位置坐标指将人体关键点在图像中的位置转化为在矩形框中的位置。

需要说明的是，监督信息是在对人体姿态估计模型训练时使用，用来计算人体姿态估计模型对行人场景图像的预测结果与真实结果之间的相似度，即损失函数，根据损失函数更新人体姿态估计模型的参数。

可选地，基于上述实施例，本发明提供的人体姿态估计方法所使用的人体姿态估计模型，包括：主干网、上下文特征编码器、检测解码器和姿态解码器；其中，主干网，用于提取目标图像的图像特征；上下文特征编码器，用于采用自注意力机制对图像特征进行上下文特征编码，得到编码特征；检测解码器，用于检测目标图像中各人体实例的人体外接矩形框坐标及第一人体关键点坐标；姿态解码器，用于基于各人体实例的第一人体关键点坐标在对应的编码特征图上动态采样的特征，确定各人体实例的第二人体关键点坐标。

可选地，所述人体姿态估计模型使用的最优二分匹配，是基于所述样本行人场景图像对应的目标集合中的监督真值与所述人体姿态估计模型输出的人体姿态信息之间的相似度；其中，

所述最优二分匹配采用公式（1）表示：

（1）

其中，

表示所有监督真值和人体姿态信息匹配方式的集合，

表示目标集合中第i个监督真值，

表示预测集合中第i个人体姿态信息，

表示损失函数。

具体地，在对人体姿态估计模型训练时，检测解码器、姿态解码器均通过集合预测的方式定位人体实例和人体关键点。检测解码器预测人体实例的集合，集合中每个元素包括类别因子、人体外接矩形框坐标，以及第一人体关键点坐标；其中，类别因子用于二分类，判断各人体实例是否为背景，判断可以通过设置目标阈值的方式，小于目标阈值为人体实例，大于目标阈值为背景；人体外接矩形框坐标包括中心坐标、矩形框的长和宽；第一人体关键点坐标包括K个关键点坐标。人体实例的集合的元素总数为N,

是最优二分匹配，则用于监督人体实例的损失函数，采用公式(2)表示：

(2)

其中，

表示目标集合中的第i个类别因子，

表示预测集合中与

匹配的类别因子，

表示所有非背景的类别因子，

表示目标集合中第i个人体外接矩形框坐标，

表示预测集合中与

匹配的人体外接矩形框坐标，

表示目标集合中第i个人体外接矩形框中第j个第一人体关键点坐标，

表示预测集合中与

匹配的第一人体关键点坐标。

姿态解码器预测各人体实例中的第二人体关键点集合，集合中每个元素包括第二人体关键点类别、第二人体关键点坐标；其中，该关键点类别包括K+1类，人体实例为K类，背景为1类。姿态解码器预测的各人体实例中第二人体关键点的集合的元素总数为Q，Q>K，

是最优二分匹配，则用于监督第二人体关键点的损失函数，采用公式(3)表示：

(3)

其中，

表示目标集合中第i个第二人体关键点的类别，

表示预测集合中与

匹配的类别，

是所有非背景的类别，

表示目标集合中第i个第二人体关健点的坐标，

表示预测集合中与

匹配的第二人体关键点的坐标。

图2是本发明提供的人体姿态估计方法的流程示意图之二，如图2所示，该方法包括：

步骤210，获取目标图像。

步骤220，将所述目标图像输入至所述主干网，得到所述主干网输出的所述目标图像的图像特征。

可选地，主干网采用残差网络（Residual Neural Network，ResNet）提取目标图像的图像特征，利用不同的分辨率对应的图像特征组成特征金字塔。

步骤230，将所述图像特征输入至所述上下文特征编码器，得到所述上下文特征编码器输出的所述图像特征对应的编码特征。

可选地，上下文特征编码器采用转换编码器（Transformer Encoder）实现对图像特征的编码，得到上下文特征编码器输出的图像特征对应的编码特征。

可选地，将所述图像特征输入至所述上下文特征编码器之前，还包括：基于所述目标图像对应的位置嵌入向量集合及所述图像特征对应的第一特征序列，确定所述图像特征对应的第二特征序列。

其中，位置嵌入向量集合是使用转换编码器（Transformer Encoder），对目标图像中各个像素点的位置进行编码得到的向量集合，每一个像素点对应一个位置向量。

具体地，在图像特征对应的第一特征序列中，每一个特征向量都有一个对应的位置嵌入向量集合中的位置嵌入向量与其相加，从而确定图像特征对应的第二特征序列。

步骤240，将所述编码特征输入至所述检测解码器，得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。

可选地，检测解码器采用转换解码器（Transformer Decoder）实现对编码特征的解码，得到检测解码器输出的目标图像中各人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。

步骤250，将所述编码特征输入至所述姿态解码器，得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。

可选地，姿态解码器也采用转换解码器（Transformer Decoder），基于检测解码器输出的第一人体关键点坐标，实现对编码特征的解码，得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标。

可选地，将所述编码特征输入至所述姿态解码器之前，还包括：基于所述检测解码器输出的目标图像中各人体实例的人体外接矩形框坐标，确定编码特征对应的各人体实例的编码特征图。

具体地，根据检测解码器输出的目标图像中各人体实例的人体外接矩形框坐标，将编码特征对应的图像裁剪成目标分辨率的编码特征图，从而确定编码特征对应的各人体实例的编码特征图。

需要说明的是，将编码特征对应的图像裁剪成目标分辨率的编码特征图，使得各人体实例的编码特征归一化为相同的分辨率，使得人体姿态估计模型对尺度的变化有更好的鲁棒性。

本发明提供的人体姿态估计方法，通过获取目标图像，将目标图像输入至主干网，得到主干网输出的目标图像的图像特征；将图像特征输入至上下文特征编码器，得到上下文特征编码器输出的图像特征对应的编码特征；将编码特征分别输入至检测解码器和姿态解码器，分别得到检测解码器输出的目标图像中各人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标，以及姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标，从而获取目标图像中各人体实例的人体关键点位置，实现端到端的人体姿态估计，提升了人体姿态估计的效率。

图3是本发明提供的人体姿态估计方法的流程示意图之三，如图3所示，该方法包括：

步骤310，获取目标图像。

步骤320，将所述目标图像输入至所述主干网，得到所述主干网输出的所述目标图像的图像特征。

步骤330，将所述图像特征输入至所述上下文特征编码器，得到所述上下文特征编码器输出的所述图像特征对应的编码特征；

步骤340，将所述编码特征输入至所述检测解码器，得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。

关于步骤310-340的说明和解释，可以参照上述针对步骤210-240的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤350，将所述编码特征图输入至所述姿态解码器，所述姿态解码器基于所述检测解码器输出的各所述人体实例的第一人体关键点坐标在对应的所述编码特征图上进行动态采样。

可选地，基于各人体实例的第一人体关键点坐标，姿态解码器在编码特征图对应的第二特征序列中对应位置动态采样键-值（key-value）向量。

可选地，姿态解码器根据各人体实例的第一人体关键点坐标可以是检测解码器输出的各人体实例的第一人体关键点坐标，也可以是姿态解码器输出的各人体实例的第二人体关键点坐标。

需要说明的是，姿态解码器第一层的参考关键点坐标由检测解码器预测并提供，其余各层的参考关键点坐标由姿态解码器输出的各人体实例的第二人体关键点坐标预测并提供。

步骤360，基于所述姿态解码器在对应的所述编码特征图上动态采样的特征，得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。

可选地，根据姿态解码器在预测人体关键点坐标对应的编码特征图的特征序列的位置上动态采样的特征，得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。

本发明提供的人体姿态估计方法，通过各人体实例的第一人体关键点坐标在对应的编码特征图上进行动态采样，再根据姿态解码器在对应的编码特征图上动态采样的特征，得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标，从而获取目标图像中人体实例的人体关键点位置，实现端到端的人体姿态估计，提升了人体姿态估计的效率。

图4是本发明提供的上下文特征编码器的结构示意图，如图4所示，上下文特征编码器包括多层，本发明提供的上下文特征编码器包括6层，其中，每层包括自注意力层和前馈层，其中，自注意力层，用于提取目标图像的全局特征；前馈层，用于对全局特征进行线性变换。利用自注意力机制对全局的上下文进行关系建模，从而得到上下文特征编码器输出的编码特征，并分别将编码特征输入至检测解码器和姿态解码器中。

图5是本发明提供的检测解码器的结构示意图，如图5所示，检测解码器包括多层，本发明提供的检测解码器包括6层，其中，每层包括自注意力层、交叉注意力层和前馈层。

需要说明的是，查询向量为预先设置的一组可学习的网络参数，在训练人体姿态估计模型时，通过学习的方式不断改变网络参数的数值，查询向量的维数与检测解码器的输入编码特征的维数相同。

具体地，将查询向量输入至检测解码器第一层的自注意力层，自注意力层输出的结果输入至交叉注意力层，与特征编码器输出的编码特征中每一个特征作为键-值向量在交叉主力层进行交叉注意力计算，将交叉主力层的输出结果经过前馈层，得到前馈层输出的解码向量；解码向量一方面输入至下一层的自注意力层，进一步进行计算，直至最后一层；另一方面输入至线性层中，线性层对解码向量进行特征变换，得到类别因子、人体外接矩形框坐标，以及人体的关键点坐标。

实际中，检测解码器的输出结果是一个大致的预测结果，而且检测解码器的每一层都有一组预测值，在对人体姿态估计模型训练时，均参与损失函数的计算，但在使用训练之后的人体姿态估计模型时，仅输出最后一层的预测值。

图6是本发明提供的姿态解码器的结构示意图，如图6所示，检测解码器包括多层，本发明提供的姿态解码器包括6层，其中，每层包括自注意力层、交叉注意力层和前馈层。姿态解码器采用动态采样的方式提取键-值向量，在编码特征中对应位置动态采样键-值向量。

需要说明的是，查询向量同样是预先设置的一组可学习的网络参数，只是与检测解码器的网络参数不同；在训练人体姿态估计模型时，通过学习的方式不断改变网络参数的数值，查询向量的维数与检测解码器的输入编码特征的维数相同。

具体地，姿态解码器第一层的参考关键点坐标是基于检测解码器输出的人体关键点坐标，对裁剪出的图像特征进行采样，即采样各人体实例对应的键-值向量特征；例如，参考关键点的坐标是（15，15），对编码特征图中坐标是（15，15）对应的编码特征中的向量进行采样。采样得到的键-值向量与自注意力层输出的结果在交叉注意力层进行交叉注意力计算，将交叉主力层的输出结果再经过前馈层，得到前馈层输出的解码向量；将解码向量一方面输入至下一层的自注意力层，继续进行进一步的计算，直至最后一层；另一方面输入到线性层中，线性层对解码向量进行特征变换，得到关键点类别和关键点坐标。之后，姿态解码器将上一层预测的关键点坐标均作为下一层的参考采样点。

这种动态采样的方式包括两个优点：能够极大地减少计算量，且其计算复杂度不随特征分辨率的增加而增加；通过采样感兴趣的关键点或者关键点周围的特征，使得关键点的注意力不会被大量的背景特征稀释，即采样的人体关键点不是图像背景中的关键点。

图7是本发明提供的人体姿态估计方法的流程示意图之四，如图7所示，该方法包括：

步骤1，获取目标图像。

步骤2，将目标图像输入至主干网，得到主干网输出的目标图像的图像特征。

步骤3，在图像特征对应的第一特征序列中的每一特征向量，每一个特征向量都有一个对应的位置嵌入向量集合中的位置嵌入向量与其相加，从而确定图像特征对应的第二特征序列。

步骤4 ，将第二特征序列输入至上下文特征编码器，得到上下文特征编码器输出的图像特征对应的编码特征。

步骤5，将编码特征输入至检测解码器，得到检测解码器输出的目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。

步骤6，基于检测解码器输出的目标图像中各人体实例的人体外接矩形框坐标，将编码特征对应的图像裁剪成目标分辨率的编码特征图，从而确定编码特征对应的各人体实例的编码特征图。

步骤7，将编码特征图输入至姿态解码器，得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标。

本发明提供的人体姿态估计方法，通过获取目标图像，将目标图像输入至主干网，得到主干网输出的目标图像的图像特征；再将图像特征对应的第一特征序列与目标图像对应的位置嵌入向量集合对应位置相加，得到第二特征序列；将第二特征序列输入至上下文特征编码器，得到上下文特征编码器输出的第二特征序列对应的编码特征；将编码特征输入至检测解码器，得到检测解码器输出的目标图像中各人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标；再根据检测解码器输出的人体外接矩形框坐标，确定编码特征对应的各人体实例的编码特征图；将编码特征图输入至姿态解码器，得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标，从而获取目标图像中人体实例的人体关键点位置，实现端到端的人体姿态估计，提升了人体姿态估计的效率。

下面对本发明提供的人体姿态估计装置进行描述，下文描述的人体姿态估计装置与上文描述的人体姿态估计方法可相互对应参照。

图8是本发明提供的人体姿态估计装置的结构示意图，如图8所示，该人体姿态估计装置800包括：获取模块801、姿态估计模块802；其中：

获取模块801，用于获取目标图像；

姿态估计模块802，用于将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息；其中，所述人体姿态估计模型，是基于样本行人场景图像进行训练后得到的，用于估计图像中人体姿态信息；所述人体姿态信息包括人体实例及对应的人体关键点位置。

本发明提供的人体姿态估计装置，通过获取目标图像，将目标图像输入至人体姿态估计模型，得到人体姿态估计模型输出的目标图像中人体姿态信息，从而获取目标图像中人体实例的人体关键点位置，实现端到端的人体姿态估计，提升了人体姿态估计的效率。

可选地，所述人体姿态估计模型，包括：主干网、上下文特征编码器、检测解码器和姿态解码器；其中，

所述主干网，用于提取所述目标图像的图像特征；

可选地，姿态估计模块802，具体用于：

可选地，所述人体姿态估计装置800，还包括：

第一确定模块，用于基于所述目标图像对应的位置嵌入向量集合及所述图像特征对应的第一特征序列，确定所述图像特征对应的第二特征序列。

可选地，所述人体姿态估计装置800，还包括：

第二确定模块，用于基于所述检测解码器输出的所述目标图像中各所述人体实例的人体外接矩形框坐标，确定所述编码特征对应的各所述人体实例的编码特征图。

可选地，所述姿态估计模块802，具体用于：

所述最优二分匹配采用公式（1）表示：

（1）

其中，

表示所有监督真值和人体姿态信息匹配方式的集合，

表示目标集合中第i个监督真值，

表示预测集合中第i个人体姿态信息，

表示损失函数。

图9是本发明提供的电子设备的结构示意图，如图9所示，该电子设备900可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行人体姿态估计方法，该方法包括：获取目标图像；将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息；其中，所述人体姿态估计模型，是基于样本行人场景图像进行训练后得到的，用于估计图像中人体姿态信息；所述人体姿态信息包括人体实例及对应的人体关键点位置。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的人体姿态估计方法，该方法包括：获取目标图像；将所述目标图像输入至人体姿态估计模型，得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息；其中，所述人体姿态估计模型，是基于样本行人场景图像进行训练后得到的，用于估计图像中人体姿态信息；所述人体姿态信息包括人体实例及对应的人体关键点位置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。