CN109711329A

CN109711329A - 姿态估计及网络训练方法、装置和系统及存储介质

Info

Publication number: CN109711329A
Application number: CN201811592616.7A
Authority: CN
Inventors: 李文博; 王志成; 俞刚
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-05-03
Anticipated expiration: 2038-12-25
Also published as: CN109711329B

Abstract

本发明实施例提供一种姿态估计网络的训练方法、装置和系统与姿态估计方法、装置和系统以及存储介质。训练方法包括：获取N₁个样本图像和标注数据；利用N₁个样本图像和标注数据对姿态估计网络进行训练，其中，利用N₁个样本图像和标注数据对姿态估计网络进行训练包括：在训练过程的每次迭代中，执行第二操作。利用第二操作可以针对难样本进行重点优化。因此，可以有效提高关节点的检测精度。

Description

姿态估计及网络训练方法、装置和系统及存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种姿态估计网络的训练方法、装置和系统以及存储介质与一种姿态估计方法、装置和系统以及存储介质。

背景技术

人体姿态估计是计算机视觉的一个重要分支，用于定位人体的各个关节点，如手肘、手腕、膝盖等。近些年来，随着神经网络和硬件设施的发展，人体关节点检测技术取得了长足的发展。但是，对于某些动作幅度大、姿势奇怪或罕见、有遮挡的难样本，现有的算法普遍效果较差，需要进一步提高检测精度。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种姿态估计网络的训练方法、装置和系统以及存储介质与一种姿态估计方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种姿态估计网络的训练方法。该方法包括：获取N₁个样本图像和标注数据，其中，标注数据包括与N₁个样本图像分别对应的关节点位置数据，N₁≥1；

利用N₁个样本图像和标注数据对姿态估计网络进行训练，其中，姿态估计网络包括M个U型网络结构，M个U型网络结构中的每一个包括下采样模块和上采样模块，并且第i个U型网络结构的下采样模块的输入数据基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得，其中，i＝2,3,……,M，并且其中，M≥2，N_i≤N₁；

其中，M个U型网络结构中的至少一个U型网络结构还包括热力图模块，利用N₁个样本图像和标注数据对姿态估计网络进行训练包括：在训练过程的每次迭代中，执行第二操作；

其中，第二操作包括第一损失计算操作和参数优化操作，

第一损失计算操作包括：

对于第一热力图集合中的每一组关节点热力图，

对于输出该组关节点热力图的第k个U型网络结构的输入数据所对应的N_k个样本图像中的每一个，

根据该组关节点热力图中与该样本图像的P个关节点分别对应的P个关节点热力图以及该样本图像的关节点位置数据，计算与该组关节点热力图相关联的、与该样本图像的P个关节点分别对应的P个损失值，其中，1≤k≤M，P≥2，第一热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的至少一组关节点热力图，同一U型网络结构输出的所有组关节点热力图中的每一组具有相同的分辨率且不同组具有不同的分辨率；

忽略P个损失值中除预定损失值以外的损失值，根据预定损失值，计算与该组关节点热力图相关联的、该样本图像的损失值，其中，预定损失值为P个损失值中最大的P_k个损失值，其中，1≤P_k＜P；

根据与该组关节点热力图相关联的、N_k个样本图像的损失值，计算与该组关节点热力图相关联的损失值；

参数优化操作包括：

根据与至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值，计算姿态估计网络的总损失值；

根据总损失值优化姿态估计网络的参数。

示例性地，对于M个U型网络结构中的每一个，该U型网络结构的下采样模块包括Q个卷积子模块，上采样模块包括Q-1个上采样子模块，该U型网络结构还包括与Q个卷积子模块一一对应的Q个连接支路，下采样模块的第q个卷积子模块用于输出第q组下采样特征图，第q个连接支路用于接收第q组下采样特征图并输出第q组支路特征图，上采样模块的第q个上采样子模块用于接收第q+1组上采样特征图并输出第q组上采样特征图，其中，

在1≤q＜Q的情况下，该U型网络结构的上采样模块中的第q个上采样子模块用于对第q+1组上采样特征图进行上采样，将上采样获得的特征图直接或经过卷积之后与第q组支路特征图进行结合，以获得第q组上采样特征图；在q＝1的情况下，将第q组上采样特征图输出至下一个U型网络结构；在1＜q＜Q的情况下，将第q组上采样特征图输出至上采样模块中的第q-1个上采样子模块；

在q＝Q的情况下，该U型网络结构的第q个连接支路输出的特征图为第q组上采样特征图；

其中，1≤q≤Q，Q≥2。

示例性地，利用N₁个样本图像和标注数据对姿态估计网络进行训练还包括：在训练过程的每次迭代中，还执行以下操作：

将第一特征图、第二特征图和第三特征图结合，其中，第一特征图基于第l个U型网络结构所对应的第q组下采样特征图中的、N_l+n个样本图像的特征图获得，第二特征图基于第l个U型网络结构所对应的第q组上采样特征图中的、N_l+n个样本图像的特征图获得，第三特征图基于第l+n个U型网络结构所对应的第q组下采样特征图中的、N_l+n个样本图像的特征图获得；

在1≤q＜Q的情况下，

将结合后的特征图输入第l+n个U型网络结构的下采样模块中的第q+1个卷积子模块；

在q＝Q的情况下，

将结合后的特征图输入第l+n个U型网络结构的第q个连接支路；

其中，1≤l≤M-1，1≤n≤M-l。

示例性地，l＝1,2,……,M-1，n＝1。

示例性地，第一特征图、第二特征图和第三特征图具有相同的通道数和分辨率；

利用N₁个样本图像和标注数据对姿态估计网络进行训练还包括：在训练过程的每次迭代中，还执行以下操作：

对第l个U型网络结构所对应的第q组下采样特征图中的、N_l+n个样本图像的特征图进行卷积处理，以获得第一特征图；和/或，

对第l个U型网络结构所对应的第q组上采样特征图中的、N_l+n个样本图像的特征图进行卷积处理，以获得第二特征图；和/或，

确定第l+n个U型网络结构所对应的第q组下采样特征图中的、N_l+n个样本图像的特征图为第三特征图；

将第一特征图、第二特征图和第三特征图结合包括：将第一特征图、第二特征图和第三特征图中的对应元素相加。

示例性地，对于M个U型网络结构中的每一个，该U型网络结构所对应的第q组下采样特征图的分辨率小于该U型网络结构所对应的第q-1组下采样特征图的分辨率，并且该U型网络结构所对应的第q组下采样特征图的通道数大于该U型网络结构所对应的第q-1组下采样特征图的通道数。

示例性地，第g个U型网络结构的热力图模块包括S_g个卷积子模块，S_g个卷积子模块分别与S_g组上采样特征图相对应，其中，1≤g≤M，1≤S_g≤Q；

将第g个U型网络结构所对应的S_g组上采样特征图分别输入S_g个卷积子模块中的对应卷积子模块，以获得S_g个卷积子模块分别输出的S_g组关节点热力图。

示例性地，S_g＝Q。

示例性地，利用N₁个样本图像和标注数据对姿态估计网络进行训练还包括：在训练过程的每次迭代中，还执行以下第二损失计算操作：

对于第二热力图集合中的每一组关节点热力图，

对于输出该组关节点热力图的第h个U型网络结构的输入数据所对应的N_h个样本图像中的每一个，

根据该组关节点热力图中与该样本图像的P个关节点分别对应的P个关节点热力图以及该样本图像的关节点位置数据，计算与该组关节点热力图相关联的、与该样本图像的P个关节点分别对应的P个损失值，其中，1≤h≤M，第二热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的至少一组关节点热力图；

对P个损失值进行加权平均，以获得与该组关节点热力图相关联的、该样本图像的损失值；

对与该组关节点热力图相关联的、N_h个样本图像的损失值进行加权求和，以获得与该组关节点热力图相关联的损失值。

示例性地，第一热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图。

示例性地，第一热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的部分组关节点热力图，第二热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的、除第一热力图集合以外的关节点热力图。

示例性地，第一热力图集合包括至少一个U型网络结构中的每个U型网络结构输出的分辨率最大的一组关节点热力图。

示例性地，忽略P个损失值中除预定损失值以外的损失值，根据预定损失值，计算与该组关节点热力图相关联的、该样本图像的损失值包括：

对预定损失值进行加权平均，以获得与该组关节点热力图相关联的、该样本图像的损失值；和/或

根据与该组关节点热力图相关联的、N_k个样本图像的损失值，计算与该组关节点热力图相关联的损失值包括：

对与该组关节点热力图相关联的、N_k个样本图像的损失值进行加权求和，以获得与该组关节点热力图相关联的损失值；和/或

根据与至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值，计算姿态估计网络的总损失值包括：

对与至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值进行加权求和，以获得总损失值。

示例性地，N_i＝N₁，i＝2,3,……,M。

根据本发明另一方面，提供了一种姿态估计方法。该方法包括：获取待处理图像；以及将待处理图像输入姿态估计网络，以获得与待处理图像中的关节点的位置相关的位置预测信息，其中，姿态估计网络采用上述姿态估计网络的训练方法训练获得。

根据本发明另一方面，提供了一种姿态估计网络的训练装置，包括：获取模块，用于获取N₁个样本图像和标注数据，其中，标注数据包括与N₁个样本图像分别对应的关节点位置数据，N₁≥1；

训练模块，用于利用N₁个样本图像和标注数据对姿态估计网络进行训练，其中，姿态估计网络包括M个U型网络结构，M个U型网络结构中的每一个包括下采样模块和上采样模块，并且第i个U型网络结构的下采样模块的输入数据基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得，其中，i＝2,3,……,M，并且其中，M≥2，N_i≤N₁；

其中，M个U型网络结构中的至少一个U型网络结构还包括热力图模块，训练模块包括：执行子模块，用于在训练过程的每次迭代中，执行第二操作；

其中，第二操作包括第一损失计算操作和参数优化操作，

第一损失计算操作包括：

对于第一热力图集合中的每一组关节点热力图，

参数优化操作包括：

根据总损失值优化姿态估计网络的参数。

根据本发明另一方面，提供了一种姿态估计装置，包括：获取模块，用于获取待处理图像；以及输入模块，用于将待处理图像输入姿态估计网络，以获得与待处理图像中的关节点的位置相关的位置预测信息，其中，姿态估计网络采用上述姿态估计网络的训练方法训练获得。

根据本发明另一方面，提供了一种姿态估计网络的训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述姿态估计网络的训练方法。

根据本发明另一方面，提供了一种姿态估计系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述姿态估计方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述姿态估计网络的训练方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述姿态估计方法。

根据本发明实施例的姿态估计网络的训练方法、装置、系统和存储介质以及姿态估计方法、装置、系统和存储介质，在训练过程的每次迭代中，执行第二操作。第二操作可以至少部分地忽略检测效果较好的关节点，将某一样本图像中的检测效果不够好的关节点筛选出来并重点针对这些关节点进行损失回传，这样可以重点优化难关节点的检测效果。利用第二操作来实现姿态估计网络的训练，可以针对难样本进行重点优化。因此，根据本发明实施例的方法，可以有效提高关节点的检测精度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的姿态估计网络的训练方法和装置或者姿态估计方法和装置的示例电子设备的示意性框图；

图2a示出根据本发明一个实施例的姿态估计网络的训练方法的示意性流程图；

图2b示出根据本发明一个实施例的第一操作的示意性流程图；

图2c示出根据本发明一个实施例的第二操作的示意性流程图；

图3示出根据本发明一个实施例的姿态估计网络的示意图；

图4示出根据本发明一个实施例的单个U型网络结构的示意图；

图5示出根据本发明一个实施例的姿态估计方法的示意性流程图；

图6示出根据本发明一个实施例的姿态估计网络的训练装置的示意性框图；

图7示出根据本发明一个实施例的姿态估计装置的示意性框图；

图8示出根据本发明一个实施例的姿态估计网络的训练系统的示意性框图；以及

图9示出根据本发明一个实施例的姿态估计系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决难样本的检测效果不理想的问题，本发明实施例提供了一种姿态估计网络的训练方法和一种姿态估计方法。本文所述的样本可以理解为行人或者包含行人的图像。难样本可以理解为具有诸如动作幅度大、姿态怪异或罕见、被遮挡等问题导致关节点检测效果不够理想，无法达到预定要求的行人或行人图像。可以理解，对于具有动作幅度大、姿态怪异或罕见、被遮挡等问题的行人来说，该行人整体(该行人的关节点综合起来)与该行人的某个或某些特定关节点均有可能检测效果不好，因此，可以针对行人层面和关节点层面这两种层面进行难样本的挖掘和优化。下文用难样本图像表示整体检测效果不好的行人或行人图像，用难关节点表示检测效果不好的关节点，这两种情况均属于难样本。

根据本发明实施例的姿态估计网络训练方法，在训练过程的每次迭代中，执行第一操作和/或第二操作。第一操作可以重点优化难样本图像的检测效果。第二操作可以重点优化难关节点的检测效果。利用第一操作和第二操作中的一者或两者来实现姿态估计网络的训练，可以有效提高姿态估计网络针对难样本的检测精度。因此，采用训练获得的姿态估计网络进行姿态估计，可以获得精度更高的姿态估计结果。根据本发明实施例的姿态估计网络的训练方法和装置以及姿态估计方法和装置可以应用于任何需要进行姿态估计的领域，例如人机交互、教育、虚拟增强现实、娱乐、动画等领域。

首先，参照图1来描述用于实现根据本发明实施例的姿态估计网络的训练方法和装置或者姿态估计方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置110可以采集图像，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是单独的相机或移动终端中的摄像头等。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的姿态估计网络的训练方法和装置或者姿态估计方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2a-2c描述根据本发明实施例的姿态估计网络的训练方法。图2a示出根据本发明一个实施例的姿态估计网络的训练方法200的示意性流程图。如图2a所示，姿态估计网络的训练方法200包括以下步骤S210和S220。

在步骤S210，获取N₁个样本图像和标注数据，其中，标注数据包括与N₁个样本图像分别对应的关节点位置数据，N₁≥1。

样本图像可以是包含单个行人的图像。标注数据可以包括与每个样本图像相对应的、用于指示该样本图像上的行人的每个关节点所在位置的关节点位置数据。例如，可以预先通过人工或其他方式对每个样本图像上的行人的关节点进行位置标注，以获得标注数据。

本文所述的关节点的类型和数目可以根据需要设定，例如，关节点可以包括但不限于：头部、肩部(包括左肩和右肩)、手肘(包括左手肘和右手肘)、手掌(包括左手掌和右手掌)、腰部、膝盖(包括左膝和右膝)、脚(包括左脚和右脚)，等等。

比较可取的是，所有样本图像的尺寸可以是相同的。如果初始获得的行人图像是大小不一的，可以通过缩放和/或裁剪等方式将行人图像调整为固定尺寸，以获得所需的样本图像。

示例性地，可以利用行人检测网络，例如Megdet网络，检测初始获得的行人图像中行人的位置。随后，可以将每个行人从初始获得的行人图像上截取下来，并缩放到固定尺寸，从而获得若干包含单个行人的图像作为样本图像。

在步骤S220，利用N₁个样本图像和标注数据对姿态估计网络进行训练，其中，姿态估计网络包括M个U型网络结构，M个U型网络结构中的每一个包括下采样模块和上采样模块，并且第i个U型网络结构的下采样模块的输入数据基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得，其中，i＝2,3,……,M，并且其中，M≥2，N_i≤N₁；其中，M个U型网络结构中的至少一个U型网络结构还包括热力图模块，利用N₁个样本图像和标注数据对姿态估计网络进行训练(步骤S220)包括：在训练过程的每次迭代中，执行第二操作S224。

可选地，利用N₁个样本图像和标注数据对姿态估计网络进行训练(步骤S220)还可以包括：在训练过程的每次迭代中，还执行第一操作S222。

示例性地，至少一个U型网络结构可以是一个或多个U型网络结构。在本文的描述中，“至少一个U型网络”和“一个或多个U型网络结构”具有同等含义，即指的是同一批U型网络结构。至少一个U型网络结构中的每一个可以包括热力图模块。

图2b示出根据本发明一个实施例的第一操作222的示意性流程图。如图2b所示，第一操作222包括步骤S2222和S2224。

在步骤S2222，根据第j个U型网络结构的热力图模块输出的N_j个样本图像的关节点热力图以及N_j个样本图像的关节点位置数据，计算N_j个样本图像中的每一个的关节点检测评分，其中，1≤j≤M-1。第j个U型网络结构是具有热力图模块的U型网络结构，即，其属于一个或多个U型网络结构。

在步骤S2224，忽略第j个U型网络结构的上采样模块输出的特征图中除预定特征图以外的特征图，基于预定特征图，获得第j+1个U型网络结构的下采样模块的输入数据，其中，预定特征图为与关节点检测评分最低的N_j+1个样本图像相对应的特征图，1≤N_j+1＜N_j。

此外，第一操作222还可以包括以下步骤：将第j+1个U型网络结构的输入数据输入第j+1个U型网络结构的下采样模块。

图2c示出根据本发明一个实施例的第二操作224的示意性流程图。如图2c所示，第二操作224包括第一损失计算操作和参数优化操作。第一损失计算操作包括步骤S2240、S2242和S2244，参数优化操作包括步骤S2246和S2248。

在步骤S2240，对于第一热力图集合中的每一组关节点热力图，对于输出该组关节点热力图的第k个U型网络结构的输入数据所对应的N_k个样本图像中的每一个，根据该组关节点热力图中与该样本图像的P个关节点分别对应的P个关节点热力图以及该样本图像的关节点位置数据，计算与该组关节点热力图相关联的、与该样本图像的P个关节点分别对应的P个损失值，其中，1≤k≤M，P≥2，第一热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的至少一组关节点热力图，同一U型网络结构输出的所有组关节点热力图中的每一组具有相同的分辨率且不同组具有不同的分辨率。第k个U型网络结构是具有热力图模块的U型网络结构，即，其属于一个或多个U型网络结构。

在步骤S2242，对于第一热力图集合中的每一组关节点热力图，对于输出该组关节点热力图的第k个U型网络结构的输入数据所对应的N_k个样本图像中的每一个，忽略P个损失值中除预定损失值以外的损失值，根据预定损失值，计算与该组关节点热力图相关联的、该样本图像的损失值，其中，预定损失值为P个损失值中最大的P_k个损失值，其中，1≤P_k＜P。

在步骤S2244，对于第一热力图集合中的每一组关节点热力图，根据与该组关节点热力图相关联的、N_k个样本图像的损失值，计算与该组关节点热力图相关联的损失值。

在步骤S2246，根据与至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值，计算姿态估计网络的总损失值。

在步骤S2248，根据总损失值优化姿态估计网络的参数。

下面结合图3和图4描述根据本发明实施例的姿态估计网络。

本文描述的姿态估计网络是一种迭代U型网络，其可以包括多个U型网络结构。图3示出根据本发明一个实施例的姿态估计网络的示意图。如图3所示，姿态估计网络可以包括M个阶段的U型网络结构，每个阶段的网络结构与单个U型网络(U-Net)的网络结构类似。U-Net这种网络结构可以将低分辨率高语义信息的特征和高分辨率低语义信息的特征融合在一起，从而有利于得到高分辨率高语义信息的特征。

为方便描述，本文将一个阶段的U型网络结构称为一个U型网络结构。图4示出根据本发明一个实施例的单个U型网络结构的示意图。

参照图4，可知U型网络结构可以包括最左侧的下采样模块和中间的上采样模块。U型网络结构可以理解为一种编码器-解码器结构，下采样模块是编码器(也可以称为收缩路径)，上采样模块是解码器(也可以称为扩张路径)。编码器可以逐渐减少池化层的空间维度，解码器可以逐步修复物体的细节和空间维度。由于编码器部分的池化过程会造成信息丢失，在解码器部分通过上采样生成的特征图一般较为粗糙，因此可以在编码器和解码器之间引入跳跃连接(shortcut)来改善上采样的粗糙程度，帮助解码器更好地修复目标的细节。

在图4中，实线长方体代表特征图(feature map)，虚线长方体代表关节点热力图。“3×3”、“1×1”分别代表卷积核为3×3和1×1大小的卷积操作。

在图4中，最左侧的DS1、DS2、DS3、DS4分别代表通过下采样获得的4组不同分辨率的特征图(为描述方便，本文将其称为下采样特征图)，每组特征图由对应的卷积子模块(未示出)输出，即，单个U型网络结构可以包括4个卷积子模块。示例性地，下采样模块的每个卷积子模块可以包括任何合适数目及大小的卷积层、池化层等。下采样模块整体可以使输入的图像或特征图的分辨率减小，但是并不一定经过每个卷积子模块均会减小。例如，第1个卷积子模块可以不对分辨率进行调整，即其输入和输出的分辨率可以是一样大的。

类似地，中间的US1、US2、US3、US4分别代表上采样涉及的4组不同分辨率的特征图(为描述方便，本文将其称为上采样特征图)，除最上面的一组特征图US1以外，剩余每组特征图输入对应的上采样子模块进行上采样、卷积等操作，即，单个U型网络结构可以包括3个上采样子模块。示例性地，上采样模块的每个上采样子模块可以包括任何合适数目及大小的上采样层、卷积层等。例如，上采样层可以通过插值等方式使特征图的分辨率增大，从而实现上采样。在图4所示的示例中，每个上采样子模块包括上采样层和卷积层，每组上采样特征图(例如US3)经过上采样之后，再经过一次卷积核大小为1×1的卷积，随后再与左侧连接支路(例如S3)传输过来的支路特征图结合，才可以获得上一组上采样特征图(例如US2)。上采样模块整体可以使输入的图像或特征图的分辨率增大。

最右侧的HM1、HM2、HM3、HM4分别代表通过热力图模块获得的4组关节点热力图。4组上采样特征图US1、US2、US3、US4分别输入热力图模块的4个卷积子模块中，可以分别获得4组关节点热力图HM1、HM2、HM3、HM4。如图4所示，热力图模块的每个卷积子模块可以包括卷积核大小分别为3×3、1×1的两个卷积层。

示例性地，相对应的(图4中处于平行位置的)特征图和热力图可以具有相同的分辨率。例如，DS1、US1和HM1的分辨率是相同的，例如都是初始输入的样本图像的1/4，DS2、US2和HM2的分辨率是相同的，例如都是初始输入的样本图像的1/8，依此类推。

在图4所示的示例中，下采样模块和上采样模块之间存在四个shortcut，分别示出为S1、S2、S3和S4，本文将这四个shortcut称为连接支路。本领域技术人员可以理解，每个shortcut是从U型网络结构的下采样模块到上采样模块的一种快捷连接方式，本文不对此进行赘述。示例性地，每个连接支路可以是直接连接支路或者是包括卷积层在内的连接支路。也就是说，第q组下采样特征图可以直接输入第q个上采样子模块进行特征图结合，或者可以经过卷积之后，再输入第q个上采样子模块进行特征图结合。在图4所示的示例中，每个连接支路包括一个卷积核大小为1×1的卷积层。

需理解，图4仅是一种原理上的示意图，U型网络结构在实现时可能存在一些细节上的变化。例如，下采样模块中的卷积子模块、上采样模块中的上采样子模块以及热力图模块中的卷积子模块的数目均可以是任意的，这些数目可以进一步增加或减少，本发明不对此进行限制。

如图4所示，前一个U型网络结构的上采样模块输出的特征图可以传输至后一个U型网络结构的下采样模块的输入端处，即，第i(i＝2,3,……,M)个U型网络结构的下采样模块的输入数据可以基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得。

在一个示例中，可以将第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图直接作为第i个U型网络结构的下采样模块的输入数据，即，将第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图直接输入第i个U型网络结构的下采样模块进行处理。在另一个示例中，可以将第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图进行进一步的处理，例如进行卷积、池化等操作，以获得经进一步处理的特征图，并将该经进一步处理的特征图作为第i个U型网络结构的下采样模块的输入数据。

上文描述了第i个U型网络结构的下采样模块的输入数据的示例性生成方式，但是其并非对本发明的限制，本发明可以采用其他合适的方式来基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得第i个U型网络结构的下采样模块的输入数据。

需注意，本文描述的第i个U型网络结构的下采样模块的输入数据是指从第i个U型网络结构的下采样模块中的最浅层卷积子模块(按照本文描述的顺序，为第1个卷积子模块)的输入端处输入的数据。

总之，第i个U型网络结构的下采样模块的输入数据是基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得的，因此，第i个U型网络结构的输入数据与N_i个样本图像相对应或说相关联。在姿态估计网络的训练过程中，在执行本文描述的第一操作的情况下，存在如下关系：1≤N_j+1＜N_j，其中，第j个U型网络结构为在其输出端处执行第一操作的U型网络结构。在姿态估计网络的训练过程中，在不执行第一操作，仅执行本文描述的第二操作的情况下，存在如下关系：N_i＝N₁，i＝2,3,……,M。也就是说，有可能姿态估计网络的M个U型网络结构全部处理相同数目(N₁个)样本图像的特征，也有可能靠后的U型网络结构处理比靠前的U型网络结构更少的样本图像的特征。

在姿态估计网络的一个或多个U型网络结构中，还可以包括额外的热力图模块(如图4所示)。包括热力图模块的U型网络结构可以是姿态估计网络中的部分U型网络结构，也可以是姿态估计网络中的全部U型网络结构。热力图模块可以用于输出用于指示样本图像中的关节点所在位置的关节点热力图。热力图模块的架构方式将在下文描述。

为了解决上述难样本的关节点检测效果差的问题，本发明提出一种对难样本进行在线挖掘，重点优化的方案。难样本的挖掘可以涉及两种层面，一个是行人层面，一个是关节点层面。

对于前者，本发明的设计思路为：在线挖掘出那些关节点检测评分(例如OKS)较低的行人，进行重点优化。具体来说，可以通过关节点检测评分衡量哪些行人的关节点定位不够准确，检测效果不够好。对于检测效果不好的行人，可以将其特征图继续传入下一阶段的U型网络结构，而对于检测效果较好的行人，可以不再将其特征图传入下一阶段。这样，可以逐步优化检测效果不好的行人，从而有利于对难样本进行重点优化。

对于后者，本发明的设计思路为：针对某个行人，着重学习损失值较高的关节点。具体来说，可以通过损失值来衡量单个行人的哪些关节点定位不够准确，检测效果不够好。对于检测效果不好的关节点，将其挑选出来，并在总损失值中着重考虑这些关节点而至少部分忽略那些检测效果好的关节点，在这一原则的基础上进行损失回传。这样，网络参数优化时可以重点考虑检测效果不好的关节点，从而有利于对难样本进行重点优化。

行人层面的难样本挖掘和优化可以通过第一操作实现，关节点层面的难样本挖掘和优化可以通过第二操作实现。

下面结合示例描述第一操作的实现方式和优点。

例如，假设初始输入姿态估计网络的样本图像的数目(即N₁)为10个，姿态估计网络的第1个U型网络结构不包括热力图模块，但是第2个U型网络结构包括热力图模块。示例性地，热力图模块可以至少包括与所属U型网络结构所对应的分辨率最大的一组上采样特征图(第1组上采样特征图)相对应的卷积子模块，其可以输出如图4所示的关节点热力图HM1。如上所述，在图4所示的示例中，热力图模块的每个卷积子模块包括一个3×3的卷积层以及一个1×1的卷积层，通过这两次卷积，可以得到热力图。可以理解，图4示出的各模块包含的网络层仅是示例而非对本发明的限制，各模块可以根据需要包括其他类型的网络层(例如一些池化层等)。

第1个U型网络结构输出特征图时，可以将其上采样模块输出的10个样本图像的特征图全部传输至第2个U型网络结构的下采样模块的输入端。而在第2个U型网络结构输出特征图时，可以根据第2个U型网络结构的热力图模块输出的10(即N₂)个样本图像的关节点热力图以及10个样本图像的标注好的关节点位置数据，分别计算这10个样本图像的OKS。随后，可以对计算获得的10个OKS进行排序，从中选出8(即N₃)个最低的OKS，并挑选出与这8个OKS分别对应的8个样本图像。随后，仅将第2个U型网络结构的上采样模块输出的特征图中的、与挑选出的8个样本图像相对应的特征图传输至第3个U型网络结构的下采样模块的输入端。

可以理解，在第j个U型网络结构为在其输出端处执行第一操作的U型网络结构的情况下，其输入第j+1个U型网络结构的特征图所对应的样本图像的数目N_j+1可以是预设的数目。

在一个实施例中，姿态估计网络的全部U型网络结构均可以包括热力图模块，在每个U型网络结构的输出端处，均计算OKS，并从中挑选OKS最低的预设数目的样本图像，仅将挑选出的样本图像的特征图输入下一U型网络结构进行后续处理。例如，姿态估计网络包括5个U型网络结构，从前到后的U型网络结构所处理的样本图像的数目分别为10、8、6、5、4，这样，姿态估计网络从前到后，所处理的样本图像越来越少，即越靠后的U型网络结构进一步处理越难的样本，这样可以逐步优化难样本的检测结果，从而可以提高难样本的检测精度。

在另一个实施例中，姿态估计网络中仅部分U型网络结构包括热力图模块，在这部分U型网络结构的输出端处，计算OKS，并从中挑选OKS最低的预设数目的样本图像，仅将挑选出的样本图像的特征图输入下一U型网络结构进行后续处理。例如，姿态估计网络包括5个U型网络结构，从前到后的U型网络结构所处理的样本图像的数目分别为10、10、8、6、6，这样，从整体上来讲，与前端的U型网络结构相比，后端的U型网络结构所处理的样本图像仍然是在减少的，这样也可以逐步优化难样本的检测结果，从而可以提高难样本的检测精度。

下面结合示例描述第二操作的实现方式和优点。

沿用上述示例，假设姿态估计网络的第1个U型网络结构不包括热力图模块，但是第2个U型网络结构包括热力图模块。示例性地，热力图模块可以至少包括与所属U型网络结构所对应的分辨率最大的一组上采样特征图(第1组上采样特征图)相对应的卷积子模块，其可以输出如图4所示的关节点热力图HM1。

第1个U型网络结构输出特征图时，可以将其输出的10个样本图像的特征图全部输入第2个U型网络，而不计算各样本图像的各关节点的损失值。而在第2个U型网络结构输出特征图时，对于10个样本图像中的每一个，可以根据第2个U型网络结构输出的分辨率最大的一组关节点热力图(如图4所示的HM1)以及该样本图像的标注好的关节点位置数据，分别计算该样本图像的各关节点的损失值。例如，假设需要对行人的15个关节点进行定位，则对于每个样本图像来说，可以获得15个关节点热力图，分别对应15个关节点。可以将15个关节点热力图分别与15个关节点对应的标注好的关节点位置数据进行损失函数运算，获得15个关节点分别对应的损失值。

随后，对于每个样本图像，可以对该样本图像的15个关节点分别对应的15个损失值进行排序，从中选出7(即P₂)个最大的损失值。随后，可以对这7个损失值进行加权平均，获得该样本图像的损失值。随后，可以对10个样本图像的损失值进行加权求和，获得与第2个U型网络结构的第1组关节点热力图相关联的损失值。假设第3个U型网络结构也包括热力图模块。在第3个U型网络结构中，处理的是挑选出的8个样本图像的特征，则可以仅根据这8个样本图像的损失值计算与第3个U型网络结构输出的第1组关节点热力图相关联的损失值。

假设，姿态估计网络仅包括上述三个U型网络结构，并且第2个U型网络结构和第3个U型网络结构均仅输出一组关节点热力图，则可以对与第2个U型网络结构的第1组关节点热力图相关联的损失值和与第3个U型网络结构的第1组关节点热力图相关联的损失值进行加权求和，以获得整个姿态估计网络的总损失值。随后，可以根据总损失值优化姿态估计网络的参数。上述过程可以在每次迭代过程中重复进行，直至姿态估计网络收敛，即姿态估计网络的训练完成为止。

假设，姿态估计网络仅包括上述三个U型网络结构，但是第2个U型网络结构和第3个U型网络结构均输出多组关节点热力图，则还可以计算与第2个U型网络结构和第3个U型网络结构的剩余组关节点热力图相关联的损失值。计算与任一剩余组关节点热力图相关联的损失值时，可以采用第一损失计算操作，也可以采用下文描述的第二损失计算操作，还可以采用其他合适的损失计算操作。随后，可以对与第2个U型网络结构的所有组关节点热力图分别关联的损失值和与第3个U型网络结构的所有组关节点热力图分别关联的损失值进行加权求和，以获得整个姿态估计网络的总损失值。

可以理解，在第k个U型网络结构为在其输出端处执行第二操作的U型网络结构的情况下，其所对应的P_k可以是预设的数目。可选地，对于所有执行第二操作的U型网络结构来说，P_k可以是相等的。

示例性地，第j个U型网络结构可以是包括热力图模块的一个或多个U型网络结构中的任一个U型网络结构。可选地，可以将包括热力图模块的一个或多个U型网络结构中的每一个均视为第j个U型网络结构，执行第一操作。可选地，可以将包括热力图模块的一个或多个U型网络结构中的部分U型网络结构中的每一个视为第j个U型网络结构，执行第一操作。

示例性地，第k个U型网络结构可以是包括热力图模块的一个或多个U型网络结构中的任一个U型网络结构。可选地，可以将包括热力图模块的一个或多个U型网络结构中的每一个均视为第k个U型网络结构，执行第二操作。可选地，可以将包括热力图模块的一个或多个U型网络结构中的部分U型网络结构中的每一个视为第k个U型网络结构，执行第二操作。

第一操作和第二操作可以在相同的U型网络结构的输出端处执行，也可以在不同的U型网络结构的输出端处执行。

本文用OKS作为关节点检测评分的示例来描述本发明，然而这并非对本发明的限制。关节点检测评分可以采用任何合适的现有的或将来可能出现的关节点检测评分的计算方式计算获得，本文不赘述。

行人层面和关节点层面的难样本挖掘和优化可以同时实现，也可以择一实现。在一个实施例中，可以仅执行第一操作。在另一个实施例中，可以仅执行第二操作。在又一个实施例中，可以同时执行第一操作和第二操作。

根据本发明实施例的姿态估计网络训练方法，在训练过程的每次迭代中，执行第一操作和/或第二操作。第一操作可以将前端的U型网络结构中检测效果不够好的样本图像筛选出来并传递到后端的U型网络结构进行重点学习，从而可以逐步优化难样本图像的检测效果。第二操作可以至少部分地忽略检测效果较好的关节点，将某一样本图像中的检测效果不够好的关节点筛选出来并重点针对这些关节点进行损失回传，这样可以重点优化难关节点的检测效果。利用第一操作和第二操作中的一者或两者来实现姿态估计网络的训练，可以针对难样本进行重点优化。因此，采用根据本发明实施例的姿态估计网络训练方法，可以有效提高姿态估计网络针对难样本的检测精度。实际上，根据发明人研究，采用根据本发明实施例的姿态估计网络训练方法训练获得的姿态估计网络在世界多个权威的数据集上都取得了最优结果。

示例性地，根据本发明实施例的姿态估计网络的训练方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的姿态估计网络的训练方法可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的姿态估计网络的训练方法还可以分布地部署在服务器端(或云端)和个人终端处。例如，可以在客户端获取样本图像，客户端将获取的图像传送给服务器端(或云端)，由服务器端(或云端)进行姿态估计网络的训练。

根据本发明实施例，对于M个U型网络结构中的每一个，该U型网络结构的下采样模块包括Q个卷积子模块，上采样模块包括Q-1个上采样子模块，该U型网络结构还包括与Q个卷积子模块一一对应的Q个连接支路，下采样模块的第q个卷积子模块用于输出第q组下采样特征图，第q个连接支路用于接收第q组下采样特征图并输出第q组支路特征图，上采样模块的第q个上采样子模块用于接收第q+1组上采样特征图并输出第q组上采样特征图，其中，在q＝1的情况下，该U型网络结构的上采样模块中的第q个上采样子模块用于对第q+1组上采样特征图进行上采样，将上采样获得的特征图直接或经过卷积之后与第q组支路特征图进行结合，以获得第q组上采样特征图，并将第q组上采样特征图输出至下一个U型网络结构；

在1＜q＜Q的情况下，该U型网络结构的上采样模块中的第q个上采样子模块用于对第q+1组上采样特征图进行上采样，将上采样获得的特征图直接或经过卷积之后与第q组支路特征图进行结合，以获得第q组上采样特征图，并将第q组上采样特征图输出至上采样模块中的第q-1个上采样子模块；

其中，1≤q≤Q，Q≥2。

参考图4的示例，U型网络结构的下采样模块可以包括4个卷积子模块，分别用于输出下采样特征图DS1、DS2、DS3、DS4。第1个卷积子模块输出一组下采样特征图DS1，并将该组特征图输入第2个卷积子模块；第2个卷积子模块输出一组下采样特征图DS2，并将该组特征图输入第3个卷积子模块；第3个卷积子模块输出一组下采样特征图DS3，并将该组特征图输入第4个卷积子模块；第4个卷积子模块输出一组下采样特征图DS4。

同时，U型网络结构还包括4个连接支路S1、S2、S3、S4。U型网络结构的下采样模块的4个卷积子模块还可以分别将下采样特征图DS1、DS2、DS3、DS4一一对应地输入4个连接支路S1、S2、S3、S4，在4个连接支路中分别进行卷积(或者无卷积，直接连接)。4个连接支路S1、S2、S3、S4分别输出4组支路特征图。

上采样模块可以包括3个上采样子模块。对于第3个上采样子模块来说，其可以接收第4组上采样特征图US4，该第4组上采样特征图即为S4输出的第4组支路特征图。第3个上采样子模块对第4组特征图进行上采样、卷积等操作之后，与S3传输过来的第3组支路特征图结合，结合后的特征图即为第3组上采样特征图US3。对于第2个上采样子模块来说，其可以接收第3组上采样特征图US3，对该组特征图进行上采样、卷积等操作之后，与S2传输过来的第2组支路特征图结合，结合后的特征图即为第2组上采样特征图US2。对于第1个上采样子模块来说，其可以接收第2组上采样特征图US2，对该组特征图进行上采样、卷积等操作之后，与S1传输过来的第1组支路特征图结合，结合后的特征图即为第1组上采样特征图US1。第1个上采样子模块可以将第1组上采样特征图US1输出至下一个U型网络结构的下采样模块。示例性地，第i-1个U型网络结构可以将其第1组上采样特征图US1输入至第i个U型网络结构的下采样模块的第1个卷积子模块，第i个U型网络结构的下采样模块的第1个卷积子模块对第i-1个U型网络结构输出的第1组上采样特征图US1进行诸如卷积等处理之后，可以输出第i个U型网络结构所对应的第1组下采样特征图DS1，其中，i＝2,3,……,M。

示例性地，Q≥2。比较符合实际应用需求的是，Q＝4。

示例性地，在上采样子模块中进行的结合可以是将特征图在通道维度上进行拼接，其可以采用Concat层实现。本领域技术人员可以理解在通道维度上进行拼接的实现方法，本文不赘述。例如，将上采样获得的特征图直接或经过卷积之后与第q组支路特征图进行结合可以包括：将上采样获得的特征图与第q组支路特征图在通道维度上进行拼接，以获得第q组上采样特征图；或者，将上采样获得的特征图经过卷积之后获得的经卷积特征图与第q组支路特征图在通道维度上进行拼接，以获得第q组上采样特征图。

在本文中，为描述方便，按照网络深度从浅到深的方式对下采样模块的卷积子模块进行排序，按照网络深度从深到浅的方式对上采样模块的上采样子模块进行排序，这仅是一种示例而非对本发明的限制。

根据本发明实施例，利用N₁个样本图像和标注数据对姿态估计网络进行训练(步骤S220)还可以包括：在训练过程的每次迭代中，还执行以下操作：

在1≤q＜Q的情况下，

在q＝Q的情况下，

其中，1≤l≤M-1，1≤n≤M-l。

在U型网络结构中反复进行上下采样会造成信息损失，为了减少这种信息损失，可以采用信息流连接方式将前端的U型网络结构的特征图信息添加到后端的U型网络结构。

图3示出的虚线倾斜箭头就是信息流的一种示意表示。图4中采用部分实线箭头，部分虚线箭头的方式示出信息流。

例如，第2个U型网络结构的下采样模块的第1个卷积子模块输出的第1组下采样特征图DS1可以直接或经过诸如卷积等操作之后，生成第一特征图，并将第一特征图传输至第3个U型网络结构的下采样模块的第2个卷积子模块的输入端处(参见图4的实线倾斜箭头指示的信息流路线)。此外，第2个U型网络结构的上采样模块的第1个上采样子模块输出的第1组上采样特征图US1可以直接或经过诸如卷积等操作之后，生成第二特征图，并将第二特征图传输至第3个U型网络结构的下采样模块的第2个卷积子模块的输入端处(参见图4的虚线倾斜箭头指示的信息流路线)。同时，第3个U型网络结构的下采样模块的第1个卷积子模块输出的第1组下采样特征图DS1可以作为第三特征图，传输至第3个U型网络结构的下采样模块的第2个卷积子模块的输入端处。

可以将上述三路特征图结合在一起之后，输入到第3个U型网络结构的下采样模块的第2个卷积子模块。结合可以是将三路特征图中的元素对应相加。三路特征图的分辨率和通道数都是一致的，如果不一致，可以使其中的一路或多路特征图经过一些卷积层等，将三路特征图的分辨率和通道数调整为一致。

又例如，第2个U型网络结构的下采样模块的第4个卷积子模块输出的第4组下采样特征图DS4可以直接或经过诸如卷积等操作之后，生成第一特征图，并将第一特征图传输至第3个U型网络结构的第4个连接支路的输入端处(参见图4的实线倾斜箭头指示的信息流路线)。此外，输入第2个U型网络结构的上采样模块的第3个上采样子模块的第4组上采样特征图US4可以直接或经过诸如卷积等操作之后，生成第二特征图，并将第二特征图传输至第3个U型网络结构的第4个连接支路的输入端处(参见图4的虚线倾斜箭头指示的信息流路线)。同时，第3个U型网络结构的下采样模块的第4个卷积子模块输出的第4组下采样特征图DS4可以作为第三特征图，传输至第3个U型网络结构的第4个连接支路的输入端处。

可以将上述三路特征图结合在一起之后，输入到第3个U型网络结构的第4个连接支路。结合可以是将三路特征图中的元素对应相加。三路特征图的分辨率和通道数都是一致的，如果不一致，可以使其中的一路或多路特征图经过一些卷积层等，将三路特征图的分辨率和通道数调整为一致。

在一个实施例中，可以在两个相邻U型网络结构之间采用上述信息流连接，即，n＝1。并且，可选地，可以在姿态估计网络的所有两两相邻的U型网络结构之间均采用上述信息流连接，即，l＝1,2,……,M-1，n＝1。

在另一个实施例中，可以跨U型网络结构采用上述信息流连接，即，n＞1。例如，第1个U型网络结构可以与第3个U型网络结构之间采用信息流连接。当然，相邻U型网络结构的信息流连接的示例与跨U型网络结构的信息流连接的示例可以在同一实施例中实现，例如，第1个U型网络可以与第2个U型网络结构之间采用信息流连接，第2个U型网络可以与第4个U型网络之间采用信息流连接。

根据本发明实施例，第一特征图、第二特征图和第三特征图具有相同的通道数和分辨率；

利用N₁个样本图像和标注数据对姿态估计网络进行训练(步骤S220)还可以包括：在训练过程的每次迭代中，还执行以下操作：

如上所述，可以将三路特征图的分辨率和通道数调整为一致，然后将调整后的特征图结合在一起。如图4所示，前一U型网络结构的每组上采样特征图在参与结合之前，均经过了3×3大小的卷积。

根据本发明实施例，对于M个U型网络结构中的每一个，该U型网络结构所对应的第q组下采样特征图的分辨率小于该U型网络结构所对应的第q-1组下采样特征图的分辨率，并且该U型网络结构所对应的第q组下采样特征图的通道数大于该U型网络结构所对应的第q-1组下采样特征图的通道数。

在每个U型网络结构的下采样模块中，从第一个卷积子模块至最后一个卷积子模块，输出的特征图的分辨率逐渐减小，通道数可以逐渐增加。例如，相邻两个卷积子模块相比，分辨率减小一倍，则通道数增加一倍。由于分辨率减小会带来信息损失，因此可以通过增加通道数来弥补这种损失。

在一个示例中，每个U型网络结构的下采样模块的第1个卷积子模块不调整特征图的分辨率，其余每个卷积子模块将特征图的分辨率缩小一倍，通道数增加一倍。例如，对于第i个U型网络结构来说，输入其的特征图的分辨率是原始的样本图像的分辨率的1/4，经过第1个卷积子模块的卷积之后，获得的特征图DS1的分辨率仍然是样本图像的分辨率的1/4。而剩余的特征图DS2、DS3、DS4的分辨率则分别是样本图像的分辨率的1/8、1/16、1/32，特征图DS2、DS3、DS4的通道数则是逐渐加倍的。上采样特征图US1、US2、US3、US4的分辨率分别是1/4、1/8、1/16、1/32，通道数则是一样的，例如都是256。

相应地，关节点热力图HM1、HM2、HM3、HM4的分辨率可以分别是1/4、1/8、1/16、1/32。在计算关节点检测评分或者损失值时，可以将关节点热力图与样本图像调整为一致的尺寸(即分辨率)。例如，在针对任一组关节点热力图计算关节点检测评分或者损失值时，可以将该组关节点热力图与样本图像均调整为样本图像的1/4大小，再计算关节点检测评分或者损失值。

根据本发明实施例，姿态估计网络还可以包括附加卷积模块，所述附加卷积模块可以用于接收初始输入姿态估计网络的N₁个样本图像，对N₁个样本图像进行卷积，以获得N₁个样本图像的经初始卷积的特征图。所述附加卷积模块还可以用于将N₁个样本图像的经初始卷积的特征图输入至第1个U型网络结构的下采样模块。示例性地，附加卷积模块输出的每个特征图的分辨率小于每个样本图像的分辨率，例如附加卷积模块输出的每个特征图的分辨率可以是每个样本图像的分辨率的1/4。

根据本发明实施例，第g个U型网络结构的热力图模块包括S_g个卷积子模块，S_g个卷积子模块分别与S_g组上采样特征图相对应，其中，1≤g≤M，1≤S_g≤Q；

第g个U型网络结构是具有热力图模块的U型网络结构，即，其属于一个或多个U型网络结构。

上文已经结合图4描述了热力图模块的结构和工作方式，此处不赘述。可选地，每个U型网络结构的热力图模块所包括的卷积子模块的数目可以根据需要设定，其可以与上采样特征图的组数目一致，即S_g＝Q，以输出与每组上采样特征图相对应的一组关节点热力图，也可以与上采样特征图的组数目不一致。例如，图4所示的示例中，热力图模块可以仅包括最上层的卷积子模块，用于输出分辨率最大的一组关节点热力图，也可以包括4个卷积子模块，分别用于输出4组不同分辨率的关节点热力图。与仅输出一组关节点热力图相比，输出多组不同分辨率的关节点热力图，可以将这些关节点热力图用于损失值计算等操作中，更多的损失值计算可以更好地利用上下文(context)信息，从而有利于训练出精度更高的姿态估计网络。

示例性地，S_g个卷积子模块可以至少包括与第g个U型网络结构所对应的第1组上采样特征图(分辨率最大的特征图)相对应的第1个卷积子模块。这样，第g个U型网络结构的热力图模块可以至少输出分辨率最大的一组关节点热力图，用于第一操作和/或第二操作。

根据本发明实施例，利用N₁个样本图像和标注数据对姿态估计网络进行训练(步骤S220)还包括：在训练过程的每次迭代中，还执行以下第二损失计算操作：

对于第二热力图集合中的每一组关节点热力图，

第h个U型网络结构是具有热力图模块的U型网络结构，即，其属于一个或多个U型网络结构。

第二损失计算操作是将每个样本的所有关节点的损失值均计算在内，而不进行难样本挖掘的操作。本领域技术人员可以理解这种损失计算方式，本文不做赘述。

继续参考图4所示的示例，分辨率最大的一组关节点热力图HM1可以采用第一损失计算操作来计算与其相关联的损失值，而其他三组关节点热力图HM2、HM3、HM4则可以采用第二损失计算操作计算与其相关联的损失值。在图3和图4中，用L2*loss表示采用第一损失计算操作计算的损失值(即基于难样本挖掘的L2损失)，用L2loss表示基于采用第二损失计算操作计算的损失值。图4所示的损失计算方式仅是示例而非限制，采用第一损失计算操作和采用第二损失计算操作的关节点热力图可以根据需要任意分配。

在对P个损失值进行加权平均时，权重可以根据需要设定。在一个示例中，P个损失值的权重均相等，例如均为1，这种情况下，相当于直接对P个损失值求平均值。类似地，在对与该组关节点热力图相关联的、N_h个样本图像的损失值(即N_h个损失值)进行加权求和时，权重也可以根据需要设定。示例性地，与该组关节点热力图相关联的、N_h个样本图像的损失值的权重可以相等，相等于直接对与该组关节点热力图相关联的、N_h个样本图像的损失值求和。

根据本发明实施例，在仅执行第一操作的情况下，第二热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图，利用N₁个样本图像和标注数据对姿态估计网络进行训练(步骤S220)还可以包括：在训练过程的每次迭代中，还执行参数优化操作。

在仅执行第一操作，不执行第二操作的情况下，可以针对所有组关节点热力图执行第二损失计算操作和参数优化操作。这样，主要从行人层面进行难样本的挖掘和优化。

根据本发明实施例，在执行第二操作的情况下，第一热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图。

在执行第二操作的情况下，可以针对所有组关节点热力图执行第一损失计算操作和参数优化操作。例如，可以针对所有U型网络结构的4组关节点热力图HM1、HM2、HM3、HM4均执行第一损失计算操作。最后，基于所有损失值执行参数优化操作。

根据本发明实施例，在执行第二操作的情况下，第一热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的部分组关节点热力图，第二热力图集合包括至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的、除第一热力图集合以外的关节点热力图。

在执行第二操作的情况下，还可以针对部分关节点热力图执行第一损失计算操作，针对另一部分关节点热力图执行第二损失计算操作。例如，可以针对所有U型网络结构的第1组关节点热力图HM1均执行第一损失计算操作，针对所有U型网络结构的剩余关节点热力图HM2、HM3、HM4均执行第二损失计算操作。最后，基于所有损失值执行参数优化操作。

根据本发明实施例，在执行第二操作的情况下，第一热力图集合包括至少一个U型网络结构中的每个U型网络结构输出的分辨率最大的一组关节点热力图。

上文已经描述了针对HM1执行第一损失计算操作的方式，不再赘述。

根据本发明实施例，忽略P个损失值中除预定损失值以外的损失值，根据预定损失值，计算与该组关节点热力图相关联的、该样本图像的损失值可以包括：

根据与该组关节点热力图相关联的、N_k个样本图像的损失值，计算与该组关节点热力图相关联的损失值可以包括：

根据与至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值，计算姿态估计网络的总损失值可以包括：

与第二损失计算操作类似地，在对预定损失值进行加权平均时，权重可以根据需要设定。在一个示例中，预定损失值的权重均相等，例如均为1，这种情况下，相当于直接对预定损失值求平均值。类似地，在对与该组关节点热力图相关联的、N_k个样本图像的损失值(即N_k个损失值)进行加权求和时，权重也可以根据需要设定。示例性地，与该组关节点热力图相关联的、N_k个样本图像的损失值的权重可以相等，相等于直接对与该组关节点热力图相关联的、N_k个样本图像的损失值求和。此外，在对与一个或多个U型网络结构输出的所有组关节点热力图分别关联的损失值进行加权求和，权重也可以根据需要设定。示例性地，与一个或多个U型网络结构输出的所有组关节点热力图分别关联的损失值的权重可以相等，相等于直接对与一个或多个U型网络结构输出的所有组关节点热力图分别关联的损失值求和。

根据本发明实施例，根据第j个U型网络结构的热力图模块输出的N_j个样本图像的关节点热力图以及N_j个样本图像的关节点位置数据，计算N_j个样本图像中的每一个的关节点检测评分(步骤S2222)可以包括：对于N_j个样本图像中的每一个，根据第j个U型网络结构的热力图模块输出的分辨率最大的一组关节点热力图中的、该样本图像的关节点热力图以及该样本图像的关节点位置数据，计算该样本图像的关节点检测评分。

如上所述，第j个U型网络结构的热力图模块可以包括一个或多个卷积子模块，分别输出一组或多组关节点热力图，每组关节点热力图可以包括N_j个样本图像的P个关节点分别对应的P个关节点热力图，即每组关节点热力图包括N_j×P个关节点热力图。同一组的关节点热力图具有相同的分辨率，不同组的关节点热力图具有不同的分辨率。可选地，在计算OKS时，可以主要考虑分辨率最大的那一组关节点热力图，如图4中的关节点热力图HM1。

根据本发明实施例，一个或多个U型网络结构的数目可以是至少两个。可选地，一个或多个U型网络结构的数目可以等于N₁，即，姿态估计网络的每个U型网络结构均可以包括热力图模块，用于输出关节点热力图。可选地，可以针对姿态估计网络的所有U型网络结构均执行第一操作。可选地，可以针对姿态估计网络的所有U型网络结构均执行第二操作。可选地，可以针对姿态估计网络的所有U型网络结构或者部分U型网络执行第一操作，同时针对姿态估计网络的所有U型网络结构或者部分U型网络执行第二操作。

根据本发明另一方面，提供一种姿态估计方法。图5示出根据本发明一个实施例的姿态估计方法500的示意性流程图。如图5所示，姿态估计方法500包括步骤S510和S520。

在步骤S510，获取待处理图像。

待处理图像可以是任何需要进行语义分割的图像。待处理图像可以是静态图像，也可以是视频中的视频帧。待处理图像可以是图像采集装置采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。

在步骤S520，将待处理图像输入姿态估计网络，以获得与待处理图像中的关节点的位置相关的位置预测信息，其中，姿态估计网络采用上述姿态估计网络的训练方法200训练获得。

示例性地，位置预测信息可以包括与待处理图像中的行人的所有关节点分别对应的关节点热力图。示例性地，对于每个关节点热力图，可以进行高斯模糊，随后取每个关节点热力图中值最大的点作为该关节点的预测坐标。随后，可以将每个关节点的预测坐标映射回原始的待处理图像，获得该关节点在待处理图像上的坐标。

相比常规的姿态估计网络，采用上述姿态估计网络的训练方法200训练获得的姿态估计网络的检测精度更高，尤其是在针对难样本的检测上，可以获得更好更优的检测结果。因此，根据本发明实施例的姿态估计方法可以有效提高姿态估计技术的检测精度。

示例性地，在获取待处理图像(步骤S510)之前，姿态估计方法500还可以包括：获取初始图像；对初始图像进行行人检测；以及从初始图像中提取包含目标行人的图像块，以获得待处理图像。

可选地，可以利用行人检测网络，例如Megdet网络，检测初始获得的行人图像中行人的位置。随后，可以将目标行人从初始获得的行人图像上截取下来，并缩放到固定尺寸，从而获得包含目标行人的图像作为待处理图像。

根据本发明另一方面，提供一种姿态估计网络的训练装置。图6示出了根据本发明一个实施例的姿态估计网络的训练装置600的示意性框图。

如图6所示，根据本发明实施例的姿态估计网络的训练装置600包括获取模块610和训练模块620。所述各个模块可分别执行上文中结合图2-4描述的姿态估计网络的训练方法的各个步骤/功能。以下仅对该姿态估计网络的训练装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块610用于获取N₁个样本图像和标注数据，其中，标注数据包括与N₁个样本图像分别对应的关节点位置数据，N₁≥1。获取模块610可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

训练模块620用于利用N₁个样本图像和标注数据对姿态估计网络进行训练，其中，姿态估计网络包括M个U型网络结构，M个U型网络结构中的每一个包括下采样模块和上采样模块，并且第i个U型网络结构的下采样模块的输入数据基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得，其中，i＝2,3,……,M，并且其中，M≥2，N_i≤N₁；

其中，第二操作包括第一损失计算操作和参数优化操作，

第一损失计算操作包括：

对于第一热力图集合中的每一组关节点热力图，

参数优化操作包括：

根据总损失值优化姿态估计网络的参数。

训练模块620可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明另一方面，提供一种姿态估计装置。图7示出了根据本发明一个实施例的姿态估计装置700的示意性框图。

如图7所示，根据本发明实施例的姿态估计装置700包括获取模块710和输入模块720。所述各个模块可分别执行上文中结合图5描述的姿态估计方法的各个步骤/功能。以下仅对该姿态估计装置700的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块710用于获取待处理图像。获取模块710可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

输入模块720用于将待处理图像输入姿态估计网络，以获得与待处理图像中的关节点的位置相关的位置预测信息，其中，姿态估计网络采用上述姿态估计网络的训练方法200训练获得。输入模块720可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图8示出了根据本发明一个实施例的姿态估计网络的训练系统800的示意性框图。姿态估计网络的训练系统800包括图像采集装置810、存储装置(即存储器)820、以及处理器830。

所述图像采集装置810用于采集样本图像。图像采集装置810是可选的，姿态估计网络的训练系统800可以不包括图像采集装置810。在这种情况下，可以利用其他图像采集装置采集样本图像，并将采集的样本图像发送给姿态估计网络的训练系统800。或者，可以利用其它外部设备(例如服务器等)直接将样本图像发送给姿态估计网络的训练系统800。

所述存储装置820存储用于实现根据本发明实施例的姿态估计网络的训练方法中的相应步骤的计算机程序指令。

所述处理器830用于运行所述存储装置820中存储的计算机程序指令，以执行根据本发明实施例的姿态估计网络的训练方法的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器830运行时用于执行以下步骤：获取N₁个样本图像和标注数据，其中，标注数据包括与N₁个样本图像分别对应的关节点位置数据，N₁≥1；

其中，第二操作包括第一损失计算操作和参数优化操作，

第一损失计算操作包括：

对于第一热力图集合中的每一组关节点热力图，

参数优化操作包括：

根据总损失值优化姿态估计网络的参数。

图9示出了根据本发明一个实施例的姿态估计系统900的示意性框图。姿态估计系统900包括图像采集装置910、存储装置(即存储器)920、以及处理器930。

所述图像采集装置910用于采集待处理图像。图像采集装置910是可选的，姿态估计系统900可以不包括图像采集装置910。在这种情况下，可以利用其他图像采集装置采集待处理图像，并将采集的待处理图像发送给姿态估计系统900。

所述存储装置920存储用于实现根据本发明实施例的姿态估计方法中的相应步骤的计算机程序指令。

所述处理器930用于运行所述存储装置920中存储的计算机程序指令，以执行根据本发明实施例的姿态估计方法的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器930运行时用于执行以下步骤：获取待处理图像；以及将待处理图像输入姿态估计网络，以获得与待处理图像中的关节点的位置相关的位置预测信息，其中，姿态估计网络采用上述姿态估计方法200训练获得。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的姿态估计网络的训练方法的相应步骤，并且用于实现根据本发明实施例的姿态估计网络的训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的姿态估计网络的训练装置的各个功能模块，和/或者可以执行根据本发明实施例的姿态估计网络的训练方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取N₁个样本图像和标注数据，其中，标注数据包括与N₁个样本图像分别对应的关节点位置数据，N₁≥1；

其中，第二操作包括第一损失计算操作和参数优化操作，

第一损失计算操作包括：

对于第一热力图集合中的每一组关节点热力图，

参数优化操作包括：

根据总损失值优化姿态估计网络的参数。

根据本发明实施例的姿态估计网络的训练系统中的各模块可以通过根据本发明实施例的实施姿态估计网络的训练的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的姿态估计方法的相应步骤，并且用于实现根据本发明实施例的姿态估计装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的姿态估计装置的各个功能模块，和/或者可以执行根据本发明实施例的姿态估计方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取待处理图像；以及将待处理图像输入姿态估计网络，以获得与待处理图像中的关节点的位置相关的位置预测信息，其中，姿态估计网络采用上述姿态估计网络的训练方法200训练获得。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的姿态估计网络的训练装置或者姿态估计装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种姿态估计网络的训练方法，包括：

获取N₁个样本图像和标注数据，其中，所述标注数据包括与所述N₁个样本图像分别对应的关节点位置数据，N₁≥1；

利用所述N₁个样本图像和所述标注数据对姿态估计网络进行训练，其中，所述姿态估计网络包括M个U型网络结构，所述M个U型网络结构中的每一个包括下采样模块和上采样模块，并且第i个U型网络结构的下采样模块的输入数据基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得，其中，i＝2,3,……,M，并且其中，M≥2，N_i≤N₁；

其中，所述M个U型网络结构中的至少一个U型网络结构还包括热力图模块，所述利用所述N₁个样本图像和所述标注数据对姿态估计网络进行训练包括：在训练过程的每次迭代中，执行第二操作；

其中，所述第二操作包括第一损失计算操作和参数优化操作，

所述第一损失计算操作包括：

对于第一热力图集合中的每一组关节点热力图，

根据该组关节点热力图中与该样本图像的P个关节点分别对应的P个关节点热力图以及该样本图像的关节点位置数据，计算与该组关节点热力图相关联的、与该样本图像的P个关节点分别对应的P个损失值，其中，1≤k≤M，P≥2，所述第一热力图集合包括所述至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的至少一组关节点热力图，同一U型网络结构输出的所有组关节点热力图中的每一组具有相同的分辨率且不同组具有不同的分辨率；

忽略所述P个损失值中除预定损失值以外的损失值，根据所述预定损失值，计算与该组关节点热力图相关联的、该样本图像的损失值，其中，所述预定损失值为所述P个损失值中最大的P_k个损失值，其中，1≤P_k＜P；

根据与该组关节点热力图相关联的、所述N_k个样本图像的损失值，计算与该组关节点热力图相关联的损失值；

所述参数优化操作包括：

根据与所述至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值，计算所述姿态估计网络的总损失值；

根据所述总损失值优化所述姿态估计网络的参数。

2.如权利要求1所述的方法，其中，对于所述M个U型网络结构中的每一个，该U型网络结构的下采样模块包括Q个卷积子模块，上采样模块包括Q-1个上采样子模块，该U型网络结构还包括与所述Q个卷积子模块一一对应的Q个连接支路，下采样模块的第q个卷积子模块用于输出第q组下采样特征图，第q个连接支路用于接收第q组下采样特征图并输出第q组支路特征图，上采样模块的第q个上采样子模块用于接收第q+1组上采样特征图并输出第q组上采样特征图，其中，

其中，1≤q≤Q，Q≥2。

3.如权利要求2所述的方法，其中，所述利用所述N₁个样本图像和所述标注数据对姿态估计网络进行训练还包括：在训练过程的每次迭代中，还执行以下操作：

将第一特征图、第二特征图和第三特征图结合，其中，所述第一特征图基于第l个U型网络结构所对应的第q组下采样特征图中的、N_l+n个样本图像的特征图获得，所述第二特征图基于所述第l个U型网络结构所对应的第q组上采样特征图中的、所述N_l+n个样本图像的特征图获得，所述第三特征图基于所述第l+n个U型网络结构所对应的第q组下采样特征图中的、所述N_l+n个样本图像的特征图获得；

在1≤q＜Q的情况下，

将结合后的特征图输入所述第l+n个U型网络结构的下采样模块中的第q+1个卷积子模块；

在q＝Q的情况下，

将结合后的特征图输入所述第l+n个U型网络结构的第q个连接支路；

其中，1≤l≤M-1，1≤n≤M-l。

4.如权利要求3所述的方法，其中，l＝1,2,……,M-1，n＝1。

5.如权利要求3所述的方法，其中，所述第一特征图、所述第二特征图和所述第三特征图具有相同的通道数和分辨率；

所述利用所述N₁个样本图像和所述标注数据对姿态估计网络进行训练还包括：在训练过程的每次迭代中，还执行以下操作：

对所述第l个U型网络结构所对应的第q组下采样特征图中的、N_l+n个样本图像的特征图进行卷积处理，以获得所述第一特征图；和/或，

对所述第l个U型网络结构所对应的第q组上采样特征图中的、所述N_l+n个样本图像的特征图进行卷积处理，以获得所述第二特征图；和/或，

确定所述第l+n个U型网络结构所对应的第q组下采样特征图中的、所述N_l+n个样本图像的特征图为所述第三特征图；

所述将第一特征图、第二特征图和第三特征图结合包括：将所述第一特征图、所述第二特征图和所述第三特征图中的对应元素相加。

6.如权利要求2至5任一项所述的方法，其中，对于所述M个U型网络结构中的每一个，该U型网络结构所对应的第q组下采样特征图的分辨率小于该U型网络结构所对应的第q-1组下采样特征图的分辨率，并且该U型网络结构所对应的第q组下采样特征图的通道数大于该U型网络结构所对应的第q-1组下采样特征图的通道数。

7.如权利要求2至6任一项所述的方法，其中，第g个U型网络结构的热力图模块包括S_g个卷积子模块，所述S_g个卷积子模块分别与S_g组上采样特征图相对应，其中，1≤g≤M，1≤S_g≤Q；

将所述第g个U型网络结构所对应的S_g组上采样特征图分别输入所述S_g个卷积子模块中的对应卷积子模块，以获得所述S_g个卷积子模块分别输出的S_g组关节点热力图。

8.如权利要求7所述的方法，其中，S_g＝Q。

9.如权利要求1至8任一项所述的方法，其中，所述利用所述N₁个样本图像和所述标注数据对姿态估计网络进行训练还包括：在训练过程的每次迭代中，还执行以下第二损失计算操作：

对于第二热力图集合中的每一组关节点热力图，

根据该组关节点热力图中与该样本图像的P个关节点分别对应的P个关节点热力图以及该样本图像的关节点位置数据，计算与该组关节点热力图相关联的、与该样本图像的P个关节点分别对应的P个损失值，其中，1≤h≤M，所述第二热力图集合包括所述至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的至少一组关节点热力图；

对所述P个损失值进行加权平均，以获得与该组关节点热力图相关联的、该样本图像的损失值；

对与该组关节点热力图相关联的、所述N_h个样本图像的损失值进行加权求和，以获得与该组关节点热力图相关联的损失值。

10.如权利要求1至9任一项所述的方法，其中，所述第一热力图集合包括所述至少一个U型网络结构的热力图模块输出的所有组关节点热力图。

11.如权利要求9所述的方法，其中，所述第一热力图集合包括所述至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的部分组关节点热力图，所述第二热力图集合包括所述至少一个U型网络结构的热力图模块输出的所有组关节点热力图中的、除所述第一热力图集合以外的关节点热力图。

12.如权利要求1至9任一项所述的方法，其中，所述第一热力图集合包括所述至少一个U型网络结构中的每个U型网络结构输出的分辨率最大的一组关节点热力图。

13.如权利要求1至12任一项所述的方法，其中，

所述忽略所述P个损失值中除预定损失值以外的损失值，根据所述预定损失值，计算与该组关节点热力图相关联的、该样本图像的损失值包括：

对所述预定损失值进行加权平均，以获得与该组关节点热力图相关联的、该样本图像的损失值；和/或

所述根据与该组关节点热力图相关联的、所述N_k个样本图像的损失值，计算与该组关节点热力图相关联的损失值包括：

对与该组关节点热力图相关联的、所述N_k个样本图像的损失值进行加权求和，以获得与该组关节点热力图相关联的损失值；和/或

所述根据与所述至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值，计算所述姿态估计网络的总损失值包括：

对与所述至少一个U型网络结构输出的所有组关节点热力图分别关联的损失值进行加权求和，以获得所述总损失值。

14.如权利要求1至13任一项所述的方法，其中，N_i＝N₁，i＝2,3,……,M。

15.一种姿态估计方法，包括：

获取待处理图像；以及

将所述待处理图像输入姿态估计网络，以获得与所述待处理图像中的关节点的位置相关的位置预测信息，其中，所述姿态估计网络采用如权利要求1至14任一项所述的姿态估计网络的训练方法训练获得。

16.一种姿态估计网络的训练装置，包括：

获取模块，用于获取N₁个样本图像和标注数据，其中，所述标注数据包括与所述N₁个样本图像分别对应的关节点位置数据，N₁≥1；

训练模块，用于利用所述N₁个样本图像和所述标注数据对姿态估计网络进行训练，其中，所述姿态估计网络包括M个U型网络结构，所述M个U型网络结构中的每一个包括下采样模块和上采样模块，并且第i个U型网络结构的下采样模块的输入数据基于第i-1个U型网络结构的上采样模块输出的N_i个样本图像的特征图获得，其中，i＝2,3,……,M，并且其中，M≥2，N_i≤N₁；

其中，所述M个U型网络结构中的至少一个U型网络结构还包括热力图模块，所述训练模块包括：执行子模块，用于在训练过程的每次迭代中，执行第二操作；

所述第一损失计算操作包括：

对于第一热力图集合中的每一组关节点热力图，

所述参数优化操作包括：

根据所述总损失值优化所述姿态估计网络的参数。

17.一种姿态估计装置，包括：

获取模块，用于获取待处理图像；以及

输入模块，用于将所述待处理图像输入姿态估计网络，以获得与所述待处理图像中的关节点的位置相关的位置预测信息，其中，所述姿态估计网络采用如权利要求1至14任一项所述的姿态估计网络的训练方法训练获得。

18.一种姿态估计网络的训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至14任一项所述的姿态估计网络的训练方法。

19.一种姿态估计系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求15所述的姿态估计网络方法。

20.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至14任一项所述的姿态估计网络的训练方法。

21.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求15所述的姿态估计方法。