CN113420604B

CN113420604B - 多人姿态估计方法、装置和电子设备

Info

Publication number: CN113420604B
Application number: CN202110590867.7A
Authority: CN
Inventors: 沈春华
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-04-18
Anticipated expiration: 2041-05-28
Also published as: CN113420604A

Abstract

本申请提供了一种多人姿态估计方法、装置和电子设备，该方法包括：构建神经网络模型，其包括目标检测模块、滤波器控制器和关键点检测模块；将待处理图片输入目标检测模块生成特征图；将特征图输入滤波器控制器，输出多组滤波器权重参数；将特征图和多组滤波器权重参数输入关键点检测模块，输出多张预测热图，以预测热图中关键点预测坐标作为关键点坐标。本申请相比于自上而下或自下而上的方法，不需要抠输入图或者特征图的操作，端到端可训练人体姿态估计器，从而能够获得更好的精度和速度，而且由于本申请实施例提供的方法适用于无论图像中实例数量多少，并且总的推理时间也较快，同时由于计算量较小，也可部署在移动设备上，增加了适用性。

Description

多人姿态估计方法、装置和电子设备

技术领域

本申请的实施例涉及图像处理技术领域，尤其涉及一种多人姿态估计方法、装置和电子设备。

背景技术

目前多人姿态估计通常采用自下而上或自上而下的方式。自下而上的方式存在以下缺点：感兴趣区域的计算是单独进行前向传播的，因此卷积计算不能共享，推理时间严重依赖于图像中的实例数量；感兴趣区域通常是从一个独立的人体检测器中获得的，因此不是端到端可训练的，此外独立人体检测器的使用会导致明显更长的端到端推断时间；基于感兴趣区域的方法依赖于感兴趣区域的定位质量。自上而下的方式中分组关键点的过程通常是启发式的，可能涉及许多超参数，这使得该方式变得复杂。

发明内容

为解决上述技术问题，本申请的实施例提供了一种多人姿态估计方法、装置和电子设备。

在本申请的第一方面，提供了一种多人姿态估计方法，包括：

构建神经网络模型，所述神经网络模型包括目标检测模块、滤波器控制器和关键点检测模块；

将所述待处理图片输入所述目标检测模块，生成特征图，所述特征图包括多个人体实例，每个所述人体实例均包括多个关键点，所述关键点用于表征人体姿态；

将所述特征图输入所述滤波器控制器，输出多组滤波器权重参数，所述滤波器权重参数的组数和所述特征图中人体实例的个数相同，且每组所述滤波器权重参数对应于所述特征图中一个人体实例；

将所述特征图和多组所述滤波器权重参数输入所述关键点检测模块，输出多张所述预测热图，以所述预测热图中关键点预测坐标作为关键点坐标，所述预测热图的数量与所述滤波器权重参数的组数相同，每张所述预测热图均包括所述特征图中一个人体实例中关键点预测坐标。

在一种可能的实现方式中，所述关键点检测模块的数学模型为：

其中，H为预测热图，H∈R^H×W×K，f为预测热图和特征图之间的映射关系，θ_i为滤波器权重参数，F为特征图，F∈R^H×W×M，W为图片宽度，H为图片高度，M为图像通道数，K为每个人体实例中关键点数量。

在一种可能的实现方式中，所述神经网络模型还包括关键点修正模块；

所述将所述特征图和多组所述滤波器权重参数输入关键点检测模块，输出多张所述预测热图之后，还包括：

将所述特征图和所述待处理图片中人体实例关键点真实坐标输入所述关键点修正模块，输出修正参数，所述修正参数为所述关键点预测坐标和关键点真实坐标之间的偏移量，并根据所述修正参数对所述关键点预测坐标进行修正。

在一种可能的实现方式中，所述神经网络模型的构建方法包括：

获取数据集，所述数据集中包括多张所述待处理图片和所述待处理图片中人体实例关键点坐标，所述待处理图片中包括多个人体实例；

根据所述数据集训练所述目标检测模块，得到所述特征图；

根据所述特征图训练所述滤波器控制器，得到多组所述滤波器权重参数；

根据所述特征图、多组所述滤波器权重参数和所述待处理图片中人体实例关键点坐标训练所述关键点检测模块，得到多张所述预测热图。

在一种可能的实现方式中，所述神经网络模型的构建方法还包括：

根据所述特征图和所述待处理图片中人体实例关键点坐标训练所述关键点修正模块。

在一种可能的实现方式中，所述神经网络模型的损失函数为：

Loss_overall＝Loss_det+αLoss_heatmap+βLoss_reg

Loss_reg＝MSE(·)

其中，Loss_overall为神经网络模型的损失函数，Loss_det为目标检测模块的损失函数，Loss_heatmap为关键点检测模块的损失函数，Loss_reg为关键点修正模块的损失函数，H_i为预测热图，

为预测得到的真实关键点特图，α和β为超参数。

在本申请的第二方面，提供了一种多人姿态估计装置，包括：

构建模块，用于构建神经网络模型，所述神经网络模型包括目标检测模块、滤波器控制器和关键点检测模块；

检测模块，用于将所述待处理图片输入所述目标检测模块，生成特征图，所述特征图包括多个人体实例，每个所述人体实例均包括多个关键点，所述关键点用于表征人体姿态；

滤波模块，用于将所述特征图输入所述滤波器控制器，输出多组所述滤波器权重参数，所述滤波器权重参数的组数和所述特征图中人体实例的个数相同，且每组所述滤波器权重参数对应于所述特征图中一个人体实例；

检测模块，用于将所述特征图和多组所述滤波器权重参数输入所述关键点检测模块，输出多张所述预测热图，以所述预测热图中关键点预测坐标作为关键点坐标，所述预测热图的数量与所述滤波器权重参数的组数相同，每张所述预测热图均包括所述特征图中一个人体实例中关键点预测坐标。

在一种可能的实现方式中，还包括修正模块，所述神经网络模型还包括关键点修正模块；

所述修正模块，用于将所述特征图和所述待处理图片中人体实例关键点真实坐标输入所述关键点修正模块，输出修正参数，所述修正参数为所述关键点预测坐标和关键点真实坐标之间的偏移量，并根据所述修正参数对所述关键点预测坐标进行修正。

在一种可能的实现方式中，所述构建模块具体用于：

根据所述数据集训练所述目标检测模块，得到所述特征图；

在本申请的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现上述方法。

在本申请实施例提供的多人姿态估计方法、装置和电子设备中，构建神经网络模型，该神经网络模型包括目标检测模块、滤波器控制器和关键点检测模块，将待处理图片输入目标检测模块生成特征图，将特征图输入滤波器控制器输出多组滤波器权重参数，将特征图和多组滤波器权重参数输入关键点检测模块，输出多张预测热图，以预测热图中关键点预测坐标作为关键点坐标，相比于自上而下或自下而上的方法，不需要抠输入图或者特征图的操作，端到端可训练人体姿态估计器，从而能够获得更好的精度和速度，而且由于本申请实施例提供的方法适用于无论图像中实例数量多少，并且总的推理时间也较快，同时由于计算量较小，也可部署在移动设备上，增加了适用性。

应当理解，发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本申请的实施例的多人姿态估计方法的流程图。

图2示出了根据本申请的实施例的关键点检测模块的结构图。

图3示出了根据本申请的实施例的多人姿态估计方法的网络结构图。

图4示出了根据本申请的实施例的多人姿态估计装置的方框图。

图5示出了适于用来实现本申请实施例的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了便于对本申请实施例的理解，首先对本申请实施例涉及的部分术语进行解释。

多人姿态估计，是指给定一张可能包含多个人体的图像，对可以展现人体姿态的关键点，如头、左手、右脚等位置进行估计，目的是需要把图片中所有人体的关键点都能正确地做出估计。

多人关键点检测，即对于检测到的关键点需要根据它们所属的实例进行分组。

自上而下检测方法，即首先用人体检测器检测每个单独的人体实例形成感兴趣区域，并将感兴趣区域从特征图或原始图像中裁剪出来，然后在感兴趣区域内为每个人体单独执行单人关键点检测。

自下而上检测方法，即首先检测出一幅图像中的所有关节，即每个人体的关节，然后使用后处理操作将检测出的关节进行连接或分组，从而找出属于各个人体的关节。

接下来对本申请实施例提供的多人姿态估计方法进行介绍。需要说明的是，本申请实施例涉及的多人姿态估计方法可以适用于任何需要对人体姿态进行估计的场景，在任一场景中，在对人体姿态进行估计时，主要采用自下而上或自上而下的方式。自下而上的方式存在推理时间严重依赖于图像中人体实例的数量、不是端到端可训练、推断时间较长以及依赖于感兴趣区域的定位质量的问题。自上而下的方式可能会涉及多超参数，这使得该方式变得复杂。

为解决上述的技术问题，本申请的实施例提供一种多人姿态估计方法。在一些实施例中，该方法可以由电子设备执行。图1示出了根据本申请的实施例的多人姿态估计方法的流程图。参见图1，该多人姿态估计方法包括以下步骤：

步骤101，构建神经网络模型，神经网络模型包括目标检测模块、滤波器控制器和关键点检测模块。

目标检测模块用于根据待处理图片得到特征图。其中，特征图中包括多个人体实例，每个人体实例均包括多个关键点，关键点用于表征人体姿态。

滤波器控制器用于根据特征图得到多组滤波器权重参数。其中，滤波器权重参数的组数和特征图中人体实例的个数相同，且每组滤波器权重参数对应于特征图中一个人体实例。

关键点检测模块用于根据特征图和多组滤波器权重参数得到多张预测热图，以预测热图中关键点预测坐标作为关键点坐标。其中，预测热图的数量与滤波器权重参数的组数相同，每张预测热图均包括特征图中一个人体实例中关键点预测坐标。

需要说明的是，目标检测模块可以采用现有技术中针对多人姿态估计所采用的任何方式。示例地，目标检测模块可以包括特征金字塔和能够预测类别、目标框和中心参数的目标检测器。示例地，目标检测模块可以选用残差卷积神经网络模型，滤波器控制器和关键点检测模块均可以选用卷积神经网络模型。

还需要说明的是，神经网络模型的构建过程即为神经网络模型的训练过程，训练神经网络模型的数据集可以选用开源的大型人体关键点检测数据集Microsoft COCO，也可以选用任意其他的人体关键点检测数据集。下面以数据集Microsoft COCO为例来说明神经网络模型的训练过程，在训练神经网络模型时，可以采用两种方式来进行训练。

第一种方式

以数据集Microsoft COCO中待处理图片作为构建完成的神经网络模型的输入数据，以数据集Microsoft COCO中关键点坐标作为构建完成的神经网络模型的输出数据，来训练神经网络模型。

第二种方式

以数据集Microsoft COCO中多张待处理图片和待处理图片中人体实例关键点坐标训练目标检测模块，得到特征图；根据特征图训练滤波器控制器，得到多组滤波器权重参数；根据特征图、多组滤波器权重参数和待处理图片中人体实例关键点坐标训练关键点检测模块，得到多张预测热图。

在一种可能的实施方式中，该神经网络模型还包括关键点修正模块，在训练时，若采用上述第一种方式进行训练，所采用的方式与上述方式相同，若采用上述第二种方式进行训练时，则还需要单独对关键点修正模块进行训练。具体地，根据特征图和所述待处理图片中人体实例关键点真实坐标来训练关键点修正模块，得到修正参数。修正参数为关键点预测坐标和关键点真实坐标之间的偏移量。在一些实施例中，得到修正参数后，可以根据修正参数对关键点预测坐标进行修正。

在训练上述包含有关键点修正模块的神经网络模型时，需要构建该神经网络模型的损失函数如下：

Loss_overall＝Loss_det+aLoss_heatmap+βLoss_reg

为预测得到的真实关键点特图，α和β为超参数。

其中，定义H_i∈R^H×W是为通过关键点检测模块预测得到的预测热图，

是真实人体关键点的热图，对于真实的人体关键点的坐标(x^*,y^*)，预测热图的分辨率是原图分辨率的1/8，故对于真实人体关键点的热图

位置

的值为1，其他位置的值为0，那么热图损失可以定位为：

其中，关键点偏移回归损失可以使用均方差作为损失函数：

Loss_reg＝MSE(·)

步骤102，将待处理图片输入目标检测模块生成特征图。

在本申请实施例中，将待处理图片输入训练完成的目标检测模块中的特征金字塔中，从而生成特征图。特征图中包括多个人体实例，每个人体实例均包括多个关键点，关键点用于表征人体姿态。

步骤103，将特征图输入滤波器控制器，输出多组滤波器权重参数，滤波器权重参数的组数和特征图中人体实例的个数相同，且每组滤波器权重参数对应于特征图中一个人体实例。

步骤104，将特征图和多组滤波器权重参数输入关键点检测模块，输出多张预测热图，以预测热图中关键点预测坐标作为关键点坐标，预测热图的数量与滤波器权重参数的组数相同，每张预测热图均包括特征图中一个人体实例中关键点预测坐标。

在本申请实施例中，关键点检测模块的数学模型为：

其中，H为预测热图，H∈R^H×W×K，f为预测热图和特征图之间的映射关系，θ_i为滤波器权重参数，F为特征图，F∈R^H×W×32，W为图片宽度，H为图片高度，K为每个人体实例中关键点数量。

可知，滤波器权重参数可以用来响应特征图中的人体实例。在本申请实施例中，关键点检测模块的数量为多个，至少确保特征图中每个人体实例均能单独对应一个关键点检测模块。

参见图2，在通过关键点检测模块来预测特征图中人体实例中关键点坐标时，首先为每个关键点检测模块输入一张特征图，在输入的同时根据由滤波器控制器生成的滤波器权重参数来选择特征图中人体实例，也就是说，将特征图中其他人体实例去除，只保留一个人体实例，并且使得输入每个关键点检测模块的特征图中人体实例均不相同。在关键点检测模块预测特征图中人体实例的关键点的坐标时，需要引入相对位置坐标。

步骤105，将特征图和待处理图片中人体实例关键点真实坐标输入关键点修正模块，输出修正参数，修正参数为关键点预测坐标和关键点真实坐标之间的偏移量，并根据修正参数对关键点预测坐标进行修正。

在本申请实施例中，定义O∈R^H×W×2K为关键点修正模块的输出热图，O_i,j＝(Δx,Δy)为与位置(i,j)最近的真实关键点之间的偏移量，那么对于某一个关键点，如果其热图的峰值坐标为(i,j)，则最终的关键点坐标为(i+Δx,j+Δy)。

下面结合图3对本申请实施例提供的多人姿态估计方法进行介绍。

将待处理图片输入特征金字塔得到特征图，特征图中包括多个人体实例，每个人体实例均包括多个关键点，关键点用于表征人体姿态。目标检测模块用于对特征图进行处理，以对特征图中的关键点进行分类、框选目标框以及得到中心参数。

将特征图输入滤波器控制器得到多组滤波器权重参数，每组滤波器权重参数用于在后续关键点模块预测特征图中人体实例的关键点时，选择人体实例来使得每个关键点检测模块均能够获得不同的人体实例。

将特征图和多组滤波器权重参数输入关键点检测模块，为特征图中每个人体实例分别生成一张预测热图，预测热图的数量与滤波器权重参数的组数相同，每张预测热图均包括特征图中一个人体实例中关键点预测坐标。

将特征图输入关键点修正模块，得到修正参数，根据修正参数对预测热图中关键点预测坐标进行修正。

根据本申请的实施例，构建神经网络模型，该神经网络模型包括目标检测模块、滤波器控制器和关键点检测模块，将待处理图片输入目标检测模块生成特征图，将特征图输入滤波器控制器输出多组滤波器权重参数，将特征图和多组滤波器权重参数输入关键点检测模块，输出多张预测热图，以预测热图中关键点预测坐标作为关键点坐标，相比于自上而下或自下而上的方法，不需要抠输入图或者特征图的操作，端到端可训练人体姿态估计器，从而能够获得更好的精度和速度，而且由于本申请实施例提供的方法适用于无论图像中实例数量多少，并且总的推理时间也较快，同时由于计算量较小，也可部署在移动设备上，增加了适用性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图4示出了根据本申请的实施例的多人姿态估计装置的方框图。在一些实施例中，该装置可以实现为电子设备。参见图4，该装置包括构建模块401、检测模块402、滤波模块403和检测模块404。

构建模块401，用于构建神经网络模型，神经网络模型包括目标检测模块、滤波器控制器和关键点检测模块。

检测模块402，用于将待处理图片输入目标检测模块，生成特征图，特征图包括多个人体实例，每个人体实例均包括多个关键点，关键点用于表征人体姿态。

滤波模块403，用于将特征图输入滤波器控制器，输出多组滤波器权重参数，滤波器权重参数的组数和特征图中人体实例的个数相同，且每组滤波器权重参数对应于特征图中一个人体实例。

检测模块404，用于将特征图和多组滤波器权重参数输入关键点检测模块，输出多张预测热图，以预测热图中关键点预测坐标作为关键点坐标，预测热图的数量与滤波器权重参数的组数相同，每张预测热图均包括特征图中一个人体实例中关键点预测坐标。

在一些实施例中，关键点检测模块的数学模型为：

在一些实施例中，该装置还包括修正模块，神经网络模型还包括关键点修正模块。

修正模块，用于将特征图和待处理图片中人体实例关键点真实坐标输入关键点修正模块，输出修正参数，修正参数为关键点预测坐标和关键点真实坐标之间的偏移量，并根据修正参数对关键点预测坐标进行修正。

在一些实施例中，构建模块401具体用于：

获取数据集，数据集中包括多张待处理图片和待处理图片中人体实例关键点坐标，待处理图片中包括多个人体实例；

根据数据集训练目标检测模块，得到特征图；

根据特征图训练滤波器控制器，得到多组滤波器权重参数；

根据特征图、多组滤波器权重参数和待处理图片中人体实例关键点坐标训练关键点检测模块，得到多张预测热图。

在一些实施例中，神经网络模型的损失函数为：

Loss_overall＝Loss_det+αLoss_heatmap+βLoss_reg

Loss_reg＝MSE(·)

为预测得到的真实关键点特图，α和β为超参数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图5所示，图5所示的电子设备500包括：处理器501和存储器503。其中，处理器501和存储器503相连，如通过总线502相连。可选地，电子设备500还可以包括收发器504。需要说明的是，实际应用中收发器504不限于一个，该电子设备500的结构并不构成对本申请实施例的限定。

处理器501可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线502可包括一通路，在上述组件之间传送信息。总线502可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器503可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器503用于存储执行本申请方案的应用程序代码，并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

Claims

1.一种多人姿态估计方法，其特征在于，包括：

将待处理图片输入所述目标检测模块，生成特征图，所述特征图包括多个人体实例，每个所述人体实例均包括多个关键点，所述关键点用于表征人体姿态；

将所述特征图和多组所述滤波器权重参数输入所述关键点检测模块，输出多张预测热图，以所述预测热图中关键点预测坐标作为关键点坐标，所述预测热图的数量与所述滤波器权重参数的组数相同，每张所述预测热图均包括所述特征图中一个人体实例中关键点预测坐标。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型还包括关键点修正模块；

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型的构建方法包括：

根据所述数据集训练所述目标检测模块，得到所述特征图；

4.根据权利要求3所述的方法，其特征在于，所述神经网络模型的构建方法还包括：

5.一种多人姿态估计装置，其特征在于，包括：

检测模块，用于将待处理图片输入所述目标检测模块，生成特征图，所述特征图包括多个人体实例，每个所述人体实例均包括多个关键点，所述关键点用于表征人体姿态；

检测模块，用于将所述特征图和多组所述滤波器权重参数输入所述关键点检测模块，输出多张预测热图，以所述预测热图中关键点预测坐标作为关键点坐标，所述预测热图的数量与所述滤波器权重参数的组数相同，每张所述预测热图均包括所述特征图中一个人体实例中关键点预测坐标。

6.根据权利要求5所述的装置，其特征在于，还包括修正模块，所述神经网络模型还包括关键点修正模块；

7.根据权利要求6所述的装置，其特征在于，所述构建模块具体用于：

根据所述数据集训练所述目标检测模块，得到所述特征图；

8.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4中任一项所述的方法。