CN116091596A

CN116091596A - 一种自下而上的多人2d人体姿态估计方法及装置

Info

Publication number: CN116091596A
Application number: CN202211520839.9A
Authority: CN
Inventors: 张星东; 丁卓; 鲁宁
Original assignee: Nanjing Longyuan Information Technology Co ltd
Current assignee: Nanjing Longyuan Information Technology Co ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-05-09

Abstract

本发明公开一种自下而上的多人2D人体姿态估计方法及装置。该方法包括如下步骤：获取原始图像，并对原始图像进行预处理；将预处理后的图像输入预设的网络模型中进行训练，得到训练好的网络模型，所述训练好的网络模型用于输出关键点热图和关键点偏移图；将待测图像输入训练好的网络模型中，输出待测图像的关键点热图和关键点偏移图；基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，获取人体姿态信息。本发明采用自下而上的多人姿态估计方法，通过多子空间注意力网络中每个子空间注意力模块学习到相对应关键点的个性化特征，从而提升整体关键点的检测精度。

Description

一种自下而上的多人2D人体姿态估计方法及装置

技术领域

本发明涉及人体姿态估计技术领域，尤其涉及一种自下而上的多人2D人体姿态估计方法及装置。

背景技术

人体姿态估计是计算机视觉领域的一个重要方向，在运动识别、人机交互、动画、监控安防等领域有着广泛应用。如今人体姿态估计已包含多个研究分支，包括2D人体姿态估计、3D人体姿态估计、视频人体姿态估计和多视角人体姿态估计等。其中，单图像的2D人体姿态估计是两段式3D人体姿态估计、视频人体姿态估计和多视角人体姿态估计的基础，2D姿态估计性能的提升对这些分支领域的发展也会带来很多的推进作用。

目前，2D人体姿态估计主要有两种检测模式：自上而下的检测方式，虽然输出精度高，但是运行时间与图像中人的数量成正比，在人群聚众的场景中，每一个单人检测框难免存在其他人的肢体部分，进行单人姿态估计也会造成干扰，且会根据检测出的人体数量来执行多少次单人姿态估计，且人框检测方面需要额外的计算成本，计算量大用时长；自下而上的检测方式，对全图进行关键点检测，经过筛选后，通过聚类将关节点正确匹配到每一个人，速度快但精度有待提高。

因此，亟需一种能够在确保检测速度的前提下，提高检测精度的2D人体姿态估计方法。

发明内容

为了解决上述技术问题，本发明提出一种自下而上的多人2D人体姿态估计方法及装置。在所述方法及装置中，采用自下而上的多人姿态估计方法，执行一次全图的关键点检测，采用关联式嵌入策略(Associative Embedding)的分组方式，通过NMS算法将关键点匹配到个人，计算用时短，避免额外的计算成本；通过多子空间注意力网络中每个子空间注意力模块学习到相对应关键点的个性化特征，改进回归结果，从而提升整体关键点的检测精度。

为了达到上述目的，本发明的技术方案如下：

一种自下而上的多人2D人体姿态估计方法，包括如下步骤：

获取原始图像，并对原始图像进行预处理；

构建网络模型，所述网络模型的训练过程：将预处理后的图像输入所述网络模型的骨干网，输出特征映射；采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图；基于所述骨干网输出的特征映射获取关键点热图；根据所述关键点热图和关键点偏移图的损失，优化模型参数并继续训练，直到模型收敛或达到最大迭代次数，得到训练好的网络模型；

将待测图像输入训练好的网络模型中，输出待测图像的关键点热图和关键点偏移图；

基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，获取人体姿态信息。

优选地，所述预处理包括随机仿射变换、缩放、按预定概率的横向翻转和随机亮度调整。

优选地，所述骨干网为HRNet-w32。

优选地，所述采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图，包括如下步骤：

将骨干网输出的特征映射根据人体关键点的数量K划分为K个子特征映射；

构建多子空间注意力网络，所述多子空间注意力网络中K个子空间注意力模块分别对应计算一个子特征映射；

将子特征映射回归到相应的关键点，并拼接所有的关键点偏移特征。

优选地，所述基于所述骨干网输出的特征映射获取关键点热图，包括如下步骤：

对所述骨干网输出的特征映射依次进行卷积、归一化、激活操作，获取关键点热图。

优选地，所述激活操作采用ReLU激活函数。

优选地，所述网络模型的训练过程的损失函数

为关键点偏移图的损失函数

和热图的损失函数

之和，其中，

采用归一化平滑损耗的损失函数

来计算关键点偏移图的损失，如下所示：

式中N表示图像中存在人体有效姿势的数量，H和W表示每个人体实例框的宽与高，O_i表示检测到的偏移向量，

表示标签中实例的偏移向量，i∈(1,2,…K)，

关键点热图的损失函数

为预测热值与标签中真实热值的加权距离，如下所示：

式中⊙表示基本的乘积运算，M^h表示关键点热图掩码，M^c表示中心热图掩码，H表示关键点预测热值，H^*表示关键点真实热值，C表示中心点预测热值，C^*表示中心点真实热值。

优选地，基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，获取人体姿态信息，包括如下步骤：

采用NMS算法对关键点热图和关键点偏移图进行姿态过滤，获取候选姿态；

基于候选姿态的中心热值、关键点热值和形状分数计算综合评分并排序，将综合评分满足评分阈值的人体关键点匹配至个人。

优选地，所述姿态过滤，包括如下步骤：

在待测图像的关键点热图上执行中心NMS算法，将非局部最大位置和中心热值不高于0.01的位置进行删除；

对中心NMS算法处理后剩余位置的关键点偏移信息进行位姿NMS处理，去除重叠的姿势。

基于上述内容，本发明还公开了一种自下而上的多人2D人体姿态估计装置，包括：获取模块、训练模块、输出模块和识别模块，其中，

所述获取模块，用于获取原始图像，并对原始图像进行预处理；

所述训练模块，用于构建网络模型，将预处理后的图像输入所述网络模型的骨干网，输出特征映射；采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图；基于所述骨干网输出的特征映射获取关键点热图；根据所述关键点热图和关键点偏移图的损失，优化模型参数并继续训练，直到模型收敛或达到最大迭代次数，得到训练好的网络模型；

所述输出模块，用于将待测图像输入训练好的网络模型中，输出待测图像的关键点热图和关键点偏移图；

所述识别模块，用于基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，获取人体姿态信息。

基于上述技术方案，本发明的有益效果是：

1)本发明采用自下而上的方式，执行一次全图的关键点检测，采用关联式嵌入策略(Associative Embedding)的分组方式，通过NMS算法将关键点匹配到个人，计算用时短，避免额外的计算成本；

2)本发明准确回归关键点位置需要学习关注关键点区域的表示，采用多子空间注意力网络模块，通过每个关键点独立回归的多分支方案，每一个分支通过专门用于单一关键点检测的子空间注意力模块，激活位于关键点位置区域的像素，来学习一个关键点的表示，并回归相应关键点的位置。每个子空间注意力模块都可以学习到相对应关键点的个性化特征，从而提升整体关键点的检测精度。

附图说明

图1是一个实施例中一种自下而上的多人2D人体姿态估计方法的应用环境图；

图2是一个实施例中一种自下而上的多人2D人体姿态估计方法的流程示意图；

图3是一个实施例中一种自下而上的多人2D人体姿态估计装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供的一种自下而上的多人2D人体姿态估计方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境包括计算机设备110。计算机设备110可以获取原始图像，并对原始图像进行预处理；计算机设备110可以构建网络模型，所述网络模型的训练过程：将预处理后的图像输入所述网络模型的骨干网，输出特征映射；采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图；基于所述骨干网输出的特征映射获取关键点热图；根据所述关键点热图和关键点偏移图的损失，优化模型参数并继续训练，直到模型收敛或达到最大迭代次数，得到训练好的网络模型；计算机设备110可以将待测图像输入训练好的网络模型中，输出待测图像的关键点热图和关键点偏移图；计算机设备110可以基于关联式嵌入策略(Associative Embedding)将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，获取人体姿态信息。其中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑等设备。

在一个实施例中，如图2所示，提供了一种自下而上的多人2D人体姿态估计方法，包括如下步骤：

步骤202，获取原始图像，并对原始图像进行预处理。

计算机设备可以获取原始图像，原始图像用于预设的网络模型的训练。计算机设备可以对原始图像进行预处理，预处理包括随机仿射变换、缩放、按预定概率的横向翻转和随机亮度调整，具体的，可以针对所有的图像进行随机仿射变换，将所有原始图像尺寸缩放到512*512像素，以50％概率对所有的图像进行横向翻转，然后采用gamma亮度调整针对所有图像进行随机亮度调整。

步骤204，构建网络模型，所述网络模型的训练过程：将预处理后的图像输入所述网络模型的骨干网，输出特征映射；采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图；基于所述骨干网输出的特征映射获取关键点热图；根据所述关键点热图和关键点偏移图的损失，优化模型参数并继续训练，直到模型收敛或达到最大迭代次数，得到训练好的网络模型。

本实施例中，将预处理后的图像输入预设的网络模型中进行训练，训练过程如下：将预处理后的图像输入所述网络模型的骨干网，输出特征映射；采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图；对所述骨干网输出的特征映射依次进行卷积、归一化、激活操作，获取关键点热图；根据所述关键点热图和关键点偏移图的损失，优化模型参数并继续训练，直到模型收敛或达到最大迭代次数，得到训练好的网络模型。

其中，骨干网选择的是HRNet-w32网络，输入512*512预处理后的图像，最后获取到128*128的特征映射。

Y＝g(X)

式中X表示输入的原始图像，g表示HRNet-w32骨干网，Y表示输出的特征映射。

本实施例中，采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图，具体说明如下，

将骨干网输出的特征映射根据人体关键点的数量K划分为K个子特征映射[Y₁,Y₂,…,Y_K]。多子空间注意力网络设计了具有K个分支的子空间注意力模块[f₁,f₂,…,f_k]，每一个子空间注意力模块计算一个子特征映射，然后再将这一个子特征映射回归到相应的关键点，最后再拼接所有的关键点偏移特征。

[Y₁,Y₂,…,Y_K]＝split(Y)

O_i＝f_i(Y_i)

O＝Concat(O₁,O₂,…,O_K)

式中i∈(1,2,…K)。在子空间注意模块的设计中，其中f_i具体操作如下所示：

式中DW¹表示了具有1×1卷积核的深度卷积，maxpool^3×3,1表示了核尺寸为3×3，填充为1的最大值池化，PW¹是只有一个滤波器的逐点卷积。由于深度卷积是每个通道进行独立运算，因此后面利用单一滤波器的逐点卷积来实现单像素点的多通道特征提取，以实现多通道特征的加权组合。最后再与未经计算的Y_i跳跃连接，形成新的特征图O_i。

本实施例中，对所述骨干网输出的特征映射依次进行卷积、归一化、ReLU激活操作，获取关键点热图，获取关键点热图的公式如下所示：

H＝ReLU(BN(Conv(Y)))

本实施例中，网络模型训练过程中的损失函数

为关键点偏移图的损失函数

和热图的损失函数

之和，优化模型参数并继续训练，直到模型收敛或达到最大迭代次数，得到训练好的网络模型。

采用归一化平滑损耗的损失函数

来计算关键点偏移图的损失，如下所示：

表示标签中实例的偏移向量，i∈(1,2,…K)，

关键点热图的损失函数

为预测热值与标签中真实热值的加权距离，如下所示：

最后的总损失

就是关键点偏移损失

和热图损失

之和：

步骤206，将待测图像输入训练好的网络模型中，输出待测图像的关键点热图和关键点偏移图。

在本阶段不会针对待测图像进行预处理，网络模型输入原始尺寸的待测图像，输出待测图像的关键点热图和关键点偏移图。

步骤208，基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，获取人体姿态信息。

计算机设备可以基于关联式嵌入策略(Associative Embedding)将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，首先可以先采用NMS算法对关键点热图和关键点偏移图进行姿态过滤，获取候选姿态，具体地，在待测图像的关键点热图上执行中心NMS算法，将非局部最大位置和中心热值不高于0.01的位置进行删除；对中心NMS算法处理后剩余位置的关键点偏移信息进行位姿NMS处理，去除重叠的姿势，并保持最多30个候选姿态。姿势NMS中使用的分数是回归的K个关键点的热值的平均值，这有助于保持候选姿势具有高度准确的局部关键点。然后在候选姿态中，通过联合考虑候选姿态相应的中心热值、关键点热值和形状分数来计算综合评分并排序，将综合评分满足评分阈值的人体关键点匹配至个人，获取人体姿态信息。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供一种自下而上的多人2D人体姿态估计装置300，包括：获取模块310、训练模块320、输出模块330和识别模块340，其中，

所述获取模块310，用于获取原始图像，并对原始图像进行预处理；

所述训练模块320，用于构建网络模型，将预处理后的图像输入所述网络模型的骨干网，输出特征映射，骨干网为HRNet-w32；采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量，获取关键点偏移图；基于所述骨干网输出的特征映射获取关键点热图；根据所述关键点热图和关键点偏移图的损失，优化模型参数并继续训练，直到模型收敛或达到最大迭代次数，得到训练好的网络模型，其中，计算损失的损失函数

为关键点偏移图的损失函数

和热图的损失函数

之和；

所述输出模块330，用于将待测图像输入训练好的网络模型中，输出待测图像的关键点热图和关键点偏移图；

所述识别模块340，用于基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人，获取人体姿态信息。

在一个实施例中，预处理包括随机仿射变换、缩放、按预定概率的横向翻转和随机亮度调整。

在一个实施例中，所述训练模块320，还用于对所述骨干网输出的特征映射依次进行卷积、归一化、激活操作，获取关键点热图，其中，激活操作采用ReLU激活函数。

在一个实施例中，所述训练模块320，还用于将骨干网输出的特征映射根据人体关键点的数量K划分为K个子特征映射；构建多子空间注意力网络，所述多子空间注意力网络中K个子空间注意力模块分别对应计算一个子特征映射；将子特征映射回归到相应的关键点，并拼接所有的关键点偏移特征。

在一个实施例中，所述识别模块340，还用于采用NMS算法对关键点热图和关键点偏移图进行姿态过滤，获取候选姿态，其中，在待测图像的关键点热图上执行中心NMS算法，将非局部最大位置和中心热值不高于0.01的位置进行删除；对中心NMS算法处理后剩余位置的关键点偏移信息进行位姿NMS处理，去除重叠的姿势；基于候选姿态的中心热值、关键点热值和形状分数计算综合评分并排序，将综合评分满足评分阈值的人体关键点匹配至个人。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。