CN110969124B

CN110969124B - 基于轻量级多分支网络的二维人体姿态估计方法及系统

Info

Publication number: CN110969124B
Application number: CN201911212972.6A
Authority: CN
Inventors: 钟福金; 李明阳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Beijing Woyan Sports Technology Co ltd; Chongqing Tiancheng Jichuang Technology Co ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2022-09-27
Anticipated expiration: 2039-12-02
Also published as: CN110969124A

Abstract

本发明涉及姿态估计领域，具体涉及一种基于轻量级多分支网络的二维人体姿态估计方法及系统，包括：输入图像，对其进行预处理；将图像传入主干网络进行特征提取和信息编码；使用轻量级上采样单元对主干网络的不同编码阶段进行解码，形成多个解码分支的网络结构；将各解码分支生成的特征图与真实标记热力图进行均方损失的求解，并将损失之和回传给神经网络进行迭代训练；训练完成后，将包含行人的图像输入到训练好的神经网络模型中，得到各关节点在图像中的坐标位置，对人体姿态进行可视化。本发明能够对任意输入的行人图片输出其各关节点坐标并进行姿态的可视化，同时，由于本发明的计算成本较低，便于移动端部署，增加了相关产品的适用性。

Description

基于轻量级多分支网络的二维人体姿态估计方法及系统

技术领域

本发明涉及姿态估计领域，具体涉及一种基于轻量级多分支网络的二维人体姿态估计方法及系统。

背景技术

人体姿态估计广泛应用于人机交互、虚拟现实、视频监控、运动分析、医疗辅助等领域，是计算机视觉领域的一个热门研究课题。二维人体姿态估计通过图像或视频自动定位人体骨骼关键点位置，但由于图像中人的衣着、姿态、背景等的多样性以及存在一些自我遮挡和其他人或物体遮挡的情况，准确地预测出图像中的人体骨骼关键点非常具有挑战性。

现有技术中，卷积神经网络在姿态估计上的应用取得了较大的提升，其准确率已远高于非深度学习方法。但基于神经网络的人体姿态估计方法存在着计算量和参数量过大的问题，过于庞大的网络模型不利于移动端的部署也难以满足市场的需求。因此，如何在实现高精度值的同时降低计算量，是亟待解决的重要问题。

发明内容

为了解决上述问题，本发明提供一种基于轻量级多分支网络的二维人体姿态估计方法及系统。

一种基于轻量级多分支网络的二维人体姿态估计方法，包括以下步骤：

S1、输入带有关节点注释的行人姿态的图片集合作为数据集，对数据集进行预处理，并根据关节点注释生成以关节点为中心的真实标记热力图；

S2、基于预处理后的数据集，通过行人检测器用矩形框框选出图片中的行人，将矩形框区域内的图像记为图像M；

S3、将图像M输入到主干网络中，进行特征提取和信息编码；

S4、通过解码器对主干网络的不同编码阶段进行解码，形成具有多个解码分支的网络结构，即神经网络的后端网络，同时，在各解码分支的末端生成特征图；

S5、将各解码分支生成的特征图与真实标记热力图进行均方损失的求解，并将各解码分支的均方损失之和回传给主干网络重复编码解码过程，对神经网络进行迭代训练；

S6、经过多轮训练后，神经网络损失趋于稳定，迭代训练过程结束，得到训练好的神经网络模型；

S7、将包含行人的图像输入到训练好的神经网络模型中，训练好的神经网络模型输出该图像对应的关节点预测热力图，选取该热力图的最高概率值，将最高概率值对应的坐标作为关节点在图像中的坐标位置输出，并对人体姿态进行可视化处理。

一种基于轻量级多分支网络的二维人体姿态估计系统，包括：图像获取模块，数据预处理模块，行人检测模块，可视化模块，神经网络模块，输出模块，图像获取模块用于输入数据集，获取原始图像信息；数据预处理模块用于对输入的数据集中的原始图像进行翻转、旋转、缩放处理，对有限的训练数据进行扩增；行人检测模块用于识别并框选出图像中的行人；神经网络模块用于网络的训练和预测热力图的生成；可视化模块用于对神经网络模块输出的预测热力图进行可视化处理，将预测热力图中的最大置信点作为各个关节点的位置，在原图副本中画出关节点，连接原图副本中的各关节点，得到人体姿态估计图；输出模块用于输出人体姿态估计图。

本发明的有益效果：

(1)本发明具有低参数量、高精度的效果，能够对任意输入的行人图片输出各关节点坐标并进行姿态可视化。

(2)本发明提出了一种新颖的轻量级上采样结构，使得网络既能适应地调节上采样过程中的权重，又不会带来过多的参数量和计算量，能够以远小于普通转置卷积的参数量达到超过转置卷积精度的效果。

(3)本发明提出了一种多分支网络结构，随着网络加深，所采用的上采样单元个数也相应增多，使得网络呈现由粗略到细致的整体结构，能够使得深层网络的输出越来越精准。

(4)本发明将中继损失应用于网络前部，防止网络浅层梯度消失，同时随着前端分支的去除，姿态估计网络的参数量将进一步减小。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例的一种基于轻量级多分支网络的结构示意图；

图2为本发明实施例的轻量级上采样单元的结构示意图；

图3为本发明实施例的分支构成示意图；

图4为本发明实施例的训练流程示意图；

图5为本发明实施例的应用效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种基于轻量级多分支网络的二维人体姿态估计方法，包括：

S3、将图像M输入到主干网络中，进行特征提取和信息编码；

获取MPII人体姿态数据集，该数据集中包含从网络视频中截取的行人原始图像，且行人原始图像带有关节点注释，其中关节点注释包括：关节点坐标标记和关节点的可见性标记。本发明的数据集共有24987张原始图像，其中有17408张用作训练集，2729张用作验证集，其余用作测试集，每张原始图像有k＝16个关节点注释，每个注释包含其坐标及可见性。通过MPII人体姿态数据集提供的原始图像具有质量高、噪声小以及姿态丰富等优点，便于后续的处理。

对MPII数据集进行预处理：对原始图像进行随机翻转、随机旋转(-30°～+30°)和随机缩放(0.75～1.25)的处理来扩增数据，并将处理后的图像统一裁剪为256×256大小，方便网络的训练，在这一过程中，原始图像的关节点坐标标注也会随着图像的预处理做相应的坐标变换。

以关节标记点为中心生成二维高斯概率图，即真实标记热力图。在关节标记点处会生成一个高斯分布的概率区域，区域的中心概率值最大，最接近1，越远离中心区域，概率值越小。其中，关节标记点z_k＝(x_k,y_k)的真实标记热力图生成公式包括：

其中m_k(x,y)为k标记点在图像上一点产生的高斯置信值，代表该点为标记点的可能性，超参数σ²表示高斯函数的空间方差值，x，y表示图像上任意一点的横纵坐标，x_k，y_k表示标记点k的横纵坐标。

使用FasterR-CNN行人检测器框选出图中的行人，生成候选矩形框，同时根据极大值抑制策略，保留其中概率超过阈值的候选矩形框，然后根据特征图进行裁剪，并通过递归卷积神经网络R-CNN进一步细化候选矩形框，获得最终的行人矩形框，将行人矩形框内的图像记为图像M。

将获得的行人矩形框依次输送至检测网络，再执行单人姿态估计。本发明采用自上而下的方法，首先在图像中用矩形框框出所有人物，然后解决矩形框中的单人姿态估计问题，这种方式能有效避免背景对人物的干扰，预测的精度普遍优于自下而上的方法。

对图像M进行特征提取和信息编码，形成神经网络的主干网络，经过Efficient-net中各卷积层的运算使图像大小逐渐缩小，而代表特征图的通道数逐渐增加，将原始三通道的图像转换为多通道的特征图。

通过解码器对主干网络的不同编码阶段进行解码，形成具有多个解码分支的网络结构，即神经网络的后端网络；

进一步的，各解码分支由多个解码器串联而成，单个解码器放大倍数为2倍，将前面压缩的小特征图逐级放大，逐步解码，使得网络能够以对应不同复杂度的编码信息，使得由浅层到深层的多分支解码结构呈现逐步细化的解码过程。

进一步的，解码器由空间注意力模块、可分离转置卷积、逐点卷积、通道注意力模块构成。

更进一步的，迭代训练中的解码过程包括以下步骤：

首先，调节所要解码特征图的空间信息，采用空间注意力通道调节特征图各像素的权重，通过1×1卷积和Sigmoid进行归一化处理，过滤空间层面的噪声信息干扰，使神经网络更加关注于关节点附近的特征；

然后，对特征图进行上采样解码，使用深度转置卷积将特征图放大2倍，将深度转置卷积的每个通道与对应通道的输入特征图分别进行运算，在较小计算量和参数量的情况下对特征图进行解码，提取特征图各个通道的解码特征信息；

再通过1×1逐点卷积整合各个通道提取到的解码特征信息，并缩减输出通道数，进一步压缩参数量；

最后，利用通道注意力对解码后输出的各通道的权重进行调整，通道注意力通过两个全连接层计算各通道的重要程度，使与训练任务相关度更高的解码特征图具有更大的权重，与训练任务相关度更低的解码特征图具有更小的权重，从而完成整个解码过程。

此外，下采样会对图像分辨率进行压缩，从而造成一部分空间信息的丢失，因此，将解码分支位置设置在编码网络下采样前，在主干网络编码器的不同编码阶段进行解码输出，避免造成空间信息的丢失。

如图4所示，根据真实标记热力图进行神经网络训练，生成特征图；将中继损失应用于神经网络的各解码分支，将各解码分支生成的特征图与真实标记热力图进行均方损失的求解，并将各解码分支的均方损失之和回传给主干网络对神经网络进行迭代训练。

进一步的，均方损失的计算公式包括：

其中，

表示均方损失，n表示网络中的一个解码分支，k表示其中一个标记关节，N表示解码分支总数，K表示关节总数，m_k和

分别为预测热力图及真实标记的热力图。

由于实际应用时只采用末端分支的输出结果，因此当模型训练完成后可去除中间分支，进一步减少网络的参数量和计算量。

使用Adam优化器进行训练调节，经过多轮训练后，各解码分支生成的特征图与真实标记热力图的均方损失不再变化时，神经网络趋于稳定，迭代训练过程结束，得到训练好的神经网络模型，如图1和图3所示。

使用训练好的神经网络模型时，将包含行人的图像输入到训练好的神经网络模型中，训练好的神经网络模型输出该图像对应的关节点预测热力图，选取该热力图的最高概率值，将最高概率值对应的坐标作为关节点在图像中的坐标位置输出，并对人体姿态进行可视化处理。

进一步的，所述对人体姿态进行可视化处理包括：以各关节预测坐标点为圆心，以2～5像素为半径在原图副本上画一个实心圆，作为关节点的标记；并按照从头至脚的顺序依次将预测点连接起来，形成肢体连线，得到具有关节点连线的人体姿态图片和关节点具体坐标输出，输出的人体姿态图像如图5所示。

本发明的一种基于轻量级多分支网络的二维人体姿态估计系统，包括：图像获取模块，数据预处理模块，行人检测模块，神经网络模块，可视化模块，输出模块。

图像获取模块作为整个系统的数据入口，用于输入数据集，获取原始图像信息。

数据预处理模块用于对输入的数据集中的原始图像进行翻转、旋转、缩放处理，该模块仅在训练中使用，目的在于对有限的训练数据进行扩增，使得网络能够学习到更加复杂的姿态情况下的特征，能够应对更加复杂的姿态情况。

行人检测模块用于识别并框选出原始图像中的行人，将检测范围内的图像用作姿态估计神经网络的输入。

神经网络模块用于神经网络的训练与预测，为整个系统的核心部分，对输入图像进行编码和解码操作，训练过程中对输入数据进行拟合，使得网络模块能够自动调节网络参数，在预测过程中使用训练好的参数对相应关节点的坐标位置进行预测。

可视化模块用于对神经网络模块输出的预测热力图进行可视化处理，将预测热力图中的最大置信点作为各个关节点的位置，以各关节预测坐标点为圆心，2～5像素为半径在原图副本中画出关节点，连接原图副本中的各关节点，得到人体姿态估计图。

输出模块用于输出人体姿态估计图。

进一步的，神经网络模块包括主干网络模块和后端网络模块，主干网络模块由轻量级的高效网络Efficient-net组成，该主干网络模块用于信息的编码，通过平衡网络的深度、宽度和分辨率来提高模型的准确率；后端网络模块由多个解码器串联而成，用于信息的解码。

更进一步的，一个解码分支由串联的轻量级上采样单元构成，即一个轻量级上采样单元为一个解码器。

更进一步的，所述轻量级上采样单元包括：空间注意力模块、深度转置卷积模块、逐点卷积模块和通道注意力模块。

空间注意力模块用于自适应地突出特征图中的关节点相关区域。

深度转置卷积模块用于对特征图进行运算，本发明采用3×3大小、步长为2的深度转置卷积作为轻量级上采样单元的核心构成部分，其中每个通道的转置卷积只与单个通道的输入特征图进行运算，以此减小计算量和参数量。

逐点卷积模块为1×1卷积，用于整合各个通道的信息，同时缩减输出通道数，进一步压缩参数量。

通道注意力模块用于自适应的调整各卷积滤波器的权重，使得对任务更有效的特征的通道权重更大，效果小的或无效的特征的通道权重更小。

进一步的，轻量级上采样单元中各模块的组合顺序包括：由于经过深度转置卷积后特征图的分辨率会增大，因此把对空间变化敏感的空间注意力放置在深度转置卷积前，以避免分辨率增大带来的计算开销；由于1×1逐点卷积用于整合各通道经过深度转置卷积的信息，因此我们将通道注意力模块放置在1×1逐点卷积之后以便网络能够动态地调整含有完整信息的各通道权重。最终的轻量级上采样结构组合如图2所示。

更进一步的，轻量级上采样单元中的各模块工作时，首先使用空间注意力模块调节特征图各像素的权重，通过1×1卷积和Sigmoid进行归一化处理，过滤空间层面的噪声信息干扰，使神经网络更加关注于关节点附近的特征；然后对特征图进行上采样解码，使用深度转置卷积模块将特征图放大2倍，将深度转置卷积模块的每个通道与对应通道的输入特征图分别进行运算，提取特征图各个通道的解码特征信息；再通过逐点卷积模块整合各个通道提取到的解码特征信息，并缩减输出通道数，进一步压缩参数量；最后利用通道注意力模块对解码后输出的各通道的权重进行调整，通道注意力模块通过两个全连接层计算各通道的重要程度，使对任务更有效的解码特征的通道权重更大，效果小的或无效的解码特征的通道权重更小，从而完成整个解码过程。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于轻量级多分支网络的二维人体姿态估计方法，其特征在于，包括以下步骤：

S3、将图像M输入到主干网络中，进行特征提取和信息编码；

S7、将包含行人的图像输入到训练好的神经网络模型中，训练好的神经网络模型输出该图像对应的关节点预测热力图，选取该热力图的最高概率值，将最高概率值对应的坐标作为关节点在图像中的坐标位置输出，并对人体姿态进行可视化处理；

其中，解码过程包括：

S51、调节所要解码特征图的空间信息，采用空间注意力通道调节特征图各像素的权重，通过1×1卷积和Sigmoid进行归一化处理，过滤空间层面的噪声信息干扰；

S52、对特征图进行上采样解码，使用深度转置卷积将特征图放大2倍，将深度转置卷积的每个通道与对应通道的输入特征图分别进行运算，提取特征图各个通道的解码特征信息；

S53、通过1×1逐点卷积整合各个通道提取到的解码特征信息，并缩减输出通道数，进一步压缩参数量；

S54、利用通道注意力对解码后输出的各通道的权重进行调整，从而完成整个解码过程。

2.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法，其特征在于，所述预处理包括：对数据集中的原始图像进行随机翻转、随机旋转、随机缩放。

3.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法，其特征在于，真实标记热力图的生成过程包括：以图像M的关节标记点为中心生成一个高斯分布的概率区域，该区域的中心概率值最大，最接近1，越远离区域中心，概率值越小，此二维高斯概率图即为真实标记热力图，关节标记点z_k＝(x_k,y_k)的真实标记热力图生成公式包括：

其中m_k(x,y)为标记点k在图像上一点产生的高斯置信值，代表该点为标记点的可能性，σ²表示高斯函数的空间方差值，x，y表示图像上任意一点的横纵坐标，x_k，y_k表示标记点k的横纵坐标。

4.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法，其特征在于，所述主干网络上存在多个解码分支结构，解码分支结构分布在不同编码阶段。

5.根据权利要求1所述的一种基于轻量级多分支网络的二维人体姿态估计方法，其特征在于，对人体姿态进行可视化处理包括：以各关节预测坐标点为圆心，以2～5像素为半径在原图副本上画一个实心圆，作为关节点的标记；并按照从头至脚的顺序依次将预测点连接起来，形成肢体连线，得到具有关节点连线的人体姿态图片和关节点具体坐标。

6.一种基于轻量级多分支网络的二维人体姿态估计系统，其特征在于，包括：图像获取模块，数据预处理模块，行人检测模块，可视化模块，神经网络模块，输出模块；

图像获取模块用于输入数据集，获取原始图像信息；

数据预处理模块用于对输入的数据集中的原始图像进行翻转、旋转、缩放处理，对有限的训练数据进行扩增；

行人检测模块用于识别并框选出图像中的行人；

神经网络模块用于网络的训练和预测热力图的生成；

可视化模块用于对神经网络模块输出的预测热力图进行可视化处理，将预测热力图中的最大置信点作为各个关节点的位置，在原图副本中画出关节点，连接原图副本中的各关节点，得到人体姿态估计图；

输出模块用于输出人体姿态估计图；

所述神经网络模块包括主干网络模块和后端网络模块，主干网络模块由轻量级的高效网络Efficient-net组成，该主干网络模块用于信息的编码，平衡网络的深度、宽度和分辨率；后端网络模块由多个解码分支构成，用于信息的解码；

各解码分支由多个解码器串联而成，单个解码器放大倍数为2倍，将前面压缩的小特征图逐级放大，逐步解码，使得网络能够以对应不同复杂度的编码信息，使得由浅层到深层的多分支解码结构呈现逐步细化的解码过程；解码过程包括：

7.根据权利要求6所述的一种基于轻量级多分支网络的二维人体姿态估计系统，其特征在于，一个解码分支由多个轻量级上采样单元串联而成。

8.根据权利要求7所述的一种基于轻量级多分支网络的二维人体姿态估计系统，其特征在于，所述轻量级上采样单元包括：空间注意力模块、深度转置卷积模块、逐点卷积模块和通道注意力模块，空间注意力模块用于自适应地突出特征图中的关节点相关区域；深度转置卷积模块用于对特征图进行运算；逐点卷积模块用于将各个通道的信息进行整合；通道注意力模块用于自适应的调整各卷积滤波器的权重，使对任务更有效的特征的通道权重更大，效果小的或无效的特征的通道权重更小。