CN109376681B

CN109376681B - 一种多人姿态估计方法及系统

Info

Publication number: CN109376681B
Application number: CN201811313362.0A
Authority: CN
Inventors: 黄国恒; 陈小平; 蓝嘉颖; 邓桂扬
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2021-09-03
Anticipated expiration: 2038-11-06
Also published as: CN109376681A

Abstract

本申请所提供的一种多人姿态估计方法，包括：对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片；将各个单人图片和第一卷积层进行卷积得到各个第一热图；将各个单人图片和第二卷积层进行卷积得到各个特征图；将各个特征图及对应的第一热图和预生成的中心显著图进行叠加得到对应的叠加特征图；将各个叠加特征图和第三卷积层进行卷积输出对应的第二热图。可见，姿态估计的操作相比于相关技术更加简单易行，进而姿态估计的速度较快。本申请还提供一种多人姿态估计系统、计算机及计算机可读存储介质，均具有上述有益效果。

Description

一种多人姿态估计方法及系统

技术领域

本申请涉及计算机视觉识别领域，特别涉及一种多人姿态估计方法、系统、计算机及计算机可读存储介质。

背景技术

人体姿态估计是计算机视觉中的重要研究方向，为许多研究方向提供基本结果，例如用于视频监控的行人识别，以及通过2D姿势图去估计3D姿势图。人体姿势估计有两种主要类型，单人姿态估计和多人姿态估计。对于多人姿态估计，主要的方法有两种，一种是自底向上，先检查关键点，再将关键点进行连接，主要的方法是PAF(部分亲和字段)网络；另一种方法是自顶向下，先检测所有人，再用单人姿态估计检测每个人的姿态。

多人姿态估计的主流方法是检测人，再对单人姿态估计。相关技术是使用SSD-512或Faster r-cnn网络进行人体检测，用Stacked Hourglass(沙漏模型)网络进行单人姿态估计。但是，由于沙漏模型复杂的网络结构导致姿态估计操作复杂，进而导致速度较慢。

因此，如何快速进行多人姿态的估计是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的是提供一种多人姿态估计方法、系统、计算机及计算机可读存储介质，能够快速进行多人姿态的估计。

为解决上述技术问题，本申请提供一种多人姿态估计方法，包括：

对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片；

将各个所述单人图片和第一卷积层进行卷积得到各个第一热图；

将各个所述单人图片和第二卷积层进行卷积得到各个特征图；

将各个所述特征图及对应的第一热图和预生成的中心显著图进行叠加得到对应的叠加特征图；

将各个所述叠加特征图和第三卷积层进行卷积输出对应的第二热图。

优选地，所述对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片，包括：

利用Maskr-cnn人体检测算法对所述多人图片进行处理得到各所述人对应的多个边界框；

利用NMS算法将所述多个边界框中的冗余边界框删除，选出目标边界框；

确定所述目标边界框对应的图片为所述单人图片。

优选地，所述利用Maskr-cnn人体检测算法对所述多人图片进行处理得到各所述人对应的多个边界框，包括：

对所述多人图片依次进行ResNET50和FPN处理得到特征图；

将所述特征图经过RPN网络处理得到各个特征对象对应的ROI；

对各个所述ROI依次执行ROIAlign和FC操作得到对应的特征对象的类别及多个边界框；

根据所述类别对各个所述特征对象执行回归操作，筛选出各个所述类别为人对应的多个边界框。

优选地，将所述叠加特征图和第三卷积层进行卷积输出第二热图之后，还包括：

将所述第二热图、中间特征图及所述中心显著图进行叠加得到第二叠加特征图；

将所述第二叠加特征图和第四卷积层进行卷积输出第三热图。

本申请还提供一种多人姿态估计系统，包括：

单人图片获取模块，用于对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片；

第一卷积模块，用于将各个所述单人图片和第一卷积层进行卷积得到各个第一热图；

第二卷积模块，用于将各个所述单人图片和第二卷积层进行卷积得到各个特征图；

叠加模块，用于将各个所述特征图及对应的第一热图和预生成的中心显著图进行叠加得到对应的叠加特征图；

第三卷积模块，用于将各个所述叠加特征图和第三卷积层进行卷积输出对应的第二热图。

优选地，所述单人图片获取模块，包括：

人体检测算法处理单元，用于利用Maskr-cnn人体检测算法对所述多人图片进行处理得到各所述人对应的多个边界框；

冗余边界框删除单元，用于利用NMS算法将所述多个边界框中的冗余边界框删除，选出目标边界框；

单人图片确定单元，用于确定所述目标边界框对应的图片为所述单人图片。

优选地，所述人体检测算法处理单元，包括：

特征图获取子单元，用于对所述多人图片依次进行ResNET50和FPN处理得到特征图；

RPN网络处理子单元，用于将所述特征图经过RPN网络处理得到各个特征对象对应的ROI；

ROI Align和FC操作执行子单元，用于对各个所述ROI依次执行ROI Align和FC操作得到对应的特征对象的类别及多个边界框；

回归操作执行子单元，用于根据所述类别对各个所述特征对象执行回归操作，筛选出各个所述类别为人对应的多个边界框。

优选地，该多人姿态估计系统还包括：

第二叠加模块，用于将所述第二热图、中间特征图及所述中心显著图进行叠加得到第二叠加特征图；

第四卷积模块，用于将所述第二叠加特征图和第四卷积层进行卷积输出第三热图。

本申请还提供一种计算机，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的多人姿态估计方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的多人姿态估计方法的步骤。

本申请所提供的一种多人姿态估计方法，包括：对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片；将各个所述单人图片和第一卷积层进行卷积得到各个第一热图；将各个所述单人图片和第二卷积层进行卷积得到各个特征图；将各个所述特征图及对应的第一热图和预生成的中心显著图进行叠加得到对应的叠加特征图；将各个所述叠加特征图和第三卷积层进行卷积输出对应的第二热图。

该方法中在对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片后，先是分别和卷积层进行卷积得到各个单人图片的第一热图和对应的特征图，然后将第一热图、特征图和预生成的中心显著图进行叠加得到叠加特征图，最后将叠加特征图和第三卷积层进行卷积输出对应的第二热图。可见，姿态估计的操作相比于相关技术更加简单易行，进而姿态估计的速度较快。本申请还提供一种多人姿态估计系统、计算机及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种多人姿态估计方法的流程图；

图2为本申请实施例所提供的CPM网络流程图；

图3为本申请实施例所提供的CPM网络结构示意图；

图4为本申请实施例所提供的特征金字塔网络结构示意图；

图5为本申请实施例所提供的多人姿态估计方法的完整流程图；

图6为本申请实施例所提供的一种多人姿态估计系统的结构框图。

具体实施方式

本申请的核心是提供一种多人姿态估计方法，能够快速进行多人姿态的估计。本申请的另一核心是提供一种多人姿态估计系统、计算机及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术是使用SSD-512或Faster r-cnn网络进行人体检测，用StackedHourglass(沙漏模型)网络进行单人姿态估计。但是，由于沙漏模型复杂的网络结构导致姿态估计操作复杂，进而导致速度较慢。本申请实施例姿态估计的操作相比于相关技术更加简单易行，进而姿态估计的速度较快。具体请参考图1，图1为本申请实施例所提供的一种多人姿态估计方法的流程图，该多人姿态估计方法具体包括：

S101、对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片；

因为本申请实施例是对多人姿态进行估计，所以输入的图片至少包含两个人，具体数值为多少在此不作限定，应由本领域技术人员根据实际情况作出相应的设定。当然了，对于单个人也可用本申请的方法进行姿态估计，所以对于输入的图片为单人图片的情况也在本申请的保护范围内。本申请实施例对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片，对于具体的处理过程在此不作限定，应由本领域技术人员根据实际情况作出相应的设定，通常人体检测算法对上述多人图片进行处理得到各个人对应的多个边界框，NMS算法可以将多个边界框中的冗余边界框删除，选出目标边界框，确定目标边界框对应的图片为单人图片。其中，NMS算法将多个边界框中的冗余边界框删除，可以为后面的姿态估计减轻负担。至于具体为何种人体检测算法，在此也不作限定，应由本领域技术人员根据实际情况作出相应的设定，例如可以为Maskr-cnn人体检测算法。

S102、将各个单人图片和第一卷积层进行卷积得到各个第一热图；

本申请实施例在对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片后，将利用CPM(卷积姿态机)网络进行姿态估计，CPM网络使用多阶段回归对输入图片进行关键点的预测，具有较高的准确率与检测速度，首先将各个单人图片和第一卷积层进行卷积得到各个第一热图。上述第一卷积层只是CPM网络使用的多个卷积层中的一个，在此对CPM网络可以使用卷积层的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。对于将各个单人图片和第一卷积层进行卷积得到各个第一热图的卷积过程不作具体限定，通常CPM网络先利用输入的单人图片预测关键点的位置即用深度卷积神经网络从局部中进行部分检测网络结构，网络的第一阶段的感受野被约束到输出像素的位置周围的小块。

如图2所示，图2为本申请实施例所提供的CPM网络流程图。Stage1:CPM网络使用7个卷积层，3个池化层，原始图片是368*368，经过三次池化得到46*46大小，又因为只有半身结构，只有P个关节，加上背景，因此输出的相应图大小是46*46*P。CPM网络可以有效地在图像上滑动深层网络并从每个160×160图像块中的局部图像证据回归到P+1大小的输出向量，该向量表示该图像中关键点的得分。其中，g操作是指卷积过程，X是输入的单人图片。如图3所示，图3为本申请实施例所提供的CPM网络结构示意图，从图3中可以得知，原始图368*368*3(即单人图片)经过卷积处理后，得到第一热图46*46*10。

S103、将各个单人图片和第二卷积层进行卷积得到各个特征图；

本申请实施例中将各个单人图片和第二卷积层进行卷积得到各个特征图，类似于步骤S102，都是将单人图片和卷积层进行卷积，区别主要在于卷积层的不同。对将各个单人图片和第二卷积层进行卷积得到各个特征图的卷积过程在此也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。由图3可知，在Stage2中原始图368*368*3经过卷积后，得到特征图46*46*32。

S104、将各个特征图及对应的第一热图和预生成的中心显著图进行叠加得到对应的叠加特征图；

本申请实施例在卷积层中断加入串联结构，用来融合三部分信息，一个是Stage1得出的第一热图，二是阶段性卷积的结果即为特征图，三是高斯模板生成的中心约束即为中心显著图，串联结构的尺度不变，深度为42，具体如图2中Stage>＝2部分所示，其中X’表示经过部分卷积得到的特征图。如图3所示，在Stage2部分中第一热图、特征图及中心显著图叠加后得到叠加特征图46*46*43。

S105、将各个叠加特征图和第三卷积层进行卷积输出对应的第二热图。

本申请实施例在将各个特征图及对应的第一热图和预生成的中心显著图进行叠加得到对应的叠加特征图后，将各个叠加特征图和第三卷积层进行卷积输出对应的第二热图。步骤S105和步骤S102方式类似，均是和卷积层进行卷积得到热图。相应的，对于将各个叠加特征图和第三卷积层进行卷积输出对应的第二热图的卷积过程在此也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。如图3所示，在Stage2部分中叠加特征图46*46*43经过卷积得到第二热图46*46*10。

由图3可知，卷积姿态机具有比较深的网络架构，训练这种多层的网络会出现梯度消失。反向传播梯度大小随着输出层和输入层之间中间层数的增加而减小。中间监督训练能解决这个问题，卷积姿态机对每个阶段训练都会产出每个位置的Heatmap(热图)。在每个阶段的输出定义损失函数，用l来表示每个部分预测与真实值直接的误差，符号t表示第t个阶段，每个热图预测的第p个关键点的位置记成

真实值记成

则表示在第t阶段中所有预测关键点与真实值的损失值的l_t由下式给出：

其中，

表示的是真实值与预测值之差绝对值的平方，用于表示误差。

每个阶段通过添加损失函数来获得完整架构的总体损失，并通过以下公式给出：

其中，l_t表示的是第t阶段的损失值，T表示总共为T个阶段，F表示从第一到第t阶段总的损失值。

进一步地，将叠加特征图和第三卷积层进行卷积输出第二热图之后，通常还包括：将第二热图、中间特征图及中心显著图进行叠加得到第二叠加特征图；将第二叠加特征图和第四卷积层进行卷积输出第三热图。相应的，也可通过类似方法得到第四热图，具体可参见图3，由于得到第三热图和第四热图的过程与得到第二热图的过程类似，在此不再赘述。

本申请实施例在对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片后，先是分别和卷积层进行卷积得到各个单人图片的第一热图和对应的特征图，然后将第一热图、特征图和预生成的中心显著图进行叠加得到叠加特征图，最后将叠加特征图和第三卷积层进行卷积输出对应的第二热图。可见，姿态估计的操作相比于相关技术更加简单易行，进而姿态估计的速度较快。

基于上述实施例，本实施例中对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片，通常包括：利用Maskr-cnn人体检测算法对多人图片进行处理得到各人对应的多个边界框；利用NMS算法将多个边界框中的冗余边界框删除，选出目标边界框；确定目标边界框对应的图片为单人图片。其中，利用Mask r-cnn人体检测算法对多人图片进行处理得到各人对应的多个边界框，通常包括：对多人图片依次进行ResNET50和FPN处理得到特征图；将特征图经过RPN网络处理得到各个特征对象对应的ROI；对各个ROI依次执行ROI Align和FC操作得到对应的特征对象的类别及多个边界框；根据类别对各个特征对象执行回归操作，筛选出各个类别为人对应的多个边界框。

本实施例中人体检测算法采用的是Mask r-cnn人体检测算法。基本网络使用ResNet50(深度残差网络)和FPN(特征金字塔网络)进行特征提取，替换Faster r-cnn中使用的vgg网络，ResNet网络具有更强的特征表达能力。为了挖掘多尺度信息，还会使用FPN网络。

FPN网络可以解决多尺度输入问题，从而提高Mask r-cnn检测的准确率。在以往的Faster r-cnn目标检测中，无论是rpn还是Faster r-cnn，ROI应用于最后一层，检测大目标都没有问题，但是小目标检测存在一些问题。如图4所示，图4为本申请实施例所提供的特征金字塔网络结构示意图。因为对于小目标，当卷积到最后一层时，语义信息实际上消失了，对于一个ROI映射到某个feature map的方法是将底层坐标直接除于stride，在多次池化后，映射过去的语义信息就会越小，甚至没有了。因此，FPN(特征金字塔网络)的引入可以解决多尺度检测的问题。

将经过卷积网络后生成的feature map的每一个像素点送入到RPN(区域提取网络)中。其中RPN网络里面有四个神经层。具体为：(1)卷积网络提取的特征首先进入一个填充数为1和通道数为256的3x3的卷积层，这样得到一个长度为256长度的特征表示。(2)以每个像素为中心，生成多个和比例不同的锚框和对应的标注。每个锚框使用其中心像素对应的256维特征表示。(3)在锚框特征和标注上训练一个二分类器，判断其含有感兴趣物体还是只有背影。(4)对每个被判断成含有物体的锚框，进一步预测边界框，然后进入ROI层。

RPN层输出的是实数坐标，输入到ROI层。这里使用的ROI Align，去掉了ROI池化层中定点化过程，从而使不管是输入的RPN(提议区域)还是其分割区域的坐标均使用实数。如果边界不是整数，那么其元素则通过相邻像素插值而来。最后将ROI Align经过FC操作和回归操作，得到各个人对应的多个边界框。

在得到各个人对应的多个边界框后，利用NMS算法将多个边界框中的冗余边界框删除，选出目标边界框；确定目标边界框对应的图片为单人图片。在此对于将多个边界框中的冗余边界框删除，选出目标边界框的过程不作具体限定，应由本领域技术人员根据实际情况作出相应的，通常先将所有的边界框进行得分排序，选出最高分及其对应的边界框，然后再遍历其余的边界框，如果和当前最高分的边界框的重叠面积(IOU)大于一定的阈值，就将该边界框删除，从未处理的边界框中继续选择一个得分最高，重复上述过程选出唯一的目标边界框。

基于上述实施例，可以得出完整的多人姿态估计方法的流程图，如图5所示，图5为本申请实施例所提供的多人姿态估计方法的完整流程图。由图5可知，本申请提出了一种高识别率、高准确率、高速的多人姿态估计的方法。该多人姿态估计方法采用的是“Mask r-cnn+CPM”的结构，相比于相关技术使用的SSD-512或Faster r-cnn人体检测算法，Mask r-cnn人体检测算法在特征提取卷积神经网络中使用的是ResNet50残差网络，对不同尺度的物体有较高的检测效率，这样对下一阶段的姿态估计提供了重要的保障。Mask r-cnn人体检测算法对于目标检测有较高的准确率，在检测速度方面也比较快，能提升姿态估计的准确率。

而且，对于相关技术中采用Stacked Hourglass(沙漏网络)进行姿态估计，由于其本身的堆叠次数较多，由八个Stacked Hourglass(沙漏)串联在一起，这对于网络训练是非常耗时的，而且对训练好的模型由于网络过大而容易影响姿态估计的速度。本申请使用了自上而下的方法，先检测出单人图片，再对每一个单人图片进行姿态估计，从而达到对多个人进行姿态估计的目的。在单人姿态估计中，采用的是CPM(卷积姿态机)网络，这是采用多阶段回归来不断的更新人体关键点，网络结构不算太复杂，而且采用中间监督训练来防止梯度消失。这样使得整体的准确率和检测速度得以提升。

下面对本申请实施例提供的一种多人姿态估计系统、计算机及计算机可读存储介质进行介绍，下文描述的多人姿态估计系统、计算机及计算机可读存储介质与上文描述的多人姿态估计方法可相互对应参照。

请参考图6，图6为本申请实施例所提供的一种多人姿态估计系统的结构框图；该多人姿态估计系统包括：

单人图片获取模块601，用于对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片；

第一卷积模块602，用于将各个单人图片和第一卷积层进行卷积得到各个第一热图；

第二卷积模块603，用于将各个单人图片和第二卷积层进行卷积得到各个特征图；

叠加模块604，用于将各个特征图及对应的第一热图和预生成的中心显著图进行叠加得到对应的叠加特征图；

第三卷积模块605，用于将各个叠加特征图和第三卷积层进行卷积输出对应的第二热图。

基于上述实施例，单人图片获取模块601，通常包括：

人体检测算法处理单元，用于利用Mask r-cnn人体检测算法对多人图片进行处理得到各人对应的多个边界框；

冗余边界框删除单元，用于利用NMS算法将多个边界框中的冗余边界框删除，选出目标边界框；

单人图片确定单元，用于确定目标边界框对应的图片为单人图片。

基于上述实施例，人体检测算法处理单元，通常包括：

特征图获取子单元，用于对多人图片依次进行ResNET50和FPN处理得到特征图；

RPN网络处理子单元，用于将特征图经过RPN网络处理得到各个特征对象对应的ROI；

ROI Align和FC操作执行子单元，用于对各个ROI依次执行ROI Align和FC操作得到对应的特征对象的类别及多个边界框；

回归操作执行子单元，用于根据类别对各个特征对象执行回归操作，筛选出各个类别为人对应的多个边界框。

基于上述实施例，该多人姿态估计系统通常还包括：

第二叠加模块，用于将第二热图、中间特征图及中心显著图进行叠加得到第二叠加特征图；

第四卷积模块，用于将第二叠加特征图和第四卷积层进行卷积输出第三热图。

本申请还提供一种计算机，包括：存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的多人姿态估计方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的多人姿态估计方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种多人姿态估计方法、系统、计算机以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种多人姿态估计方法，其特征在于，包括：

2.根据权利要求1所述的多人姿态估计方法，其特征在于，所述对输入的多人图片进行人体检测算法和NMS算法处理得到各人对应的单人图片，包括：

利用Mask r-cnn人体检测算法对所述多人图片进行处理得到各所述人对应的多个边界框；

确定所述目标边界框对应的图片为所述单人图片。

3.根据权利要求2所述的多人姿态估计方法，其特征在于，所述利用Mask r-cnn人体检测算法对所述多人图片进行处理得到各所述人对应的多个边界框，包括：

对所述多人图片依次进行ResNET50和FPN处理得到特征图；

将所述特征图经过RPN网络处理得到各个特征对象对应的ROI；

对各个所述ROI依次执行ROI Align和FC操作得到对应的特征对象的类别及多个边界框；

4.根据权利要求1所述的多人姿态估计方法，其特征在于，将所述叠加特征图和第三卷积层进行卷积输出第二热图之后，还包括：

5.一种多人姿态估计系统，其特征在于，包括：

6.根据权利要求5所述的多人姿态估计系统，其特征在于，所述单人图片获取模块，包括：

人体检测算法处理单元，用于利用Mask r-cnn人体检测算法对所述多人图片进行处理得到各所述人对应的多个边界框；

7.根据权利要求6所述的多人姿态估计系统，其特征在于，所述人体检测算法处理单元，包括：

8.根据权利要求5所述的多人姿态估计系统，其特征在于，还包括：

9.一种计算机，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的多人姿态估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的多人姿态估计方法的步骤。