CN111738091A

CN111738091A - 一种基于多任务深度学习的姿态估计与人体解析系统

Info

Publication number: CN111738091A
Application number: CN202010464461.XA
Authority: CN
Inventors: 吴渊; 金城; 袁梓
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-10-02

Abstract

本发明公开了一种基于多任务深度学习的姿态估计与人体解析系统。本发明系统包括人体检测子网和姿态估计与人体解析联合学习子网；输入图像首先经过人体检测子网得到人体的位置、掩码等信息，并根据这些信息从多人图像中提取出无干扰的单人图像；再将无干扰的单人图像经过姿态估计与人体解析联合学习子网，得到姿态估计结果和多粒度人体解析结果；最后将单人姿态估计结果和多粒度人体解析结果合并到原图像上。本发明基于人体姿态区分不同人体实例，在多人图像上取得了更好的人体检测效果；本发明中能提升姿态估计与人体解析这两个任务的准确率；在人体解析任务上采用级联网络结构，能有效提升人体解析准确率，便于更细解析粒度上扩展。

Description

一种基于多任务深度学习的姿态估计与人体解析系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多任务深度学习的姿态估计与人体解析系统。

背景技术

姿态估计与人体解析是计算机视觉领域热点研究任务：姿态估计任务的目标是预测出图像中的人体关键点位置，得到每个人的姿态结构；人体解析任务的目标是分割出图像中的身体语义部分，得到每个像素点对应的人体部位。目前主流方法大多只针对其中一个任务进行研究，没有充分利用这两个任务的相关性，同时没有考虑实际场景下人体相互遮挡的情况：在通用目标检测系统的基础上做姿态估计任务，或者在通用目标检测系统的基础上做人体解析任务。

本发明针对目前主流的方法大多只针对姿态估计与人体解析中一个任务进行研究，没有充分利用这两个任务的相关性，同时没有考虑实际场景下人体相互遮挡的情况提出了用于姿态估计与人体解析的多任务联合学习系统，并针对现有难点提出了解决方案。

发明内容

为解决现有技术存在的问题，本发明提出了一种基于多任务深度学习的姿态估计与人体解析系统，该系统能针对姿态估计任务和人体解析任务，提高对多人图像的姿态估计与人体解析的准确率。

本发明的技术方案具体介绍如下。

一种基于多任务深度学习的姿态估计与人体解析系统，其包括基于姿态特征的人体检测子网和姿态估计与人体解析联合学习子网；其中：

所述基于姿态特征的人体检测子网，将原始的单张多人图像输入得到姿态特征、人体掩码和分割的多张单人图片三类输出结果，然后进行拼接，输入到姿态估计与人体解析的联合学习子网中；

所述姿态估计与人体解析联合学习子网，首先用ResNet-101在基于姿态特征的人体检测子网基础上进一步提取图像特征，得到的ResNet-101第四阶段图像特征用于姿态估计分支的输入，ResNet-101第五阶段特征用于人体解析分支的输入；所述姿态估计分支由一个姿态提取模块和若干个姿态细化模块组成；所述人体解析分支结构和姿态估计分支对称，人体解析分支由解析提取模块和若干个解析细化模块组成；姿态提取模块接收ResNet-101第四阶段图像特征，输出姿态特征与姿态估计结果；解析提取模块接收ResNet-101第五阶段特征，输出解析特征和人体解析结果；姿态提取模块和多阶段的姿态细化模块相连，姿态细化模块的输入由上一阶段的姿态特征与姿态估计结果、人体解析结果三者拼接而成，输出为姿态特征与姿态估计结果；解析提取模块和多阶段的解析细化模块相连，解析细化模块的输入由上一阶段的解析特征与人体解析结果、姿态估计结果三者拼接而成，输出为解析特征和人体解析结果。

本发明中，基于姿态特征的人体检测子网由特征提取模块、对齐模块和分割模块组成；其中：

特征提取模块，其采用沙漏网络，首先原始图片通过该特征提取网络输出热力图，对应人体关键点；接着通过确定热力图中的最大值以确定关键点的位置，连接关键点得到粗略的人体姿态；

对齐模块，其先选取若干常见姿态作为标准姿态列表，然后将骨干特征提取网络所提取的人体姿态表示为三维向量列表P，标准姿态列表中的姿态表示为P^j，选择与人体姿态P距离值最低的标准姿态P^′，再在确定标准姿态P'后，计算人体姿态P与标准姿态P'的仿射变换矩阵H，人体姿态坐标经仿射变换后尽可能接近标准姿态坐标，最后将单人图像与其人体姿态一起根据仿射变换矩阵H做图像变换，并将变换后图像统一缩放成同一尺寸；

分割模块，其包括依次连接的卷积层、若干个残差单元、上采样单元、残差单元和卷积层；其首先采用卷积层和若干个残差单元为感兴趣区域ROI获取到足够大的感受野，然后基于上采样单元恢复分辨率，最后使用残差单元和卷积层将特征恢复到原图像尺寸得到最终人体掩码。

本发明中，姿态估计分支的最终输出为人体关键点热力图，根据热力图可得到人体关键点位置，连接人体关键点形成人体姿态，即人体骨架。

本发明中，姿态提取模块用于提取姿态特征并形成粗略人体关键点热力图，姿态提取模块网络层由6层卷积核大小为3*3的卷积层以及2层卷积核大小为1*1的卷积层组成，其前6层3*3卷积用于进一步提取姿态特征，后2层将姿态特征变换为16通道，每通道的特征图对应一个关键点的热力图。

本发明中，姿态细化模块网络层包括1层卷积核大小为1*1的卷积层、从卷积核大小为3*3逐步增加到卷积核大小为9*9的增量卷积层以及2层卷积核大小为1*1的卷积层；姿态细化模块首先通过1*1卷积层将上一阶段的输出变换到固定通道的特征图上；然后将姿态特征、变换后的姿态估计结果与解析结果这三个特征图进行拼接得到融合特征图；融合特征图再通过增量卷积层达到逐阶段细化的目标，最后使用两层卷积核大小为1*1的卷积层将姿态特征变换为16通道上产生人体关键点热力图。

本发明中，所述解析提取模块和解析细化模块的网络层中包括卷积层和多孔空间金字塔池化ASPP层。

本发明中，针对基于多任务深度学习的姿态估计与人体解析系统的训练流程如下：

步骤S1，结合LIP与PASCAL-Person两个主流的标准数据集，生成粒度为5的人体解析标签，并命名为LIP-PASCAL-5，用作训练集之一；

步骤S2，搭建基于多任务深度学习的姿态估计与人体解析系统；

步骤S3，将步骤S1中的粒度为5的人体解析标签LIP-PASCAL-5和主流数据集LIP作为训练集输入基于多任务深度学习的姿态估计与人体解析系统进行模型训练；具体步骤如下：

步骤S3-1，读取部分预训练模型，对于预训练模型中没有的模型参数进行随机赋值；

步骤S3-2，将训练集中各个训练图像依次输入构建好的基于多任务深度学习的姿态估计与人体解析系统中并进行一次迭代；

步骤S3-3，迭代后，采用各个阶段的损失函数之和作为姿态估计与人体解析联合子网的总损失函数；总损失函数具有以下的特征：

人体解析的损失函数如公式(1)所示，其中

是人体解析网络输出的第i部位的解析结果，

是第i部位人体解析真实值，N为解析粒度即人体被分解成身体部位的数量，逐部位累加得到该粒度下的人体解析损失函数；

姿态估计损失函数如公式(2)所示，其中

是姿态估计网络输出的第j关键点热力图，

是第j关键点热力图的真实值，M是人体关键点数量，每个阶段M都为16，逐关键点累加得到姿态估计损失函数；

每阶段的损失函数为姿态估计分支与人体解析分支损失函数之和，如公式(3)所示，表示联合学习子网中姿态估计任务与人体解析任务的相互影响；总损失函数为所有阶段的损失函数之和，如公式(4)所示，用于所有粒度下保证姿态估计与人体解析预测结果的正确性；

计算得到的损失误差反向传播，从而更新模型参数；

步骤S3-4，重复步骤S3-2和S3-3直至达到训练条件，得到训练好的基于多任务深度学习的姿态估计与人体解析系统。

和现有技术相比，本发明的有益效果在于：

本发明基于人体姿态区分不同人体实例，在多人图像上取得了更好的人体检测效果；采用多任务联合学习系统使姿态估计与人体解析两个任务相互促进，同时提升了这两个任务的准确率；在人体解析任务上采用由粗到细的级联网络结构，随着级联层数增加人体解析粒度，不但有效提升人体解析准确率，还便于在更细解析粒度上的扩展。本发明所提系统在多人姿态估计、人体解析任务上的表现均优于现有方法。

附图说明

图1：一种基于多任务深度学习的姿态估计与人体解析系统示意图。

图2：特征提取网络。

图3：人体关键点的设定。

图4：对齐模块示意图。

图5：14种常见姿态。

图6：分割模块网络结构图。

图7：多孔空间金字塔池化示意图。

图8：一种基于多任务深度学习的姿态估计与人体解析系统的训练流程图。

图9：姿态估计可视化结果。

具体实施方式

本发明提出的一种基于多任务深度学习的姿态估计与人体解析系统分为两个部分：基于姿态特征的人体检测子网，姿态估计与人体解析联合学习子网。整个系统的示意图如图1所示。

基于姿态特征的人体检测子网由特征提取、对齐模块、分割模块三部分构成。原始的单张多人图像输入基于姿态特征的人体检测子网后可以得到姿态特征、人体掩码、分割的多张单人图片三类输出结果，然后将它们进行拼接，输入到姿态估计与人体解析的联合学习子网中。

姿态估计与人体解析联合学习子网的设计如图1中间部分所示，ResNet-101在人体检测子网基础上进一步提取图像特征，第四阶段特征用于姿态估计分支的输入，第五阶段特征用于人体解析分支的输入。姿态估计分支由一个姿态提取模块和两个姿态细化模块组成：姿态提取模块接收ResNet-101第四阶段图像特征，输出姿态特征与姿态估计结果；随后连接多阶段的姿态细化模块，姿态细化模块的输入由上一阶段的姿态特征、姿态估计结果、人体解析结果这三者拼接而成，输出为姿态特征与姿态估计结果。人体解析分支结构与之对称，两个分支的结果在拼接后输入到下一阶段。基于共享特征提取网络与多阶段联合学习网络结构达到多任务学习的目标。

下面介绍本发明的具体内容：

一、基于姿态特征的人体检测子网

(1)特征提取模块

本发明提出的一种基于多任务深度学习的姿态估计与人体解析系统中人体检测子网的特征提取模块网络如图2所示。图2上半部分的网络示意图为用于提取图像特征和姿态特征的堆叠沙漏网络^[1]。图2下半部分的网络示意图为单个沙漏网络，沙漏网络设计成对称的拓扑结构。

原始图片通过该特征提取网络输出16张热力图，对应人体的16个关键点。关键点的选取如图3所示。每一张热力图表示为一个h*w的矩阵，h，w分别代表原始图像的宽和高。某个热力图矩阵中的值代表了该像素点所在位置是某个关键点的概率，取值为0到1。接着通过确定热力图中的最大值以确定关键点的位置，连接关键点得到粗略的人体姿态，其中每一个关键点具体表示为三维向量，每一个关键点向量为C_i＝(x,y,v)∈R³，表示该关键点在图像中的坐标为(x,y)，可见度为v，v代表的是当该关键点被遮挡的情况下，预测改点的关键点的概率，取值为0到1。人体姿态表示为向量列表Pose＝(C₁,C₂,C₃,…,C_m)∈R^m×3，m＝16表示人体关键点总数。

(2)对齐模块

为了突出人体姿态所对应的主要人体，在分割模块前加入对齐模块。对齐模块由以下四个步骤组成，流程示意图如图4所示。

(a)预处理出标准姿态列表

该步骤为离线操作，预先选取14种常见姿态(如图5所示)作为标准姿态列表用于后续步骤。

(b)确定最相近的标准姿态P'

特征提取网络所提取的人体姿态表示为三维向量列表P，标准姿态列表中的姿态表示为P^j，使用公式(1)度量两个姿态之间的距离，选择与人体姿态P距离值最低的标准姿态定义为P′。

(c)计算仿射变换矩阵H

在确定标准姿态P'后，使用公式(2)计算人体姿态P与标准姿态P'的仿射变换矩阵H。

H＝argmin‖H·P-P^′‖² (2)

(d)图像变换

将单人图像与其人体姿态一起根据仿射变换矩阵H做图像变换^[2](旋转,比例转换,x轴平移,y轴平移,左右翻转)。最后将变换后图像统一缩放成64*64的统一尺寸，输入进分割模块。

(3)分割模块

分割网络的网络结构示意图如图6所示，首先是卷积核大小为7*7、步长为2的卷积层，随后是10个标准残差单元，以便为感兴趣区域ROI获取到足够大的感受野。10个残差单元所能获取的感受野大约为50*50像素，可以用于64*64尺寸的标准输入图像。之后，使用双线性差值进行上采样来恢复分辨率，并且使用一个残差单元和卷积核大小为1*1、步长为1的卷积层将特征恢复到原图像尺寸来得到最终人体掩码。人体掩码表示为一个w*h的矩阵，其中w为原图像的宽，h为原图像的高。在矩阵中，取值为布尔变量，true代表该像素点是人体范围内的像素点，false则表示该像素点不是人体范围内的像素点。

二、姿态估计与人体解析联合学习子网

原始图像(宽为w，高为h)经人体检测子网产生了姿态特征，即热力图，存储在16个h*w的矩阵中；人体掩码，w*h的矩阵；分割后的单人图像，3通道的w*h的矩阵。ResNet-101通过这三部分进一步提取图像特征，ResNet第四阶段尺寸为48*48*1024的特征用于姿态估计分支的输入，ResNet第五阶段尺寸为48*48*2048的特征用于人体解析分支的输入。

(1)姿态估计分支

姿态估计分支为姿态估计任务特定的网络结构，由一个姿态提取模块和2个姿态细化模块组成。

(a)姿态提取模块

姿态提取模块用于提取姿态特征并形成人体关键点热力图。姿态提取模块由6层卷积核大小为3*3的卷积层以及2层卷积核大小为1*1的卷积层组成，该模块网络层设计如表1所示。前6层3*3卷积用于进一步提取姿态特征，该姿态特征作为下一阶段姿态细化模块的输入；后2层将姿态特征变换为16通道，每通道的特征图对应一个关键点的热力图，该热力图一方面作为姿态细化模块的输入用于迭代细化姿态估计结果，另一方面作为解析模块的输入用于辅助人体解析任务。

表1姿态提取模块网络层设计

网络层	输入	卷积核尺寸	特征通道数
				卷积层1	ResNet-4feature	3×3	512
卷积层2	卷积层1	3×3	512
				卷积层3	卷积层2	3×3	256
卷积层4	卷积层3	3×3	256
				卷积层5	卷积层4	3×3	256
卷积层6(姿态特征输出)	卷积层5	3×3	256
				卷积层7	卷积层6	1×1	512
卷积层8(姿态结果输出)	卷积层7	1×1	16

(b)姿态细化模块

姿态细化模块用于融合人体解析信息并迭代地细化姿态估计结果。姿态细化模块拼接上一阶段两个任务的结果及提取的姿态特征进行处理，并将输出结果送入下一阶段。

该模块网络层设计如表2所示，首先通过1*1卷积将上一阶段的输出变换到固定通道的特征图上；然后将通道数为128的姿态特征、通道数为256的上阶段姿态特征与通道数为128的人体解析结果这三个特征图进行拼接，得到通道数为512的融合特征图，该融合特征图包含上阶段的姿态特征以及两个任务的结果；

融合特征图再通过增量卷积来增加感受野以获取足够多的全局特征与局部特征，从而达到逐阶段细化的目标，该增量卷积部分的卷积核大小从3*3逐步增加到9*9以产生用于下一阶段的姿态特征；

最后两层使用1*1卷积将姿态特征变换为16通道上产生人体关键点热力图，一方面可以直接作为姿态估计任务的预测结果，另一方面可以作为下一阶段的输入用于迭代细化。

表2姿态细化模块网络层设计

(2)人体解析分支

基于多任务学习理论，姿态估计与人体解析网络结构对称。解析提取模块(表3所示)类似于姿态提取模块，解析细化(表4所示)模块类似于姿态细化模块。本发明中人体解析分支上增加使用多孔空间金字塔池化^[3](Atrous Spatial Pyramid Pooling，ASPP)，示意图如图7所示。ASPP层使用4个3*3的多孔卷积核，采样率分别为6、12、18、24.

表3解析提取模块网络层设计

网络层	输入	卷积核尺寸	特征通道数
				卷积层1	ResNet-5feature	3×3	512
卷积层2(解析特征输出)	卷积层1	3×3	256
				ASPP(解析结果输出)	卷积层2	-	5

表4解析细化模块网络层设计

通过姿态细化和解析细化，得到单人姿态估计结果和多粒度人体解析结果。最后将单人姿态估计结果和多粒度人体解析结果合并到原图像上，生成一张骨架图，标有所有关键点并且连接成骨架；还有细化程度分别为5和20的人体解析图。

本发明提供了针对一种基于多任务深度学习的姿态估计与人体解析系统的模型训练流程，包括两个训练过程，第一个是对人体检测网络进行训练，通过OCHuman数据集训练人体检测网络，迭代40次。第二个训练过程是对姿态估计与人体解析联合学习子网进行训练，流程示意图如图8所示，具体步骤如下：

步骤S1，结合LIP与PASCAL-Person两个主流的标准数据集，生成了粒度为5的人体解析标签，并命名为LIP-PASCAL-5，用作训练集之一。具体方法为：将解析粒度为20的LIP标签与解析粒度为7的PASCAL-Person标签中含义相同的身体部位合并，使得该数据集的解析标签可以包括这两个数据集，映射规则如表5和表6所示。在LIP-PASCAL-5中，原LIP数据集映射成粒度为2,5,20这三个粒度标签的数据集，原PASCAL-Person数据集映射成粒度为2,5,7这三个粒度标签的数据集。

表5 LIP数据集人体解析标签

表6 PASCAL-Person数据集人体解析标签

步骤S2，在tensorflow1.8上搭建基于多任务深度学习的姿态估计与人体解析系统；

步骤S3，设定模型的超参数初始值，细化模块个数N＝1，损失函数pose和parsing的比例为1:1，学习率1e-4，图片尺寸为(384*384)，学力为0.9。

步骤S4，将步骤S1中的粒度为5的人体解析标签LIP-PASCAL-5和主流数据集LIP设为总的训练集，在总的训练集中随机选出7616张图片作为训练集输入基于多任务深度学习的姿态估计与人体解析系统进行模型训练。具体步骤如下：

步骤S4-1，读取部分预训练模型，对于预训练模型中没有的模型参数进行随机赋值；

步骤S4-2，将训练集中各个训练图像依次输入构建好的用于姿态估计与人体解析的多任务联合学习系统中并进行一次迭代；

步骤S4-3，迭代后，采用各个阶段的损失函数之和作为姿态估计与人体解析联合子网的总损失函数。总损失函数具有以下的特征：

人体解析的损失函数如公式(3)所示，其中

是人体解析网络输出的第i部位的解析结果，

是第i部位人体解析真实值，N为解析粒度即人体被分解成身体部位的数量，逐部位累加得到该粒度下的人体解析损失函数。

姿态估计损失函数如公式(4)所示，其中

是姿态估计网络输出的第j关键点热力图，

是第j关键点热力图的真实值，M是人体关键点数量，每个阶段M都为16，逐关键点累加得到姿态估计损失函数。

每阶段的损失函数为姿态估计分支与人体解析分支损失函数之和，如公式(5)所示，表示联合学习子网中姿态估计任务与人体解析任务的相互影响。总损失函数为所有阶段的损失函数之和，如公式(6)所示，用于所有粒度下保证姿态估计与人体解析预测结果的正确性。

计算得到的损失误差反向传播，从而更新模型参数；

步骤S5，编写评估程序用以评估人体解析的效果。该程序的具体步骤如下：

步骤S5-1，对于人体解析预测结果，其表示形式为(h*w)的矩阵，h，w为原始图像的高和宽。Groundtruth同样是一个(h*w)的矩阵。矩阵中的元素取值为0,1,2,…,19，表示一共20个类别。在矩阵中，令p_ii表示预测正确的像素数量，即预测矩阵与groundtruth矩阵中同为类别i的元素的个数之和，p_ij表示本属于类i但被预测为类j的像素数量,i,j∈[0,19]。计算总准确率OPA：对于图片中所有的像素点，被正确分类的像素点占总像素点的比例，计算方法如公式(7)所示。

步骤S5-2，判断OPA是否达到87％，若达到了，则训练结束，模型符合要求。若未达到，则判断迭代的次数是否达到了35次，若达到了，则重新设置超参数，回到步骤S3；若未达到，则调整数据集，方法又从总的数据集中挑选7616张图片作为模型的新训练集、对训练集进行裁剪、镜像等操作。然后回到步骤S5，继续迭代。

采用本发明的系统进行姿态估计与人体解析的流程如下：

输入图像首先经过人体检测子网得到人体的位置、掩码等信息，并根据这些信息从多人图像中提取出无干扰的单人图像；再将无干扰的单人图像经过姿态估计与人体解析联合学习子网，得到姿态估计结果和多粒度人体解析结果；最后将单人姿态估计结果和多粒度人体解析结果合并到原图像上。

实施例1

在姿态估计、人体解析这两项任务上本发明(一种基于多任务深度学习的姿态估计与人体解析系统，MPP)和基线方法进行对比实验，使用LIP姿态估计与人体解析数据集，LIP(Look Into People)共有50462张标注图像。在姿态估计标签中包含16个人体关键点，在人体解析标签中包含20种语义分类，其中有19种人体部位和1种背景。LIP数据集覆盖了真实场景下的复杂姿态、不同视角、身体遮挡等情况，其中有2万张为标准的全身图像，而其余3万张图像内容包含了背面、上半身、下半身、遮挡等场景。

实验环境采用如表7所示环境。

表7实验所用环境

1.首先本发明与基线方法在LIP数据集上进行姿态估计对比实验。实验结果如表8所示，可视化对比图如图9。

表8姿态估计方法在LIP数据集与MPII数据集上的PCKh

通过数据可以看出MPP优于其他方法。MPP、JPPNet这两项多任务学习方法相比SHNet、CPM、DeepLab(ResNet-101)这三项单任务学习方法有较大的效果提升，该实验结果可从侧面表明多任务学习方法使用人体解析信息可提升姿态估计任务的效果。MPP系统相比JPPNet系统有更高的准确率。

在图9上图中，复杂姿势下的人体关键点定位容易出错，导致由人体关键点连接而成的骨架图错误，而MPP结合了人体解析特征，促进了关键点的正确定位。在图9下图中，复杂视角使得部分人体关键点不可见，导致关键点定位错误，MPP结合人体的全局特征与局部特征，对不可见的人体关键点同样有较好的预测效果。

2.为验证MPP系统在多粒度人体解析任务上的效果，将在不同解析粒度上进行实验对比。结果如表9所示。

表9在LIP数据集上的人体解析对比实验

MPP系统在总准确率、平均准确率、平均交并比这三项指标上皆优于基线方法。SegNet、FCN-8s、Attention、DeepLab等单任务学习方法在人体解析任务上的平均准确率较低，而JPPNet和MPP多任务学习方法的平均准确率有较高提升。又因为平均准确率考虑所有身体部位，所以姿态估计信息辅助的人体解析能更好地区分细节身体部位，使得平均准确率、平均交并比有较高提升，侧面表明了多任务学习的有效性。

参考文献：

[1]Newell A,Yang K,Jia D.Stacked Hourglass Networks for Human PoseEstimation[J].2016.

[2]Zhang S H,Li R,Dong X,et al.Pose2Seg:Detection Free Human InstanceSegmentation[J].2018.

[3]Chen LC,Papandreou G,Kokkinos I,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2016,40(4):834-848.

Claims

1.一种基于多任务深度学习的姿态估计与人体解析系统，其特征在于，其包括基于姿态特征的人体检测子网和姿态估计与人体解析联合学习子网；其中：

2.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统，其特征在于，基于姿态特征的人体检测子网由特征提取模块、对齐模块和分割模块组成；其中：

对齐模块，其先选取若干常见姿态作为标准姿态列表，然后将骨干特征提取网络所提取的人体姿态表示为三维向量列表P，标准姿态列表中的姿态表示为P^j，选择与人体姿态P距离值最低的标准姿态P′，再在确定标准姿态P'后，计算人体姿态P与标准姿态P'的仿射变换矩阵H，人体姿态坐标经仿射变换后尽可能接近标准姿态坐标，最后将单人图像与其人体姿态一起根据仿射变换矩阵H做图像变换，并将变换后图像统一缩放成同一尺寸；

3.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统，其特征在于，姿态估计分支的最终输出为人体关键点热力图，根据热力图可得到人体关键点位置，连接人体关键点形成人体姿态，即人体骨架。

4.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统，其特征在于，姿态提取模块用于提取姿态特征并形成粗略人体关键点热力图，姿态提取模块网络层由6层卷积核大小为3*3的卷积层以及2层卷积核大小为1*1的卷积层组成，其前6层3*3卷积用于进一步提取姿态特征，后2层将姿态特征变换为16通道，每通道的特征图对应一个关键点的热力图。

5.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统，其特征在于，姿态细化模块网络层包括1层卷积核大小为1*1的卷积层、从卷积核大小为3*3逐步增加到卷积核大小为9*9的增量卷积层以及2层卷积核大小为1*1的卷积层；姿态细化模块首先通过1*1卷积层将上一阶段的输出变换到固定通道的特征图上；然后将姿态特征、变换后的姿态估计结果与解析结果这三个特征图进行拼接得到融合特征图；融合特征图再通过增量卷积层达到逐阶段细化的目标，最后使用两层卷积核大小为1*1的卷积层将姿态特征变换为16通道上产生人体关键点热力图。

6.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统，其特征在于，所述解析提取模块和解析细化模块的网络层中包括卷积层和多孔空间金字塔池化ASPP层。

7.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统，其特征在于，针对该系统的训练流程如下：

人体解析的损失函数如公式(1)所示，其中