CN111738091A - 一种基于多任务深度学习的姿态估计与人体解析系统 - Google Patents

一种基于多任务深度学习的姿态估计与人体解析系统 Download PDF

Info

Publication number
CN111738091A
CN111738091A CN202010464461.XA CN202010464461A CN111738091A CN 111738091 A CN111738091 A CN 111738091A CN 202010464461 A CN202010464461 A CN 202010464461A CN 111738091 A CN111738091 A CN 111738091A
Authority
CN
China
Prior art keywords
human body
analysis
posture
attitude
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010464461.XA
Other languages
English (en)
Inventor
吴渊
金城
袁梓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010464461.XA priority Critical patent/CN111738091A/zh
Publication of CN111738091A publication Critical patent/CN111738091A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务深度学习的姿态估计与人体解析系统。本发明系统包括人体检测子网和姿态估计与人体解析联合学习子网;输入图像首先经过人体检测子网得到人体的位置、掩码等信息,并根据这些信息从多人图像中提取出无干扰的单人图像;再将无干扰的单人图像经过姿态估计与人体解析联合学习子网,得到姿态估计结果和多粒度人体解析结果;最后将单人姿态估计结果和多粒度人体解析结果合并到原图像上。本发明基于人体姿态区分不同人体实例,在多人图像上取得了更好的人体检测效果;本发明中能提升姿态估计与人体解析这两个任务的准确率;在人体解析任务上采用级联网络结构,能有效提升人体解析准确率,便于更细解析粒度上扩展。

Description

一种基于多任务深度学习的姿态估计与人体解析系统
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于多任务深度学习的姿态估计与人体解析系统。
背景技术
姿态估计与人体解析是计算机视觉领域热点研究任务:姿态估计任务的目标是预测出图像中的人体关键点位置,得到每个人的姿态结构;人体解析任务的目标是分割出图像中的身体语义部分,得到每个像素点对应的人体部位。目前主流方法大多只针对其中一个任务进行研究,没有充分利用这两个任务的相关性,同时没有考虑实际场景下人体相互遮挡的情况:在通用目标检测系统的基础上做姿态估计任务,或者在通用目标检测系统的基础上做人体解析任务。
本发明针对目前主流的方法大多只针对姿态估计与人体解析中一个任务进行研究,没有充分利用这两个任务的相关性,同时没有考虑实际场景下人体相互遮挡的情况提出了用于姿态估计与人体解析的多任务联合学习系统,并针对现有难点提出了解决方案。
发明内容
为解决现有技术存在的问题,本发明提出了一种基于多任务深度学习的姿态估计与人体解析系统,该系统能针对姿态估计任务和人体解析任务,提高对多人图像的姿态估计与人体解析的准确率。
本发明的技术方案具体介绍如下。
一种基于多任务深度学习的姿态估计与人体解析系统,其包括基于姿态特征的人体检测子网和姿态估计与人体解析联合学习子网;其中:
所述基于姿态特征的人体检测子网,将原始的单张多人图像输入得到姿态特征、人体掩码和分割的多张单人图片三类输出结果,然后进行拼接,输入到姿态估计与人体解析的联合学习子网中;
所述姿态估计与人体解析联合学习子网,首先用ResNet-101在基于姿态特征的人体检测子网基础上进一步提取图像特征,得到的ResNet-101第四阶段图像特征用于姿态估计分支的输入,ResNet-101第五阶段特征用于人体解析分支的输入;所述姿态估计分支由一个姿态提取模块和若干个姿态细化模块组成;所述人体解析分支结构和姿态估计分支对称,人体解析分支由解析提取模块和若干个解析细化模块组成;姿态提取模块接收ResNet-101第四阶段图像特征,输出姿态特征与姿态估计结果;解析提取模块接收ResNet-101第五阶段特征,输出解析特征和人体解析结果;姿态提取模块和多阶段的姿态细化模块相连,姿态细化模块的输入由上一阶段的姿态特征与姿态估计结果、人体解析结果三者拼接而成,输出为姿态特征与姿态估计结果;解析提取模块和多阶段的解析细化模块相连,解析细化模块的输入由上一阶段的解析特征与人体解析结果、姿态估计结果三者拼接而成,输出为解析特征和人体解析结果。
本发明中,基于姿态特征的人体检测子网由特征提取模块、对齐模块和分割模块组成;其中:
特征提取模块,其采用沙漏网络,首先原始图片通过该特征提取网络输出热力图,对应人体关键点;接着通过确定热力图中的最大值以确定关键点的位置,连接关键点得到粗略的人体姿态;
对齐模块,其先选取若干常见姿态作为标准姿态列表,然后将骨干特征提取网络所提取的人体姿态表示为三维向量列表P,标准姿态列表中的姿态表示为Pj,选择与人体姿态P距离值最低的标准姿态P,再在确定标准姿态P'后,计算人体姿态P与标准姿态P'的仿射变换矩阵H,人体姿态坐标经仿射变换后尽可能接近标准姿态坐标,最后将单人图像与其人体姿态一起根据仿射变换矩阵H做图像变换,并将变换后图像统一缩放成同一尺寸;
分割模块,其包括依次连接的卷积层、若干个残差单元、上采样单元、残差单元和卷积层;其首先采用卷积层和若干个残差单元为感兴趣区域ROI获取到足够大的感受野,然后基于上采样单元恢复分辨率,最后使用残差单元和卷积层将特征恢复到原图像尺寸得到最终人体掩码。
本发明中,姿态估计分支的最终输出为人体关键点热力图,根据热力图可得到人体关键点位置,连接人体关键点形成人体姿态,即人体骨架。
本发明中,姿态提取模块用于提取姿态特征并形成粗略人体关键点热力图,姿态提取模块网络层由6层卷积核大小为3*3的卷积层以及2层卷积核大小为1*1的卷积层组成,其前6层3*3卷积用于进一步提取姿态特征,后2层将姿态特征变换为16通道,每通道的特征图对应一个关键点的热力图。
本发明中,姿态细化模块网络层包括1层卷积核大小为1*1的卷积层、从卷积核大小为3*3逐步增加到卷积核大小为9*9的增量卷积层以及2层卷积核大小为1*1的卷积层;姿态细化模块首先通过1*1卷积层将上一阶段的输出变换到固定通道的特征图上;然后将姿态特征、变换后的姿态估计结果与解析结果这三个特征图进行拼接得到融合特征图;融合特征图再通过增量卷积层达到逐阶段细化的目标,最后使用两层卷积核大小为1*1的卷积层将姿态特征变换为16通道上产生人体关键点热力图。
本发明中,所述解析提取模块和解析细化模块的网络层中包括卷积层和多孔空间金字塔池化ASPP层。
本发明中,针对基于多任务深度学习的姿态估计与人体解析系统的训练流程如下:
步骤S1,结合LIP与PASCAL-Person两个主流的标准数据集,生成粒度为5的人体解析标签,并命名为LIP-PASCAL-5,用作训练集之一;
步骤S2,搭建基于多任务深度学习的姿态估计与人体解析系统;
步骤S3,将步骤S1中的粒度为5的人体解析标签LIP-PASCAL-5和主流数据集LIP作为训练集输入基于多任务深度学习的姿态估计与人体解析系统进行模型训练;具体步骤如下:
步骤S3-1,读取部分预训练模型,对于预训练模型中没有的模型参数进行随机赋值;
步骤S3-2,将训练集中各个训练图像依次输入构建好的基于多任务深度学习的姿态估计与人体解析系统中并进行一次迭代;
步骤S3-3,迭代后,采用各个阶段的损失函数之和作为姿态估计与人体解析联合子网的总损失函数;总损失函数具有以下的特征:
人体解析的损失函数如公式(1)所示,其中
Figure BDA0002512131640000031
是人体解析网络输出的第i部位的解析结果,
Figure BDA0002512131640000032
是第i部位人体解析真实值,N为解析粒度即人体被分解成身体部位的数量,逐部位累加得到该粒度下的人体解析损失函数;
Figure BDA0002512131640000033
姿态估计损失函数如公式(2)所示,其中
Figure BDA0002512131640000034
是姿态估计网络输出的第j关键点热力图,
Figure BDA0002512131640000035
是第j关键点热力图的真实值,M是人体关键点数量,每个阶段M都为16,逐关键点累加得到姿态估计损失函数;
Figure BDA0002512131640000036
每阶段的损失函数为姿态估计分支与人体解析分支损失函数之和,如公式(3)所示,表示联合学习子网中姿态估计任务与人体解析任务的相互影响;总损失函数为所有阶段的损失函数之和,如公式(4)所示,用于所有粒度下保证姿态估计与人体解析预测结果的正确性;
Figure BDA0002512131640000041
计算得到的损失误差反向传播,从而更新模型参数;
步骤S3-4,重复步骤S3-2和S3-3直至达到训练条件,得到训练好的基于多任务深度学习的姿态估计与人体解析系统。
和现有技术相比,本发明的有益效果在于:
本发明基于人体姿态区分不同人体实例,在多人图像上取得了更好的人体检测效果;采用多任务联合学习系统使姿态估计与人体解析两个任务相互促进,同时提升了这两个任务的准确率;在人体解析任务上采用由粗到细的级联网络结构,随着级联层数增加人体解析粒度,不但有效提升人体解析准确率,还便于在更细解析粒度上的扩展。本发明所提系统在多人姿态估计、人体解析任务上的表现均优于现有方法。
附图说明
图1:一种基于多任务深度学习的姿态估计与人体解析系统示意图。
图2:特征提取网络。
图3:人体关键点的设定。
图4:对齐模块示意图。
图5:14种常见姿态。
图6:分割模块网络结构图。
图7:多孔空间金字塔池化示意图。
图8:一种基于多任务深度学习的姿态估计与人体解析系统的训练流程图。
图9:姿态估计可视化结果。
具体实施方式
本发明提出的一种基于多任务深度学习的姿态估计与人体解析系统分为两个部分:基于姿态特征的人体检测子网,姿态估计与人体解析联合学习子网。整个系统的示意图如图1所示。
基于姿态特征的人体检测子网由特征提取、对齐模块、分割模块三部分构成。原始的单张多人图像输入基于姿态特征的人体检测子网后可以得到姿态特征、人体掩码、分割的多张单人图片三类输出结果,然后将它们进行拼接,输入到姿态估计与人体解析的联合学习子网中。
姿态估计与人体解析联合学习子网的设计如图1中间部分所示,ResNet-101在人体检测子网基础上进一步提取图像特征,第四阶段特征用于姿态估计分支的输入,第五阶段特征用于人体解析分支的输入。姿态估计分支由一个姿态提取模块和两个姿态细化模块组成:姿态提取模块接收ResNet-101第四阶段图像特征,输出姿态特征与姿态估计结果;随后连接多阶段的姿态细化模块,姿态细化模块的输入由上一阶段的姿态特征、姿态估计结果、人体解析结果这三者拼接而成,输出为姿态特征与姿态估计结果。人体解析分支结构与之对称,两个分支的结果在拼接后输入到下一阶段。基于共享特征提取网络与多阶段联合学习网络结构达到多任务学习的目标。
下面介绍本发明的具体内容:
一、基于姿态特征的人体检测子网
(1)特征提取模块
本发明提出的一种基于多任务深度学习的姿态估计与人体解析系统中人体检测子网的特征提取模块网络如图2所示。图2上半部分的网络示意图为用于提取图像特征和姿态特征的堆叠沙漏网络[1]。图2下半部分的网络示意图为单个沙漏网络,沙漏网络设计成对称的拓扑结构。
原始图片通过该特征提取网络输出16张热力图,对应人体的16个关键点。关键点的选取如图3所示。每一张热力图表示为一个h*w的矩阵,h,w分别代表原始图像的宽和高。某个热力图矩阵中的值代表了该像素点所在位置是某个关键点的概率,取值为0到1。接着通过确定热力图中的最大值以确定关键点的位置,连接关键点得到粗略的人体姿态,其中每一个关键点具体表示为三维向量,每一个关键点向量为Ci=(x,y,v)∈R3,表示该关键点在图像中的坐标为(x,y),可见度为v,v代表的是当该关键点被遮挡的情况下,预测改点的关键点的概率,取值为0到1。人体姿态表示为向量列表Pose=(C1,C2,C3,…,Cm)∈Rm×3,m=16表示人体关键点总数。
(2)对齐模块
为了突出人体姿态所对应的主要人体,在分割模块前加入对齐模块。对齐模块由以下四个步骤组成,流程示意图如图4所示。
(a)预处理出标准姿态列表
该步骤为离线操作,预先选取14种常见姿态(如图5所示)作为标准姿态列表用于后续步骤。
(b)确定最相近的标准姿态P'
特征提取网络所提取的人体姿态表示为三维向量列表P,标准姿态列表中的姿态表示为Pj,使用公式(1)度量两个姿态之间的距离,选择与人体姿态P距离值最低的标准姿态定义为P′。
Figure BDA0002512131640000061
(c)计算仿射变换矩阵H
在确定标准姿态P'后,使用公式(2)计算人体姿态P与标准姿态P'的仿射变换矩阵H。
H=argmin‖H·P-P2 (2)
(d)图像变换
将单人图像与其人体姿态一起根据仿射变换矩阵H做图像变换[2](旋转,比例转换,x轴平移,y轴平移,左右翻转)。最后将变换后图像统一缩放成64*64的统一尺寸,输入进分割模块。
(3)分割模块
分割网络的网络结构示意图如图6所示,首先是卷积核大小为7*7、步长为2的卷积层,随后是10个标准残差单元,以便为感兴趣区域ROI获取到足够大的感受野。10个残差单元所能获取的感受野大约为50*50像素,可以用于64*64尺寸的标准输入图像。之后,使用双线性差值进行上采样来恢复分辨率,并且使用一个残差单元和卷积核大小为1*1、步长为1的卷积层将特征恢复到原图像尺寸来得到最终人体掩码。人体掩码表示为一个w*h的矩阵,其中w为原图像的宽,h为原图像的高。在矩阵中,取值为布尔变量,true代表该像素点是人体范围内的像素点,false则表示该像素点不是人体范围内的像素点。
二、姿态估计与人体解析联合学习子网
原始图像(宽为w,高为h)经人体检测子网产生了姿态特征,即热力图,存储在16个h*w的矩阵中;人体掩码,w*h的矩阵;分割后的单人图像,3通道的w*h的矩阵。ResNet-101通过这三部分进一步提取图像特征,ResNet第四阶段尺寸为48*48*1024的特征用于姿态估计分支的输入,ResNet第五阶段尺寸为48*48*2048的特征用于人体解析分支的输入。
(1)姿态估计分支
姿态估计分支为姿态估计任务特定的网络结构,由一个姿态提取模块和2个姿态细化模块组成。
(a)姿态提取模块
姿态提取模块用于提取姿态特征并形成人体关键点热力图。姿态提取模块由6层卷积核大小为3*3的卷积层以及2层卷积核大小为1*1的卷积层组成,该模块网络层设计如表1所示。前6层3*3卷积用于进一步提取姿态特征,该姿态特征作为下一阶段姿态细化模块的输入;后2层将姿态特征变换为16通道,每通道的特征图对应一个关键点的热力图,该热力图一方面作为姿态细化模块的输入用于迭代细化姿态估计结果,另一方面作为解析模块的输入用于辅助人体解析任务。
表1姿态提取模块网络层设计
网络层 输入 卷积核尺寸 特征通道数
卷积层1 ResNet-4feature 3×3 512
卷积层2 卷积层1 3×3 512
卷积层3 卷积层2 3×3 256
卷积层4 卷积层3 3×3 256
卷积层5 卷积层4 3×3 256
卷积层6(姿态特征输出) 卷积层5 3×3 256
卷积层7 卷积层6 1×1 512
卷积层8(姿态结果输出) 卷积层7 1×1 16
(b)姿态细化模块
姿态细化模块用于融合人体解析信息并迭代地细化姿态估计结果。姿态细化模块拼接上一阶段两个任务的结果及提取的姿态特征进行处理,并将输出结果送入下一阶段。
该模块网络层设计如表2所示,首先通过1*1卷积将上一阶段的输出变换到固定通道的特征图上;然后将通道数为128的姿态特征、通道数为256的上阶段姿态特征与通道数为128的人体解析结果这三个特征图进行拼接,得到通道数为512的融合特征图,该融合特征图包含上阶段的姿态特征以及两个任务的结果;
融合特征图再通过增量卷积来增加感受野以获取足够多的全局特征与局部特征,从而达到逐阶段细化的目标,该增量卷积部分的卷积核大小从3*3逐步增加到9*9以产生用于下一阶段的姿态特征;
最后两层使用1*1卷积将姿态特征变换为16通道上产生人体关键点热力图,一方面可以直接作为姿态估计任务的预测结果,另一方面可以作为下一阶段的输入用于迭代细化。
表2姿态细化模块网络层设计
Figure BDA0002512131640000071
Figure BDA0002512131640000081
(2)人体解析分支
基于多任务学习理论,姿态估计与人体解析网络结构对称。解析提取模块(表3所示)类似于姿态提取模块,解析细化(表4所示)模块类似于姿态细化模块。本发明中人体解析分支上增加使用多孔空间金字塔池化[3](Atrous Spatial Pyramid Pooling,ASPP),示意图如图7所示。ASPP层使用4个3*3的多孔卷积核,采样率分别为6、12、18、24.
表3解析提取模块网络层设计
网络层 输入 卷积核尺寸 特征通道数
卷积层1 ResNet-5feature 3×3 512
卷积层2(解析特征输出) 卷积层1 3×3 256
ASPP(解析结果输出) 卷积层2 - 5
表4解析细化模块网络层设计
Figure BDA0002512131640000082
Figure BDA0002512131640000091
通过姿态细化和解析细化,得到单人姿态估计结果和多粒度人体解析结果。最后将单人姿态估计结果和多粒度人体解析结果合并到原图像上,生成一张骨架图,标有所有关键点并且连接成骨架;还有细化程度分别为5和20的人体解析图。
本发明提供了针对一种基于多任务深度学习的姿态估计与人体解析系统的模型训练流程,包括两个训练过程,第一个是对人体检测网络进行训练,通过OCHuman数据集训练人体检测网络,迭代40次。第二个训练过程是对姿态估计与人体解析联合学习子网进行训练,流程示意图如图8所示,具体步骤如下:
步骤S1,结合LIP与PASCAL-Person两个主流的标准数据集,生成了粒度为5的人体解析标签,并命名为LIP-PASCAL-5,用作训练集之一。具体方法为:将解析粒度为20的LIP标签与解析粒度为7的PASCAL-Person标签中含义相同的身体部位合并,使得该数据集的解析标签可以包括这两个数据集,映射规则如表5和表6所示。在LIP-PASCAL-5中,原LIP数据集映射成粒度为2,5,20这三个粒度标签的数据集,原PASCAL-Person数据集映射成粒度为2,5,7这三个粒度标签的数据集。
表5 LIP数据集人体解析标签
Figure BDA0002512131640000092
Figure BDA0002512131640000101
表6 PASCAL-Person数据集人体解析标签
Figure BDA0002512131640000102
步骤S2,在tensorflow1.8上搭建基于多任务深度学习的姿态估计与人体解析系统;
步骤S3,设定模型的超参数初始值,细化模块个数N=1,损失函数pose和parsing的比例为1:1,学习率1e-4,图片尺寸为(384*384),学力为0.9。
步骤S4,将步骤S1中的粒度为5的人体解析标签LIP-PASCAL-5和主流数据集LIP设为总的训练集,在总的训练集中随机选出7616张图片作为训练集输入基于多任务深度学习的姿态估计与人体解析系统进行模型训练。具体步骤如下:
步骤S4-1,读取部分预训练模型,对于预训练模型中没有的模型参数进行随机赋值;
步骤S4-2,将训练集中各个训练图像依次输入构建好的用于姿态估计与人体解析的多任务联合学习系统中并进行一次迭代;
步骤S4-3,迭代后,采用各个阶段的损失函数之和作为姿态估计与人体解析联合子网的总损失函数。总损失函数具有以下的特征:
人体解析的损失函数如公式(3)所示,其中
Figure BDA0002512131640000111
是人体解析网络输出的第i部位的解析结果,
Figure BDA0002512131640000112
是第i部位人体解析真实值,N为解析粒度即人体被分解成身体部位的数量,逐部位累加得到该粒度下的人体解析损失函数。
Figure BDA0002512131640000113
姿态估计损失函数如公式(4)所示,其中
Figure BDA0002512131640000114
是姿态估计网络输出的第j关键点热力图,
Figure BDA0002512131640000115
是第j关键点热力图的真实值,M是人体关键点数量,每个阶段M都为16,逐关键点累加得到姿态估计损失函数。
Figure BDA0002512131640000116
每阶段的损失函数为姿态估计分支与人体解析分支损失函数之和,如公式(5)所示,表示联合学习子网中姿态估计任务与人体解析任务的相互影响。总损失函数为所有阶段的损失函数之和,如公式(6)所示,用于所有粒度下保证姿态估计与人体解析预测结果的正确性。
Figure BDA0002512131640000117
Figure BDA0002512131640000118
计算得到的损失误差反向传播,从而更新模型参数;
步骤S5,编写评估程序用以评估人体解析的效果。该程序的具体步骤如下:
步骤S5-1,对于人体解析预测结果,其表示形式为(h*w)的矩阵,h,w为原始图像的高和宽。Groundtruth同样是一个(h*w)的矩阵。矩阵中的元素取值为0,1,2,…,19,表示一共20个类别。在矩阵中,令pii表示预测正确的像素数量,即预测矩阵与groundtruth矩阵中同为类别i的元素的个数之和,pij表示本属于类i但被预测为类j的像素数量,i,j∈[0,19]。计算总准确率OPA:对于图片中所有的像素点,被正确分类的像素点占总像素点的比例,计算方法如公式(7)所示。
Figure BDA0002512131640000121
步骤S5-2,判断OPA是否达到87%,若达到了,则训练结束,模型符合要求。若未达到,则判断迭代的次数是否达到了35次,若达到了,则重新设置超参数,回到步骤S3;若未达到,则调整数据集,方法又从总的数据集中挑选7616张图片作为模型的新训练集、对训练集进行裁剪、镜像等操作。然后回到步骤S5,继续迭代。
采用本发明的系统进行姿态估计与人体解析的流程如下:
输入图像首先经过人体检测子网得到人体的位置、掩码等信息,并根据这些信息从多人图像中提取出无干扰的单人图像;再将无干扰的单人图像经过姿态估计与人体解析联合学习子网,得到姿态估计结果和多粒度人体解析结果;最后将单人姿态估计结果和多粒度人体解析结果合并到原图像上。
实施例1
在姿态估计、人体解析这两项任务上本发明(一种基于多任务深度学习的姿态估计与人体解析系统,MPP)和基线方法进行对比实验,使用LIP姿态估计与人体解析数据集,LIP(Look Into People)共有50462张标注图像。在姿态估计标签中包含16个人体关键点,在人体解析标签中包含20种语义分类,其中有19种人体部位和1种背景。LIP数据集覆盖了真实场景下的复杂姿态、不同视角、身体遮挡等情况,其中有2万张为标准的全身图像,而其余3万张图像内容包含了背面、上半身、下半身、遮挡等场景。
实验环境采用如表7所示环境。
表7实验所用环境
Figure BDA0002512131640000122
Figure BDA0002512131640000131
1.首先本发明与基线方法在LIP数据集上进行姿态估计对比实验。实验结果如表8所示,可视化对比图如图9。
表8姿态估计方法在LIP数据集与MPII数据集上的PCKh
Figure BDA0002512131640000132
通过数据可以看出MPP优于其他方法。MPP、JPPNet这两项多任务学习方法相比SHNet、CPM、DeepLab(ResNet-101)这三项单任务学习方法有较大的效果提升,该实验结果可从侧面表明多任务学习方法使用人体解析信息可提升姿态估计任务的效果。MPP系统相比JPPNet系统有更高的准确率。
在图9上图中,复杂姿势下的人体关键点定位容易出错,导致由人体关键点连接而成的骨架图错误,而MPP结合了人体解析特征,促进了关键点的正确定位。在图9下图中,复杂视角使得部分人体关键点不可见,导致关键点定位错误,MPP结合人体的全局特征与局部特征,对不可见的人体关键点同样有较好的预测效果。
2.为验证MPP系统在多粒度人体解析任务上的效果,将在不同解析粒度上进行实验对比。结果如表9所示。
表9在LIP数据集上的人体解析对比实验
Figure BDA0002512131640000133
Figure BDA0002512131640000141
MPP系统在总准确率、平均准确率、平均交并比这三项指标上皆优于基线方法。SegNet、FCN-8s、Attention、DeepLab等单任务学习方法在人体解析任务上的平均准确率较低,而JPPNet和MPP多任务学习方法的平均准确率有较高提升。又因为平均准确率考虑所有身体部位,所以姿态估计信息辅助的人体解析能更好地区分细节身体部位,使得平均准确率、平均交并比有较高提升,侧面表明了多任务学习的有效性。
参考文献:
[1]Newell A,Yang K,Jia D.Stacked Hourglass Networks for Human PoseEstimation[J].2016.
[2]Zhang S H,Li R,Dong X,et al.Pose2Seg:Detection Free Human InstanceSegmentation[J].2018.
[3]Chen LC,Papandreou G,Kokkinos I,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2016,40(4):834-848.

Claims (7)

1.一种基于多任务深度学习的姿态估计与人体解析系统,其特征在于,其包括基于姿态特征的人体检测子网和姿态估计与人体解析联合学习子网;其中:
所述基于姿态特征的人体检测子网,将原始的单张多人图像输入得到姿态特征、人体掩码和分割的多张单人图片三类输出结果,然后进行拼接,输入到姿态估计与人体解析的联合学习子网中;
所述姿态估计与人体解析联合学习子网,首先用ResNet-101在基于姿态特征的人体检测子网基础上进一步提取图像特征,得到的ResNet-101第四阶段图像特征用于姿态估计分支的输入,ResNet-101第五阶段特征用于人体解析分支的输入;所述姿态估计分支由一个姿态提取模块和若干个姿态细化模块组成;所述人体解析分支结构和姿态估计分支对称,人体解析分支由解析提取模块和若干个解析细化模块组成;姿态提取模块接收ResNet-101第四阶段图像特征,输出姿态特征与姿态估计结果;解析提取模块接收ResNet-101第五阶段特征,输出解析特征和人体解析结果;姿态提取模块和多阶段的姿态细化模块相连,姿态细化模块的输入由上一阶段的姿态特征与姿态估计结果、人体解析结果三者拼接而成,输出为姿态特征与姿态估计结果;解析提取模块和多阶段的解析细化模块相连,解析细化模块的输入由上一阶段的解析特征与人体解析结果、姿态估计结果三者拼接而成,输出为解析特征和人体解析结果。
2.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,基于姿态特征的人体检测子网由特征提取模块、对齐模块和分割模块组成;其中:
特征提取模块,其采用沙漏网络,首先原始图片通过该特征提取网络输出热力图,对应人体关键点;接着通过确定热力图中的最大值以确定关键点的位置,连接关键点得到粗略的人体姿态;
对齐模块,其先选取若干常见姿态作为标准姿态列表,然后将骨干特征提取网络所提取的人体姿态表示为三维向量列表P,标准姿态列表中的姿态表示为Pj,选择与人体姿态P距离值最低的标准姿态P′,再在确定标准姿态P'后,计算人体姿态P与标准姿态P'的仿射变换矩阵H,人体姿态坐标经仿射变换后尽可能接近标准姿态坐标,最后将单人图像与其人体姿态一起根据仿射变换矩阵H做图像变换,并将变换后图像统一缩放成同一尺寸;
分割模块,其包括依次连接的卷积层、若干个残差单元、上采样单元、残差单元和卷积层;其首先采用卷积层和若干个残差单元为感兴趣区域ROI获取到足够大的感受野,然后基于上采样单元恢复分辨率,最后使用残差单元和卷积层将特征恢复到原图像尺寸得到最终人体掩码。
3.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,姿态估计分支的最终输出为人体关键点热力图,根据热力图可得到人体关键点位置,连接人体关键点形成人体姿态,即人体骨架。
4.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,姿态提取模块用于提取姿态特征并形成粗略人体关键点热力图,姿态提取模块网络层由6层卷积核大小为3*3的卷积层以及2层卷积核大小为1*1的卷积层组成,其前6层3*3卷积用于进一步提取姿态特征,后2层将姿态特征变换为16通道,每通道的特征图对应一个关键点的热力图。
5.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,姿态细化模块网络层包括1层卷积核大小为1*1的卷积层、从卷积核大小为3*3逐步增加到卷积核大小为9*9的增量卷积层以及2层卷积核大小为1*1的卷积层;姿态细化模块首先通过1*1卷积层将上一阶段的输出变换到固定通道的特征图上;然后将姿态特征、变换后的姿态估计结果与解析结果这三个特征图进行拼接得到融合特征图;融合特征图再通过增量卷积层达到逐阶段细化的目标,最后使用两层卷积核大小为1*1的卷积层将姿态特征变换为16通道上产生人体关键点热力图。
6.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,所述解析提取模块和解析细化模块的网络层中包括卷积层和多孔空间金字塔池化ASPP层。
7.根据权利要求1所述的基于多任务深度学习的姿态估计与人体解析系统,其特征在于,针对该系统的训练流程如下:
步骤S1,结合LIP与PASCAL-Person两个主流的标准数据集,生成粒度为5的人体解析标签,并命名为LIP-PASCAL-5,用作训练集之一;
步骤S2,搭建基于多任务深度学习的姿态估计与人体解析系统;
步骤S3,将步骤S1中的粒度为5的人体解析标签LIP-PASCAL-5和主流数据集LIP作为训练集输入基于多任务深度学习的姿态估计与人体解析系统进行模型训练;具体步骤如下:
步骤S3-1,读取部分预训练模型,对于预训练模型中没有的模型参数进行随机赋值;
步骤S3-2,将训练集中各个训练图像依次输入构建好的基于多任务深度学习的姿态估计与人体解析系统中并进行一次迭代;
步骤S3-3,迭代后,采用各个阶段的损失函数之和作为姿态估计与人体解析联合子网的总损失函数;总损失函数具有以下的特征:
人体解析的损失函数如公式(1)所示,其中
Figure FDA0002512131630000021
是人体解析网络输出的第i部位的解析结果,
Figure FDA0002512131630000031
是第i部位人体解析真实值,N为解析粒度即人体被分解成身体部位的数量,逐部位累加得到该粒度下的人体解析损失函数;
Figure FDA0002512131630000032
Figure FDA0002512131630000033
Figure FDA0002512131630000034
姿态估计损失函数如公式(2)所示,其中
Figure FDA0002512131630000035
是姿态估计网络输出的第j关键点热力图,
Figure FDA0002512131630000036
是第j关键点热力图的真实值,M是人体关键点数量,每个阶段M都为16,逐关键点累加得到姿态估计损失函数;
Figure FDA0002512131630000037
Figure FDA0002512131630000038
Figure FDA0002512131630000039
每阶段的损失函数为姿态估计分支与人体解析分支损失函数之和,如公式(3)所示,表示联合学习子网中姿态估计任务与人体解析任务的相互影响;总损失函数为所有阶段的损失函数之和,如公式(4)所示,用于所有粒度下保证姿态估计与人体解析预测结果的正确性;
Figure FDA00025121316300000310
Figure FDA00025121316300000311
计算得到的损失误差反向传播,从而更新模型参数;
步骤S3-4,重复步骤S3-2和S3-3直至达到训练条件,得到训练好的基于多任务深度学习的姿态估计与人体解析系统。
CN202010464461.XA 2020-05-27 2020-05-27 一种基于多任务深度学习的姿态估计与人体解析系统 Pending CN111738091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010464461.XA CN111738091A (zh) 2020-05-27 2020-05-27 一种基于多任务深度学习的姿态估计与人体解析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010464461.XA CN111738091A (zh) 2020-05-27 2020-05-27 一种基于多任务深度学习的姿态估计与人体解析系统

Publications (1)

Publication Number Publication Date
CN111738091A true CN111738091A (zh) 2020-10-02

Family

ID=72647911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010464461.XA Pending CN111738091A (zh) 2020-05-27 2020-05-27 一种基于多任务深度学习的姿态估计与人体解析系统

Country Status (1)

Country Link
CN (1) CN111738091A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329728A (zh) * 2020-11-27 2021-02-05 顾翀 一种基于物体检测的多人坐姿检测方法及系统
CN112381760A (zh) * 2020-10-12 2021-02-19 萱闱(北京)生物科技有限公司 一种人体姿态骨节点和手部mask掩码识别方法
CN112446302A (zh) * 2020-11-05 2021-03-05 杭州易现先进科技有限公司 一种人体姿态检测方法、系统、电子设备和存储介质
CN112560665A (zh) * 2020-12-13 2021-03-26 同济大学 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法
CN112613439A (zh) * 2020-12-28 2021-04-06 湖南大学 一种新型的虚拟试衣网络
CN112668522A (zh) * 2020-12-31 2021-04-16 华南理工大学 一种人体关键点与人体掩码联合检测网络及方法
CN112766186A (zh) * 2021-01-22 2021-05-07 北京工业大学 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN113221824A (zh) * 2021-05-31 2021-08-06 之江实验室 基于个体模型生成的人体姿态识别方法
CN113537072A (zh) * 2021-07-19 2021-10-22 之江实验室 一种基于参数硬共享的姿态估计与人体解析联合学习系统
CN115019349A (zh) * 2022-08-09 2022-09-06 中科视语(北京)科技有限公司 图像分析方法、装置、电子设备和存储介质
CN115205906A (zh) * 2022-09-15 2022-10-18 山东能源数智云科技有限公司 基于人体解析的仓储作业人员的检测方法、装置及介质
CN115331263A (zh) * 2022-09-19 2022-11-11 北京航空航天大学 鲁棒的姿态估计方法及其在朝向判断的应用及相关方法
CN115565207A (zh) * 2022-11-29 2023-01-03 武汉图科智能科技有限公司 一种融合特征模仿的遮挡场景下行人检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100329560A1 (en) * 2009-06-26 2010-12-30 Changcheng Li Human pose estimation in visual computing
CN107886069A (zh) * 2017-11-10 2018-04-06 东北大学 一种多目标人体2d姿态实时检测系统及检测方法
CN109145867A (zh) * 2018-09-07 2019-01-04 北京旷视科技有限公司 人体姿态估计方法、装置、系统、电子设备、存储介质
CN109190537A (zh) * 2018-08-23 2019-01-11 浙江工商大学 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN111160225A (zh) * 2019-12-26 2020-05-15 北京邮电大学 基于深度学习的人体解析方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100329560A1 (en) * 2009-06-26 2010-12-30 Changcheng Li Human pose estimation in visual computing
CN107886069A (zh) * 2017-11-10 2018-04-06 东北大学 一种多目标人体2d姿态实时检测系统及检测方法
CN109190537A (zh) * 2018-08-23 2019-01-11 浙江工商大学 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN109145867A (zh) * 2018-09-07 2019-01-04 北京旷视科技有限公司 人体姿态估计方法、装置、系统、电子设备、存储介质
CN111160225A (zh) * 2019-12-26 2020-05-15 北京邮电大学 基于深度学习的人体解析方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN DONG: "Towards Unified Human Parsing and Pose Estimation", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
XIAODAN LIANG ETC.: "Look into Person: Joint Body Parsing & Pose", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381760A (zh) * 2020-10-12 2021-02-19 萱闱(北京)生物科技有限公司 一种人体姿态骨节点和手部mask掩码识别方法
CN112446302A (zh) * 2020-11-05 2021-03-05 杭州易现先进科技有限公司 一种人体姿态检测方法、系统、电子设备和存储介质
CN112446302B (zh) * 2020-11-05 2023-09-19 杭州易现先进科技有限公司 一种人体姿态检测方法、系统、电子设备和存储介质
CN112329728A (zh) * 2020-11-27 2021-02-05 顾翀 一种基于物体检测的多人坐姿检测方法及系统
CN112560665B (zh) * 2020-12-13 2022-05-13 同济大学 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法
CN112560665A (zh) * 2020-12-13 2021-03-26 同济大学 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法
CN112613439A (zh) * 2020-12-28 2021-04-06 湖南大学 一种新型的虚拟试衣网络
CN112668522A (zh) * 2020-12-31 2021-04-16 华南理工大学 一种人体关键点与人体掩码联合检测网络及方法
CN112668522B (zh) * 2020-12-31 2023-06-20 华南理工大学 一种人体关键点与人体掩码联合检测网络及方法
CN112766186A (zh) * 2021-01-22 2021-05-07 北京工业大学 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN112766186B (zh) * 2021-01-22 2024-05-28 北京工业大学 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN113221824A (zh) * 2021-05-31 2021-08-06 之江实验室 基于个体模型生成的人体姿态识别方法
CN113537072A (zh) * 2021-07-19 2021-10-22 之江实验室 一种基于参数硬共享的姿态估计与人体解析联合学习系统
CN113537072B (zh) * 2021-07-19 2024-03-12 之江实验室 一种基于参数硬共享的姿态估计与人体解析联合学习系统
CN115019349A (zh) * 2022-08-09 2022-09-06 中科视语(北京)科技有限公司 图像分析方法、装置、电子设备和存储介质
CN115019349B (zh) * 2022-08-09 2022-11-04 中科视语(北京)科技有限公司 图像分析方法、装置、电子设备和存储介质
CN115205906B (zh) * 2022-09-15 2022-12-23 山东能源数智云科技有限公司 基于人体解析的仓储作业人员的检测方法、装置及介质
CN115205906A (zh) * 2022-09-15 2022-10-18 山东能源数智云科技有限公司 基于人体解析的仓储作业人员的检测方法、装置及介质
CN115331263A (zh) * 2022-09-19 2022-11-11 北京航空航天大学 鲁棒的姿态估计方法及其在朝向判断的应用及相关方法
CN115331263B (zh) * 2022-09-19 2023-11-07 北京航空航天大学 鲁棒的姿态估计方法及其在朝向判断的应用及相关方法
CN115565207A (zh) * 2022-11-29 2023-01-03 武汉图科智能科技有限公司 一种融合特征模仿的遮挡场景下行人检测方法

Similar Documents

Publication Publication Date Title
CN111738091A (zh) 一种基于多任务深度学习的姿态估计与人体解析系统
Qin et al. U2-Net: Going deeper with nested U-structure for salient object detection
CN111339903B (zh) 一种多人人体姿态估计方法
Ye et al. Spatial attention deep net with partial pso for hierarchical hybrid hand pose estimation
Lu et al. 3DCTN: 3D convolution-transformer network for point cloud classification
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113516693B (zh) 一种快速通用的图像配准方法
Zhang et al. High-quality face image generation based on generative adversarial networks
Avola et al. 3D hand pose and shape estimation from RGB images for keypoint-based hand gesture recognition
Banzi et al. Learning a deep predictive coding network for a semi-supervised 3D-hand pose estimation
Ghorbani et al. Auto-labelling of markers in optical motion capture by permutation learning
Zhang et al. A new deep spatial transformer convolutional neural network for image saliency detection
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
Gao et al. Road extraction using a dual attention dilated-linknet based on satellite images and floating vehicle trajectory data
Lee et al. Connectivity-based convolutional neural network for classifying point clouds
Li et al. DSPCANet: Dual-channel scale-aware segmentation network with position and channel attentions for high-resolution aerial images
Hassan et al. Promising deep semantic nuclei segmentation models for multi-institutional histopathology images of different organs
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
Aghayari et al. Building detection from aerial imagery using inception resnet unet and unet architectures
Jiang et al. Semantic segmentation network combined with edge detection for building extraction in remote sensing images
Wang et al. MDISN: Learning multiscale deformed implicit fields from single images
Oh et al. Local selective vision transformer for depth estimation using a compound eye camera
CN113487546A (zh) 一种特征-输出空间双对齐的变化检测方法
Li et al. Spatial frequency enhanced salient object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201002