CN111160225A - 基于深度学习的人体解析方法和装置 - Google Patents

基于深度学习的人体解析方法和装置 Download PDF

Info

Publication number
CN111160225A
CN111160225A CN201911370038.7A CN201911370038A CN111160225A CN 111160225 A CN111160225 A CN 111160225A CN 201911370038 A CN201911370038 A CN 201911370038A CN 111160225 A CN111160225 A CN 111160225A
Authority
CN
China
Prior art keywords
human body
loss
segmentation
deep learning
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911370038.7A
Other languages
English (en)
Other versions
CN111160225B (zh
Inventor
张闯
徐志鹏
路雨
吴铭
刘家铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shiyi Culture Media Group Co Ltd
Beijing University of Posts and Telecommunications
Original Assignee
Beijing Shiyi Culture Media Group Co Ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shiyi Culture Media Group Co Ltd, Beijing University of Posts and Telecommunications filed Critical Beijing Shiyi Culture Media Group Co Ltd
Priority to CN201911370038.7A priority Critical patent/CN111160225B/zh
Publication of CN111160225A publication Critical patent/CN111160225A/zh
Application granted granted Critical
Publication of CN111160225B publication Critical patent/CN111160225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种基于深度学习的人体解析方法,获取人体RGB目标图像;搭建卷积神经网络,并通过卷积神经网络获取所述人体RGB目标图像的深度特征,人体RGB目标图像的深度特征为高维特征;通过姿态估计操作与人体分割操作对高维特征进行处理,获取相应结果和针对各任务的特征;通过获取相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。该方法具有模型随意可扩的强扩展性,以及可有效地提高模型的准确度,此外,由于使用的模型可同时获取两个任务的输出结果,对于需要同时用到人体关键点和人体分割的任务,具有高效性,灵活性与易用性。本公开还提供了一种基于深度学习的人体解析装置。

Description

基于深度学习的人体解析方法和装置
技术领域
本公开涉及计算机视觉技术领域,具体而言,涉及一种基于深度学习的人体解析方法和图像检索的古文字考释方法和装置。
背景技术
人体解析是一种重要的计算机视觉技术,如图1所示额人体解析范例图,是衣物检索,虚拟试衣等高级任务的重要基础,人体解析的精确程度直接决定了后续任务的完成情况。该技术可应用于多种场景,包括校园内教学质量评估、运动员动作解析、危险地区人员安全和暴力事件预警等。人体解析的任务是给一张包含人的图片,分类出人体上的每个部位,如上衣,裤子,袜子等。以往解决该问题的方法都是将语义分割的方法直接迁移过来,没有意识到人体解析任务自身存在可以利用的因素。
近年来,随着科技的快速发展,人工智能和计算机视觉领域有了长足发展,我国人工智能领域的投入越来越多。目标检测,图像分割等人工智能技术与各行各业融合一起,促进了行业的智能化也不断的提高着整体社会效率。
人体分割是图像分割的子任务,其目标是对一张带有人体的图片逐像素的分割出人体的每一个细粒度的部分并提供更精细的信息帮助理解图片,而人体姿势估计侧重于确定精确的重要身体关节的位置。人体分割是让计算机理解人的最重要的基础之一,人体分割的高精确度可以对一些高级应用产生巨大的影响,如行人重识别,行为监控,行人检测,虚拟试衣和商品自动推荐等。人体分割的传统方法在精度上已经完全不能满足需求,而现有的基于深度学习的人体分割技术方法大都直接采用图像分割的方法,没有考虑到人体各部分之间的关联性。
进一步地,现有技术中,基于卷积神经网络的人体分割方法这一公开涉及一种先用卷积网络提取特征,再同时全连接网络提取ROI(感兴趣区域)和全卷积获得最后的分割结果,利用分类回归和分割损失和反向传播算法更新模型参数,从而获得人体分割结果;另一种基语义一致性的的人体衣物分割方法,该公开一种语义一致性的人体衣物分割方法,首先对数据集中的单帧图像寻找其在语义空间中的相邻图片并组成图片对;利用相邻关系在流行空间联合建模;确定衣物分割的预测模型;使用所述预测模型解析图片中衣物的语义信息。综上所述,现有技术中具有都没有考虑到人体分割中各个部分之间的关系,且具有准确精度低的缺点。
发明内容
为了解决现有技术中的技术问题,本公开实施例提供了一种基于深度学习的人体解析方法和装置,该方法在考虑到关联性后,首先可以更加准确的提取身体的关键点,在有遮挡的情况下也可以很好的进行识别,例如手臂放在身体后;其次可以更全面的对人体进行分割和解析,尤其是对人体边缘部分的分割可以考虑到人体各部位之间的关联性。在今后的实际应用中,拥有更高的工业实践性。
第一方面,本公开实施例提供了一种基于深度学习的人体解析方法,包括以下步骤:获取人体RGB目标图像;搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。
在其中一个实施例中,所述获取人体RGB目标图像包括:获取LIP数据集,其中,所述LIP数据集包括人体分割标签和姿态估计标签。
在其中一个实施例中,还包括:根据所述LIP数据集的所述人体分割标签的标注方式和所述姿态估计标签的标注方式,将ATR数据集中预设数量的图片通过labelme技术工具进行人体关节点信息的标注。
在其中一个实施例中,还包括:将所述人体关节点信息存放在csv表格中,其中,所述人体关节点信息的标注数量为16个人体关节点。
在其中一个实施例中,所述搭建卷积神经网络包括:对ResNet101进行修改操作完成搭建特征提取网络,所述特征提取网络由5部分组成,第一层是1个大小卷积核尺寸为7,步长为2的卷积层和一个步长为2的池化层,其余四层是根据不同数量循环BottleNeck结构,其中,所述BottleNeck结构由两支路构成,第一条支路为shortcut连接,第二条支路为三层卷积层,将所述第一条支路与所述第二条支路进行相加操作。
在其中一个实施例中,所述通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应的结果和针对各任务的特征包括:经过4个卷积核尺寸为3的卷积层,直至卷积层减少通道数量至256;经过三组由卷积核与最近邻差值上采样共同组成的功能操作,获取尺寸和输入相同的人体分割结果与姿态估计结果,其中,所述姿态估计结果的结构与所述人体分割结果的结构相似。
在其中一个实施例中,还包括:对搭建卷积神经网络所形成的模型进行训练与推测操作;所述对搭建卷积神经网络所形成的模型进行训练与推测操作包括:采用批随机梯度下降法训练并更新模型的参数;选用Aadm梯度更新方式,对人体分割结果采用交叉熵损失函数求损失,以及对姿态估计结果采用均方误差的方式求损失,总体损失计算公式如下:
Lossall=Losse1+Lossm1+Losse2+Lossm2+…
其中,Losse1和Lossm1代表模第一次输出人体分割结果和姿态估计结果损失;Losse2和Lossm2代表第二次输出人体分割结果和姿态估计结果损失,其后代表多次循环输出人体分割结果和姿态估计结果损失。
第二方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的方法的步骤。
第三方面,本公开实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
第四方面,本公开实施例提供了一种基于深度学习的人体解析装置,所述装置包括:图像获取模块,用于获取人体RGB目标图像;高维特征获取模块,用于搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;解析模块,用于通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;精修模块,用于通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。
本发明提供的一种基于深度学习的人体解析方法和装置,获取人体RGB目标图像;搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。该方法提出高精度的端到端人体分割模型,该模型采用多阶段多分支的方式充分利用人体之间的相关性;且该方法可同时获得高精度的人体姿态估计结果和人体分割结果。具有模型可在计算资源充分的情况下,随意可扩的强扩展性的有益效果,以及因为使用的数据为专有数据,即训练的目的性强,可有效地提高模型的准确度,此外,由于使用的模型可同时获取两个任务的输出结果,对于一些需要同时用到人体关键点和人体分割的任务,只需要利用本公开所提出的方法即可,具有高效性,灵活性与易用性。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍:
图1为现有技术示意图;
图2为本发明一个实施例中的一种基于深度学习的人体解析方法的步骤流程示意图;
图3(a)-(c)为本发明一个实施例中的一种基于深度学习的人体解析方法的示例图;以及
图4为本发明一个实施例中的一种基于深度学习的人体解析装置的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行进一步的详细介绍。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本公开的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
为了使本发明的目的、技术方案及优点更加清楚明白,以下通过实施例,并结合附图,对本发明一种基于深度学习的人体解析方法和装置的具体实施方式进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
可以理解的是,现有技术中的人体解析方法的准确精度低,具体来说,人体分割中应当对人体的左右半边进行区分,例如左右手应当是不同的类别,但现在的模型对人体左右的区分效果不佳。其二对人体的细节分割不清晰,例如在手臂贴近身体时,容易将手臂算作肢体的一部分。此外,现有技术中的人体解析方法没有考虑人体分割中各个部分之间的关系,具体来说,人体各部位之间有着强烈的相关性,而且有许多方法如关键点估计等已经在描述人个部分之间的相关性,但以往的方法都是直接当作语意分割的任务去解决,并没有找到问题的本质。
本公开所涉及的方法可以很好的对人体的左右两部分进行区分,可以准确的判别左右手和左右脚。对于肢体有部分遮挡和连接的情况,本公开所涉及的方法也可以很好的进行分割。同时本公开所涉及的方法也考虑到了人体各个部分之间的关联性,不但能分割出人体的各个部分,并且在分割中加入了对相邻部位相关性的识别。具有人体解析的高效性、精准性、灵活性与易用性。
需要说明的是,本公开所涉及的方法可概括为三个步骤:即准备数据集,搭建网络与训练网络。具体的,搭建网络中具体包括:经过处理后的图像送入卷积神经网络中提取高维特征,该高维特征分别送入姿态估计分支和人体分割分支,获得相应的结果和针对各任务的特征,在精修模块重利用输出的结果和特征再次输出姿态估计和人体分割的结果。
即详细来说,本公开涉及的方法具体如下:首先为人体RGB目标图像的获取;再通过卷积神经网络,获得深度特征;再次通过姿态估计分支和人体分割分支,初步获得两个任务的结果;最终通过精修操作,通过姿态估计的关节点和全局信息获得最终输出结果。本公开通过使用先进的特征提取操作,可以提高提取特征的质量,同时使用多阶段的输出,增加中间监督信息同时计算结果重复利用,可以有效的提高人体分割的有效性,也获得了人体关节点的信息。其中,SSL-Net采用自监督方式从分割数据集中提取关节点信息加以训练,减少了标注关节点信息的工作量。
综上所述,本公开所涉及的方法基于深度学习将姿态估计和人体分割联合训练,同时获得人体的关节信息和衣物信息,二者相辅相成获得了更高的精度。
如图2所示,为一个实施例中的一种基于深度学习的人体解析方法的流程示意图。具体包括以下步骤:
步骤102,获取人体RGB目标图像。
具体的,获取人体RGB目标图像包括:获取LIP数据集,其中,所述LIP数据集包括人体分割标签和姿态估计标签。
此外,在一个实施例中,还包括:根据所述LIP数据集的所述人体分割标签的标注方式和所述姿态估计标签的标注方式,将ATR数据集中预设数量的图片通过labelme技术工具进行人体关节点信息的标注。其中,人体关节点信息的标注数量为16个人体关节点。由此,提高了数据的专用性与精准性。
进一步地,在一个实施例中,还包括:将16个所述人体关节点信息存放在csv表格中。由此,提高了人体解析的灵活性与易用性。
步骤104,搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征。
具体的,搭建卷积神经网络包括:对ResNet101进行修改操作完成搭建特征提取网络,所述特征提取网络由5部分组成,第一层是1个大小卷积核尺寸为7,步长为2的卷积层和一个步长为2的池化层,其余四层是根据不同数量循环BottleNeck结构,其中,所述BottleNeck结构由两支路构成,第一条支路为shortcut连接,第二条支路为三层卷积层,将所述第一条支路与所述第二条支路进行相加操作。
步骤106,通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征。
具体的,通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应的结果和针对各任务的特征包括:经过4个卷积核尺寸为3的卷积层,直至卷积层减少通道数量至256;经过三组由卷积核与最近邻差值上采样共同组成的功能操作,获取尺寸和输入相同的人体分割结果与姿态估计结果,其中,所述姿态估计结果的结构与所述人体分割结果的结构相似。
步骤108,通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。
此外,在一个实施例中,需要说明的是,本公开所涉及的方法还包括:对搭建卷积神经网络所形成的模型进行训练与推测操作。具体的,对搭建卷积神经网络所形成的模型进行训练与推测操作包括:采用批随机梯度下降法训练并更新模型的参数;选用Aadm梯度更新方式,对人体分割结果采用交叉熵损失函数求损失,以及对姿态估计结果采用均方误差的方式求损失,总体损失计算公式如下:
Lossall=Losse1+Lossm1+Losse2+Lossm2+…
其中,Losse1和Lossm1代表模第一次输出人体分割结果和姿态估计结果损失;Losse2和Lossm2代表第二次输出人体分割结果和姿态估计结果损失,其后代表多次循环输出人体分割结果和姿态估计结果损失。
为了更加清晰与准确地理解与应用本公开提出的基于深度学习的人体解析方法,进行以下示例。需要说明的是,本公开所保护的范围不限于以下示例。
结合图3(a)-(c)所示,图3(a)为基于深度学习的人体解析方法的步骤框架图;图3(b)为BottleNeck结构示意图;图3(c)为基于深度学习的人体解析方法中的模型架构示意图。
具体的,首先获得LIP数据集,其中,LIP数据集的原始数据具有人体分割和姿态估计的标签,依据LIP数据集的标注方式,将ATR数据集中的5000张图片利用labelme工具对每个图片标注16个人体关节点信息,并存放在csv表格中。
其次,搭建卷积神经网络包括ResNet功能操作、姿态估计操作、人体分割操作以及精确操作。具体的,特征提取网络由ResNet101修改而来,原本的ResNet101层由5部分组成,第一层是1个大小卷积核尺寸为7,步长为2的卷积层和一个步长为2的池化层。其后的四层是根据不同数量循环BottleNeck结构。其中,BottleNeck结构由两支路构成,一部分为shortcut连接,一部分为三层卷积层,最后将二者相加。ResNet101网络的最后四层分别由3,4,23,3个BottleNeck结构构成,本方法在原本ResNet基础上进行修改得到了一种编码-解码风格的特征提取操作功能结构。
具体的,对于编码层,去掉第一层的池化层,从而让经过第一层卷积网络的特征有更大的尺寸,将第一层的卷积核为7的卷积层改为两个叠加的卷积核为3的卷积层,这样保证了不变的感受野的情况下减少了计算量也增加了模型的非线性表达能力。第五层之后额外加了第六层网络,并将ResNet101的每层BottleNeck模块数量改为6,6,7,7,7这样每层输出的特征都经过了类似运算量的卷积操作且计算量不变。在修改过的ResNet101层后我们添加了一层金字塔全局池化层,金字塔全局池化层可以有效的给卷积网络提取的特征嵌入全局信息,本方法增加了一个池化核为1*1的分支,从而将原来的4个池化分支变为5个,在经过金字塔全局池化模块之后,输出的特征尺寸为(N,2048,H/32,W/32)。在金字塔全局池化层后,本方法增加了3个上采样模块构成了解码层,该模块由‘双线性插值’上采样方法和一个尺寸为3的卷积核组成,每经过一个上采样模块,特征的通道数量会减少一倍,同时特征尺寸会增大一倍。在每层上采样模块之后,会与编码层对应尺寸的特征进行逐点相加,有效的融合高层语义特征和底层特征。再经过解码层后输出的特征尺寸为(N,512,H/4,W/4)。
在姿态估计操作与人体分割操作方面,需要说明的是,该部分共有两个分支,分别输出姿态估计的结果和人体分割的结果,两个分支的结构相似,先经过4个卷积核尺寸为3的卷积层,最后的卷积层会减少通道数量至256,再经过三组由卷积核与最近邻差值上采样共同组成的功能操作,最后得到了尺寸和输入相同的人体分割和关键点估计的结果。同时本层也会输出在经过3个上采样模块之前的特征,作为各自任务独有的特征信息输送到下一个阶段。此外,在姿态估计操作与人体分割操作这一步骤共有5个输入,分别为特征提取操作抽取的特征和前述骤中的两个分支各自任务对应的输出和特征。本步骤同样具有两个分支来针对两个任务,两个分支的结构大体相似。
其中,对于输入的五个输入,首先会将特征提取层提取的特征(512通道数量)和上阶段中人体分割(20通道数量)和人体姿态估计(16通道数量)得到的输出通过尺寸为1的卷集合映射到256通道,用步长为2的两层池化层减小分割和姿态估计的输出尺寸。再将五个输入从通道方向叠在一起,得到1280通道数量的特征后再经过尺寸为1的卷积核来将5个特征融合在一起并降低通道数量为512,这样就得到了每个分支的输入特征,该特征具有上层人体分割和人体姿态估计输入带来的全局信息,也具有特征提取层的鲁棒性特征。将该特征经过5层尺寸为7的卷积核后再经过两层上采样模块就得到了最后的输出结果。本模块可继续将上采样之前的各任务特征和上采样之后的各任务输出继续输送给后面的模块。
此外,可将精修操作中上采样之前的特征和上采样之后输出与特征提取层的输出继续作为输入输送下一个操作结构中。可以理解的是,只要计算资源充足,可不停部署该功能操作以获得精度提升。
进一步地,在模型训练与推测操作中包括训练与测试推测模块,具体的,本公开采用批随机梯度下降法来训练更新模型参数,选用Aadm梯度更新方式,对人体分割输出采用交叉熵损失函数求的损失,对人体姿态估计输出采用均方误差的方式求的损失。总体的损失函数如下:
Lossall=Losse1+Lossm1+Losse2+Lossm2+…
其中,Losse1和Lossm1代表第一次解析中的输出人体分割输出和姿态估计输出的损失,Losse2和Lossm2代表第二次解析中的两个输出的损失,其后代表多次循环该模块得到的输出损失。
需要说明的是,训练模型时,首先通过调整pytorch模型的requires_grad属性,不更新前述步骤的姿态估计和之后的操作,仅训练LIP数据集和特征提取层的模型,训练完成后,再将所有的功能操作进行联合训练,最后获得结果。综上所述,本公开涉及的基于深度学习的人体解析方法利用了人体各部分之间相关性和关节点信息法从而达到了更高的准确率。
本发明提供的一种基于深度学习的人体解析方法,获取人体RGB目标图像;搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。该方法提出高精度的端到端人体分割模型,该模型采用多阶段多分支的方式充分利用人体之间的相关性;且该方法可同时获得高精度的人体姿态估计结果和人体分割结果。具有模型可在计算资源充分的情况下,随意可扩的强扩展性的有益效果,以及因为使用的数据为专有数据,即训练的目的性强,可有效地提高模型的准确度,此外,由于使用的模型可同时获取两个任务的输出结果,对于一些需要同时用到人体关键点和人体分割的任务,只需要利用本公开所提出的方法即可,具有高效性,灵活性与易用性。
基于同一发明构思,还提供了一种基于深度学习的人体解析装置。由于此装置解决问题的原理与前述一种基于深度学习的人体解析方法相似,因此,该装置的实施可以按照前述方法的具体步骤实现,重复之处不再赘述。
如图4所示,为一个实施例中的一种基于深度学习党的人体解析装置的结构示意图。该基于深度学习的人体解析装置10包括:图像获取模块200、高维特征获取模块400、解析模块600和精修模块800。
其中,图像获取模块200用于获取人体RGB目标图像;高维特征获取模块400用于搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;解析模块600用于通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;精修模块800用于通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。
本发明提供的一种基于深度学习的人体解析装置,首先通过图像获取模块获取人体RGB目标图像;再次通过高维特征获取模块搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;再次通过解析模块通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;最终通过精修模块通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。该装置提出高精度的端到端人体分割模型,该模型采用多阶段多分支的方式充分利用人体之间的相关性;且该方法可同时获得高精度的人体姿态估计结果和人体分割结果。具有模型可在计算资源充分的情况下,随意可扩的强扩展性的有益效果,以及因为使用的数据为专有数据,即训练的目的性强,可有效地提高模型的准确度,此外,由于使用的模型可同时获取两个任务的输出结果,对于一些需要同时用到人体关键点和人体分割的任务,只需要利用本公开所提出的方法即可,具有高效性,灵活性与易用性。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被图1中处理器执行。
本发明实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行上述图1的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为示例性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
为了示例和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种基于深度学习的人体解析方法,其特征在于,包括以下步骤:
获取人体RGB目标图像;
搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;
通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;
通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。
2.根据权利要求1所述的基于深度学习的人体解析方法,其特征在于,所述获取人体RGB目标图像包括:获取LIP数据集,其中,所述LIP数据集包括人体分割标签和姿态估计标签。
3.根据权利要求2所述的基于深度学习的人体解析方法,其特征在于,还包括:根据所述LIP数据集的所述人体分割标签的标注方式和所述姿态估计标签的标注方式,将ATR数据集中预设数量的图片通过labelme技术工具进行人体关节点信息的标注。
4.根据权利要求3所述的基于深度学习的人体解析方法,其特征在于,还包括:将所述人体关节点信息存放在csv表格中,其中,所述人体关节点信息的标注数量为16个人体关节点。
5.根据权利要求1所述的基于深度学习的人体解析方法,其特征在于,所述搭建卷积神经网络包括:对ResNet101进行修改操作完成搭建特征提取网络,所述特征提取网络由5部分组成,第一层是1个大小卷积核尺寸为7,步长为2的卷积层和一个步长为2的池化层,其余四层是根据不同数量循环BottleNeck结构,其中,所述BottleNeck结构由两支路构成,第一条支路为shortcut连接,第二条支路为三层卷积层,将所述第一条支路与所述第二条支路进行相加操作。
6.根据权利要求1所述的基于深度学习的人体解析方法,其特征在于,所述通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应的结果和针对各任务的特征包括:
经过4个卷积核尺寸为3的卷积层,直至卷积层减少通道数量至256;
经过三组由卷积核与最近邻差值上采样共同组成的功能操作,获取尺寸和输入相同的人体分割结果与姿态估计结果,其中,所述姿态估计结果的结构与所述人体分割结果的结构相似。
7.根据权利要求1所述的基于深度学习的人体解析方法,其特征在于,还包括:对搭建卷积神经网络所形成的模型进行训练与推测操作;
所述对搭建卷积神经网络所形成的模型进行训练与推测操作包括:采用批随机梯度下降法训练并更新模型的参数;
选用Aadm梯度更新方式,对人体分割结果采用交叉熵损失函数求损失,以及对姿态估计结果采用均方误差的方式求损失,总体损失计算公式如下:
Lossall=Losse1+Lossm1+Losse2+Lossm2+…
其中,Losse1和Lossm1代表模第一次输出人体分割结果和姿态估计结果损失;Losse2和Lossm2代表第二次输出人体分割结果和姿态估计结果损失,其后代表多次循环输出人体分割结果和姿态估计结果损失。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述权利要求1-7中任一项所述方法的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。
10.一种基于深度学习的人体解析装置,其特征在于,所述装置包括:
图像获取模块,用于获取人体RGB目标图像;
高维特征获取模块,用于搭建卷积神经网络,并通过所述卷积神经网络获取所述人体RGB目标图像的深度特征,所述人体RGB目标图像的深度特征为高维特征;
解析模块,用于通过姿态估计操作与人体分割操作对所述高维特征进行处理,获取相应结果和针对各任务的特征;
精修模块,用于通过获取所述相应结果和针对各任务的特征经过精修操作,再次输出姿态估计结果与人体分割结果。
CN201911370038.7A 2019-12-26 2019-12-26 基于深度学习的人体解析方法和装置 Active CN111160225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911370038.7A CN111160225B (zh) 2019-12-26 2019-12-26 基于深度学习的人体解析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911370038.7A CN111160225B (zh) 2019-12-26 2019-12-26 基于深度学习的人体解析方法和装置

Publications (2)

Publication Number Publication Date
CN111160225A true CN111160225A (zh) 2020-05-15
CN111160225B CN111160225B (zh) 2023-10-13

Family

ID=70556867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911370038.7A Active CN111160225B (zh) 2019-12-26 2019-12-26 基于深度学习的人体解析方法和装置

Country Status (1)

Country Link
CN (1) CN111160225B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738091A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于多任务深度学习的姿态估计与人体解析系统
CN112435345A (zh) * 2020-12-14 2021-03-02 武汉纺织大学 一种基于深度学习的人体三维测量方法及系统
CN113222033A (zh) * 2021-05-19 2021-08-06 北京数研科技发展有限公司 基于多分类回归模型与自注意力机制的单目图像估计方法
CN114511573A (zh) * 2021-12-29 2022-05-17 电子科技大学 一种基于多层级边缘预测的人体解析模型及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080457A1 (en) * 2017-09-08 2019-03-14 Samsung Electronics Co., Ltd. Electronic device and method for automatic human segmentation in image
CN109657534A (zh) * 2018-10-30 2019-04-19 百度在线网络技术(北京)有限公司 对图像中人体进行分析的方法、装置及电子设备
CN110428493A (zh) * 2019-07-12 2019-11-08 清华大学 基于网格形变的单图像人体三维重建方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080457A1 (en) * 2017-09-08 2019-03-14 Samsung Electronics Co., Ltd. Electronic device and method for automatic human segmentation in image
CN109657534A (zh) * 2018-10-30 2019-04-19 百度在线网络技术(北京)有限公司 对图像中人体进行分析的方法、装置及电子设备
CN110428493A (zh) * 2019-07-12 2019-11-08 清华大学 基于网格形变的单图像人体三维重建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUANG ZHANG等: "Trucker Behavior Security Surveillance Based on Human Parsing" *
张骏;范彬;杨新军;: "基于U-NET网络的消防红外图像的人体检测算法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738091A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于多任务深度学习的姿态估计与人体解析系统
CN112435345A (zh) * 2020-12-14 2021-03-02 武汉纺织大学 一种基于深度学习的人体三维测量方法及系统
CN113222033A (zh) * 2021-05-19 2021-08-06 北京数研科技发展有限公司 基于多分类回归模型与自注意力机制的单目图像估计方法
CN114511573A (zh) * 2021-12-29 2022-05-17 电子科技大学 一种基于多层级边缘预测的人体解析模型及方法

Also Published As

Publication number Publication date
CN111160225B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Zeng et al. Srnet: Improving generalization in 3d human pose estimation with a split-and-recombine approach
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN108764292B (zh) 基于弱监督信息的深度学习图像目标映射及定位方法
CN111160225B (zh) 基于深度学习的人体解析方法和装置
CN111291739B (zh) 面部检测、图像检测神经网络训练方法、装置和设备
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN108229559B (zh) 服饰检测方法、装置、电子设备、程序和介质
CN111274994B (zh) 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN111310668B (zh) 一种基于骨架信息的步态识别方法
Mohanty et al. Robust pose recognition using deep learning
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
Waheed et al. Exploiting Human Pose and Scene Information for Interaction Detection
CN111539320A (zh) 基于互相学习网络策略的多视角步态识别方法及系统
CN111783779A (zh) 图像处理方法、装置和计算机可读存储介质
CN111652181A (zh) 目标跟踪方法、装置及电子设备
CN114821096A (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
CN111582154A (zh) 基于多任务骨架姿态划分部件的行人重识别方法
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN108734209A (zh) 基于多图像的特征识别和设备
CN114782979A (zh) 一种行人重识别模型的训练方法、装置、存储介质及终端
Rohani et al. Deep Multi-task Convolutional Neural Networks for Efficient Classification of Face Attributes
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN111882545B (zh) 基于双向信息传递及特征融合的织物疵点检测方法
Wang et al. An improved neural network based on UNet for surface defect segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant