CN111709289A - 一种用于提高人体解析效果的多任务深度学习模型 - Google Patents

一种用于提高人体解析效果的多任务深度学习模型 Download PDF

Info

Publication number
CN111709289A
CN111709289A CN202010418959.2A CN202010418959A CN111709289A CN 111709289 A CN111709289 A CN 111709289A CN 202010418959 A CN202010418959 A CN 202010418959A CN 111709289 A CN111709289 A CN 111709289A
Authority
CN
China
Prior art keywords
output
human body
module
network
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010418959.2A
Other languages
English (en)
Other versions
CN111709289B (zh
Inventor
王毅刚
杜顺程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010418959.2A priority Critical patent/CN111709289B/zh
Publication of CN111709289A publication Critical patent/CN111709289A/zh
Application granted granted Critical
Publication of CN111709289B publication Critical patent/CN111709289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于提高人体解析效果的多任务深度学习模型。本发明包括如下步骤:步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;步骤(3)将训练数据集送入神经网络进行训练;步骤(4)使用训练好的神经网络进行推理验证结果的准确率。本发明首次做到了人体姿态估计、人体边缘检测和人体解析多任务结合,设计了一个全新的深度学习神经网络模型,并且三个任务都达到了不错的效果。

Description

一种用于提高人体解析效果的多任务深度学习模型
技术领域
本发明属于计算机视觉技术领域,具体涉及一种用于提高人体解析效果的多任务深度学习模型。
背景技术
人体解析的概念产生于人体图像身体部位的语义分割,属于语义分割中比较特殊的一种。最早的人体解析任务都是由语义分割的神经网络来完成,包括FCN、DeepLab、SegNet等。随后出现了专门针对人体解析的神经网络,从最早的CO-CNN开始改进了语义分割的网络专用于人体解析,而后的RefineNet、Attention to scale等神经网络也在做相同的工作,还有一些特殊的比如MMAN利用了Gan网络技术用于人体解析。
人体边缘检测任务意在找到图像中人体的轮廓。边缘检测是一个传统图像处理的任务,已有很多寻找图像边缘信息的方法比如Sobel、Canny等算法,但只专注于人体边缘信息的算法很少。在深度学习中,也有一些网络结合了人体边缘检测和人体解析任务,如CE2P网络、PGN网络。
人体姿态估计任务和人体解析同属于人体图像处理任务,人体姿态估计意在寻找并标注人体的骨骼关节点。由于人体图像中多人的原因,该任务分为自上而下和自下而上两种方法,自上而下的方法是先检测出人体在图像中的位置,然后再预测关节点位置,代表性的深度学习模型有AlphaPose;自下而上的方法是先预测出图像中所有的关节点位置,然后再通过二分图匹配的方法把骨架点分到每个人上面,代表性的深度学习模型有OpenPose。
发明内容
本发明为了做到输入一张原图能输出姿态估计、人体边缘检测、人体解析三种任务的结果。本发明在特征共享的情况下新构建了一种用于提高人体解析效果的多任务深度学习模型,并且每个任务都达到了不错的效果。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;
步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;
步骤(3)将训练数据集送入神经网络进行训练;
步骤(4)使用训练好的神经网络进行推理验证结果的准确率。
所述步骤(1)中,设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络,步骤如下:
2-1.骨干网络。
骨干网络由ResNet-101,由5层瓶颈块组成,用于特征提取。
2-2.姿态估计任务网络模块。姿态估计网络模块包括三部分:卷积姿态网络、初始阶段、精炼阶段。
骨干网络的输出特征,分别作为卷积姿态网络、初始阶段、精炼阶段的输入特征;姿态估计任务网络模块的输出包括热力图和部分亲和力场。
所述的卷积姿态网络具体结构包括了连续3组3×3空洞卷积和激活函数的组合,以及一层3×3普通卷积。
所述的初始阶段初始输出热力图和部分亲和力场的阶段,故有两个小分支输出,但小分支前共享了一段特征处理;即先对输入特征进行3组连续的3×3普通卷积和激活函数的组合;然后分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成。两个小分支结构的输出分别为热力图和部分亲和力场。
所述的精炼阶段设计有2个连续的精炼层,每一层递进会使提取的结果更准确。其中每个精炼层包含5个精炼块,每个个精炼块的内容依次是:一个1×1普通卷积降维,2组3×3空洞卷积、归一化、激活函数的组合;组合输出的特征分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成。两个小分支结构的输出分别为热力图和部分亲和力场。
所述的精炼阶段的中第一层精炼层的输入为初始阶段输出的热力图和部分亲和力场的拼接后的特征与卷积姿态网络输出的特征的残差组成;后续精炼层的输入为相邻前一层的精炼层的输出和卷积姿态网络输出的特征的残差组成。
因此,该姿态估计任务网络模块的输出包含3组热力图和部分亲和力场,即初始阶段输出一组,精炼阶段的每个精炼层输出一组;实验证明最后一个阶段输出的结果最为准确。
2-3.边缘检测模块。
边缘检测模块由两层组成,第一层包括3组1×1的空洞卷积、激活函数、归一化的组合,分别作用于ResNet中间3个瓶颈层,第二层包括一个3×3的空洞卷积和1×1的空洞卷积的组合。该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图,该特征图更能够体现图像的细节特征;输出的边缘检测结果是一个二值图。
2-4.人体解析模块。
人体解析模块包含一个PSP模块、特征解码模块和特征增强模块。
PSP模块用于提取图像的细节特征和语义特征,PSP模块的输入是骨干网络的输出,PSP模块将输入特征图先经过4种不同大小的池化输出,再将输出通过线性插值法重新合并成一个特征图输出。
特征解码模块包括5层1×1的空洞卷积,每层卷积之间添加了注意力模块CBAM,CBAM包含通道注意层和空间注意层,分别在通道和大小两个尺度上过滤了部分无效特征。特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成,分别代表语义特征和细节特征的结合;输出为第一种人体解析结果。
特征增强模块包括2层1×1的空洞卷积,其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起;输出第二种人体解析结果;
所述步骤(3)中,将训练数据集送入神经网络进行训练,步骤如下:
3-1.预加载骨干网络模块的预训练参数,然后将训练数据送入多任务神经网络,获取多任务神经网络的输出结果。
所述的训练数据来自于PASCAL-person-part数据集,该数据集为单人或多人的生活场景图片集合,数据集的标签标定了图片中人体的6个身体部位,包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿;数据集还标定了14个人体骨骼关节点,包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝。
3-2.对训练数据中的每个样本,从样本的分割标注信息中提取出人体解析的标签记为classgt-parsing,通过人体解析标签计算出边缘检测的标签记为classgt_edge,再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为clasgt_heatgap以及部分亲和字段PAFs记为classgt_pafs
定义Ltotal、Lparsing、Ledge、Lpose分别为总的损失值、人体解析损失值、边缘检测损失值、姿态估计损失值,具体计算如下:
Figure BDA0002496118470000041
Ledge=LCrossEntropy(classpred_edge,classgt_edge)
Figure BDA0002496118470000051
Ltotal=α1Lparsing+α2Ledge+α3Lpose
其中,classpred_parsing1是预测得到的第一种人体解析的结果,classpred_parsing2是预测得到的第二种人体解析的结果,classpred_edge是预测得到的边缘检测模块输出的结果,classpred_pose是预测得到的姿态估计任务网络模块输出的结果。LCrossEntropy是交叉熵损失函数;LMSE是L2损失函数,LIOU是交并比损失函数;α1、αd、α3是权重。最后将总的损失值Ltotal的值反向传导,更新网络中参数。
所述步骤(4)中,使用步骤(3)中训练好的神经网络进行验证,步骤如下:
4-1.将测试数据送入训练好的神经网络,获取网络输出结果。
4-2.输出结果在评价标准上效果明显;最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。
本发明有益效果如下:
本发明提供了一种姿态估计、边缘检测和人体解析的多任务深度学习模型,对比目前已有的网络模型,我们结合了特征共享、特征融合的思想,做到了多任务输出,并且每个任务的效果都达到了不错的效果。
附图说明
图1为本发明的步骤流程示意图;
图2为本发明深度学习模型的模块示意图;
图3为人体解析模块的特征解码模块中两两卷积间添加的注意力模块示意图;
图4为本发明的人体解析模块的特征增强模块的输入特征拼接示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1-4所示,一种用于提高人体解析效果的多任务深度学习模型,其特征在于包括如下步骤:
步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;
步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;
步骤(3)将训练数据集送入神经网络进行训练;
步骤(4)使用训练好的神经网络进行推理验证结果的准确率。
如图2所示,所述步骤(1)中,设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络,步骤如下:
2-1.骨干网络。
骨干网络由ResNet-101,由5层瓶颈块组成,用于特征提取。
2-2.姿态估计任务网络模块。姿态估计网络模块包括三部分:卷积姿态网络(CPM,Convolutional Pose Machines)、初始阶段(Initial Stage)、精炼阶段(RefinementStage)。
骨干网络的输出特征,分别作为CPM、Initial Stage、Refinement Stage的输入特征;姿态估计任务网络模块的输出包括热力图(HeatMap)和部分亲和力场(PAFs)。
所述的CPM具体结构包括了连续3组3×3空洞卷积(stride=1,padding=1,dilation=1)和激活函数的组合,以及一层3×3普通卷积(stride=1,padding=1)。
所述的Initial Stage为初始输出热力图(HeatMap)和部分亲和力场(PAFs)的阶段,故有两个小分支输出,但小分支前共享了一段特征处理;即先对输入特征进行3组连续的3×3普通卷积(stride=1,padding=1)和激活函数的组合;然后分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积(stride=1,padding=1)和激活函数的组合组成。两个小分支结构的输出分别为热力图(HeatMap)和部分亲和力场(PAFs)。
所述的精炼阶段(Refinement stages)设计有2个连续的精炼层,每一层递进会使提取的结果更准确。其中每个精炼层包含5个精炼块(Refinement Stage Block),每个个精炼块的内容依次是:一个1×1普通卷积降维,2组3×3空洞卷积(stride=1,padding=2,dilation=2)、归一化、激活函数的组合;组合输出的特征分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积(stride=1,padding=1)和激活函数的组合组成。两个小分支结构的输出分别为热力图(HeatMap)和部分亲和力场(PAFs)。
所述的精炼阶段的中第一层精炼层的输入为Initial Stage输出的热力图(HeatMap)和部分亲和力场(PAFs)的拼接后的特征与CPM输出的特征的残差组成;后续精炼层的输入为相邻前一层的精炼层的输出和CPM输出的特征的残差组成。
因此,该姿态估计任务网络模块的输出包含3组热力图(HeatMap)和部分亲和力场(PAFs),即Initial Stage输出一组,精炼阶段的每个精炼层输出一组;实验证明最后一个阶段输出的结果最为准确。
2-3.边缘检测模块。
边缘检测模块由两层组成,第一层包括3组1×1的空洞卷积(stride=1,padding=1,dilation=1)、激活函数、归一化的组合,分别作用于ResNet中间3个瓶颈层,第二层包括一个3×3的空洞卷积(stride=1,padding=1,dilation=1)和1×1的空洞卷积(stride=1,padding=1,dilation=1)的组合。该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图,该特征图更能够体现图像的细节特征;输出的边缘检测结果是一个二值图。
2-4.人体解析模块。
人体解析模块包含一个PSP模块、特征解码模块和特征增强模块。
PSP模块用于提取图像的细节特征和语义特征,PSP模块的输入是骨干网络的输出,PSP模块将输入特征图先经过4种不同大小的池化(输出尺寸分别为1、2、3、6)输出,再将输出通过线性插值法重新合并成一个特征图输出。
如图3所示,特征解码模块包括5层1×1的空洞卷积(stride=1,padding=1,dilation=1),每层卷积之间添加了注意力模块CBAM,CBAM包含通道注意层和空间注意层,分别在通道和大小两个尺度上过滤了部分无效特征。特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成,分别代表语义特征和细节特征的结合;输出为第一种人体解析结果。
如图4所示,特征增强模块包括2层1×1的空洞卷积(stride=1,padding=1,dilation=1),其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起;输出第二种人体解析结果;
所述步骤(3)中,将训练数据集送入神经网络进行训练,步骤如下:
3-1.预加载骨干网络模块的预训练参数,然后将训练数据送入多任务神经网络,获取多任务神经网络的输出结果。
所述的训练数据来自于PASCAL-person-part数据集,该数据集为单人或多人的生活场景图片集合,数据集的标签标定了图片中人体的6个身体部位,包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿;数据集还标定了14个人体骨骼关节点,包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝。
3-2.对训练数据中的每个样本,从样本的分割标注信息中提取出人体解析的标签记为classgt_parsing,通过人体解析标签计算出边缘检测的标签记为classgt_edge,再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为classgt-heatmap以及部分亲和字段PAFs记为classgt_pafs
定义Ltotal、Lparsing、Ledge、Lpose分别为总的损失值、人体解析损失值、边缘检测损失值、姿态估计损失值,具体计算如下:
Figure BDA0002496118470000091
Ledge=LCrossEntropy(classpred_edge,classgt_edge)
Figure BDA0002496118470000092
Ltotal=α1Lparsing+α2Ledge+α3Lpose
其中,classpred_parsing1是预测得到的第一种人体解析的结果,classpred_parsing2是预测得到的第二种人体解析的结果,classpred_edge是预测得到的边缘检测模块输出的结果,classpred-pose是预测得到的姿态估计任务网络模块输出的结果。LCrossEntropy是交叉熵损失函数;LMSE是L2损失函数,LIOU是交并比损失函数;α1、αd、α3是权重。最后将总的损失值Ltotal的值反向传导,更新网络中参数。
所述步骤(4)中,使用步骤(3)中训练好的神经网络进行验证,步骤如下:
4-1.将测试数据送入网络,获取网络输出结果。
4-2.神经网络模型把三个任务统一到了一个端到端的网络模型中,并且三个任务的训练都能收敛。其中,人体边缘检测模块和姿态估计模块属轻量级,运算量较小,并且它们输出的结果在评价标准上都保持了现有的最好效果;而改进的人体解析模块加入注意力机制过滤了无效特征,特征增强部分有了另两个任务的特征补充,最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。
根据步骤(1)中描述,网络输出包括HeatMap、PAFs、人体解析结果、边缘检测结果。人体解析结果为多通道的输出,一个通道对应一个部位的分割,直接做通道最大值合并就得到最终人体解析结果。边缘检测输出是二通道,分别对应黑白二值图,同样做最大值合并得到最终的人体边缘检测结果。HeatMap每个通道对应了每一类关节点的位置,做最大值提取并合并得到关节点结果,多关节点要连成骨架需要利用PAFs。PAFs每个通道对应一对关节点相连的矢量信息,于是寻找同一个人体的两两关节点相连变成了二分图匹配的问题,利用匈牙利算法寻找权值最大的匹配得到图片中所有的人体骨架。最终得到人体关节点和骨架信息,也就是姿态估计的结果。

Claims (4)

1.一种用于提高人体解析效果的多任务深度学习模型,其特征在于包括如下步骤:
步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;
步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;
步骤(3)将训练数据集送入神经网络进行训练;
步骤(4)使用训练好的神经网络进行推理验证结果的准确率。
2.根据权利要求1所述的一种姿态估计、边缘检测和人体解析的多任务深度学习模型,其特征在于:
所述步骤(1)中,设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络,步骤如下:
2-1.骨干网络;
骨干网络由ResNet-101,由5层瓶颈块组成,用于特征提取;
2-2.姿态估计任务网络模块;姿态估计网络模块包括三部分:卷积姿态网络、初始阶段、精炼阶段;
骨干网络的输出特征,分别作为卷积姿态网络、初始阶段、精炼阶段的输入特征;姿态估计任务网络模块的输出包括热力图和部分亲和力场;
所述的卷积姿态网络具体结构包括了连续3组3×3空洞卷积和激活函数的组合,以及一层3×3普通卷积;
所述的初始阶段初始输出热力图和部分亲和力场的阶段,故有两个小分支输出,但小分支前共享了一段特征处理;即先对输入特征进行3组连续的3×3普通卷积和激活函数的组合;然后分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成;两个小分支结构的输出分别为热力图和部分亲和力场;
所述的精炼阶段设计有2个连续的精炼层,每一层递进会使提取的结果更准确;其中每个精炼层包含5个精炼块,每个个精炼块的内容依次是:一个1×1普通卷积降维,2组3×3空洞卷积、归一化、激活函数的组合;组合输出的特征分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成;两个小分支结构的输出分别为热力图和部分亲和力场;
所述的精炼阶段的中第一层精炼层的输入为初始阶段输出的热力图和部分亲和力场的拼接后的特征与卷积姿态网络输出的特征的残差组成;后续精炼层的输入为相邻前一层的精炼层的输出和卷积姿态网络输出的特征的残差组成;
因此,该姿态估计任务网络模块的输出包含3组热力图和部分亲和力场,即初始阶段输出一组,精炼阶段的每个精炼层输出一组;实验证明最后一个阶段输出的结果最为准确;
2-3.边缘检测模块;
边缘检测模块由两层组成,第一层包括3组1×1的空洞卷积、激活函数、归一化的组合,分别作用于ResNet中间3个瓶颈层,第二层包括一个3×3的空洞卷积和1×1的空洞卷积的组合;该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图,该特征图更能够体现图像的细节特征;输出的边缘检测结果是一个二值图;
2-4.人体解析模块;
人体解析模块包含一个PSP模块、特征解码模块和特征增强模块;
PSP模块用于提取图像的细节特征和语义特征,PSP模块的输入是骨干网络的输出,PSP模块将输入特征图先经过4种不同大小的池化输出,再将输出通过线性插值法重新合并成一个特征图输出;
特征解码模块包括5层1×1的空洞卷积,每层卷积之间添加了注意力模块CBAM,CBAM包含通道注意层和空间注意层,分别在通道和大小两个尺度上过滤了部分无效特征;特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成,分别代表语义特征和细节特征的结合;输出为第一种人体解析结果;
特征增强模块包括2层1×1的空洞卷积,其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起;输出第二种人体解析结果。
3.根据权利要求2所述的一种姿态估计、边缘检测和人体解析的多任务深度学习模型,其特征在于:所述步骤(3)中,将训练数据集送入神经网络进行训练,步骤如下:
3-1.预加载骨干网络模块的预训练参数,然后将训练数据送入多任务神经网络,获取多任务神经网络的输出结果;
所述的训练数据来自于PASCAL-person-part数据集,该数据集为单人或多人的生活场景图片集合,数据集的标签标定了图片中人体的6个身体部位,包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿;数据集还标定了14个人体骨骼关节点,包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝;
3-2.对训练数据中的每个样本,从样本的分割标注信息中提取出人体解析的标签记为classgt_parsing,通过人体解析标签计算出边缘检测的标签记为classgt_edge,再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为classgt_heatmap以及部分亲和字段PAFs记为classgt_pafs
定义Ltotal、Lparsing、Ledge、Lpose分别为总的损失值、人体解析损失值、边缘检测损失值、姿态估计损失值,具体计算如下:
Figure FDA0002496118460000031
Ledge=LCrossEntropy(classpred_edge,classgt_edge)
Figure FDA0002496118460000041
Ltotal=α1Lparsing+α2Ledge+α3Lpose
其中,classpred_parsing1是预测得到的第一种人体解析的结果,classpred_parsing2是预测得到的第二种人体解析的结果,classpred_edge是预测得到的边缘检测模块输出的结果,classpred_pose是预测得到的姿态估计任务网络模块输出的结果;LCrossEntropy是交叉熵损失函数;LMSE是L2损失函数,LIOU是交并比损失函数;α1、α2、α3是权重;最后将总的损失值Ltotal的值反向传导,更新网络中参数。
4.根据权利要求3所述的一种基于交错感知卷积的单阶段无锚框目标检测方法,其特征在于:所述步骤(4)中,使用步骤(3)中训练好的神经网络进行验证,步骤如下:
4-1.将测试数据送入训练好的神经网络,获取网络输出结果;
4-2.输出结果在评价标准上效果明显;最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。
CN202010418959.2A 2020-05-18 2020-05-18 一种用于提高人体解析效果的多任务深度学习模型 Active CN111709289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418959.2A CN111709289B (zh) 2020-05-18 2020-05-18 一种用于提高人体解析效果的多任务深度学习模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418959.2A CN111709289B (zh) 2020-05-18 2020-05-18 一种用于提高人体解析效果的多任务深度学习模型

Publications (2)

Publication Number Publication Date
CN111709289A true CN111709289A (zh) 2020-09-25
CN111709289B CN111709289B (zh) 2023-05-05

Family

ID=72537626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418959.2A Active CN111709289B (zh) 2020-05-18 2020-05-18 一种用于提高人体解析效果的多任务深度学习模型

Country Status (1)

Country Link
CN (1) CN111709289B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733821A (zh) * 2021-03-31 2021-04-30 成都西交智汇大数据科技有限公司 一种融合轻量级注意力模型的目标检测方法
CN113537395A (zh) * 2021-08-09 2021-10-22 同济大学 一种基于眼底图像的糖尿病性视网膜病变图像识别方法
CN115019349A (zh) * 2022-08-09 2022-09-06 中科视语(北京)科技有限公司 图像分析方法、装置、电子设备和存储介质
CN115034280A (zh) * 2022-03-16 2022-09-09 宁夏广天夏科技股份有限公司 矿井下人员不安全行为检测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵杰,黄茜,曹坤涛: "基于深度学习的人体解析研究综述" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733821A (zh) * 2021-03-31 2021-04-30 成都西交智汇大数据科技有限公司 一种融合轻量级注意力模型的目标检测方法
CN113537395A (zh) * 2021-08-09 2021-10-22 同济大学 一种基于眼底图像的糖尿病性视网膜病变图像识别方法
CN113537395B (zh) * 2021-08-09 2022-07-08 同济大学 一种基于眼底图像的糖尿病性视网膜病变图像识别方法
CN115034280A (zh) * 2022-03-16 2022-09-09 宁夏广天夏科技股份有限公司 矿井下人员不安全行为检测系统
CN115019349A (zh) * 2022-08-09 2022-09-06 中科视语(北京)科技有限公司 图像分析方法、装置、电子设备和存储介质
CN115019349B (zh) * 2022-08-09 2022-11-04 中科视语(北京)科技有限公司 图像分析方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111709289B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN111709289A (zh) 一种用于提高人体解析效果的多任务深度学习模型
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN112131985B (zh) 一种基于OpenPose改进的实时轻量人体姿态估计方法
CN111241963B (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN111259804A (zh) 一种基于图卷积的多模态融合手语识别系统及方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN105373810B (zh) 一种用于建立动作识别模型的方法及系统
CN113239820A (zh) 基于属性定位与关联的行人属性识别方法及系统
CN111401247A (zh) 一种基于级联卷积神经网络的人像分割方法
CN111582154A (zh) 基于多任务骨架姿态划分部件的行人重识别方法
CN111696136A (zh) 一种基于编解码结构的目标跟踪方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统
CN112927236B (zh) 一种基于通道注意力和自监督约束的服装解析方法及系统
CN113705384A (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN111079661B (zh) 手语识别系统
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN116189306A (zh) 基于联合注意力机制的人体行为识别方法
Huang et al. A Multi-Stage Vision Transformer for Fine-grained Image Classification
CN113450313A (zh) 一种基于区域对比学习的图像显著性可视化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant