CN111709289B - 一种用于提高人体解析效果的多任务深度学习模型 - Google Patents
一种用于提高人体解析效果的多任务深度学习模型 Download PDFInfo
- Publication number
- CN111709289B CN111709289B CN202010418959.2A CN202010418959A CN111709289B CN 111709289 B CN111709289 B CN 111709289B CN 202010418959 A CN202010418959 A CN 202010418959A CN 111709289 B CN111709289 B CN 111709289B
- Authority
- CN
- China
- Prior art keywords
- output
- module
- human body
- network
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 54
- 230000000694 effects Effects 0.000 title claims abstract description 15
- 238000013136 deep learning model Methods 0.000 title claims abstract description 12
- 238000003708 edge detection Methods 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 238000007670 refining Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 14
- 210000003423 ankle Anatomy 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 210000003127 knee Anatomy 0.000 claims description 6
- 210000000707 wrist Anatomy 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 210000000988 bone and bone Anatomy 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 244000309466 calf Species 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 210000003141 lower extremity Anatomy 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 210000001364 upper extremity Anatomy 0.000 claims description 3
- 210000000689 upper leg Anatomy 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 2
- 208000009144 Pure autonomic failure Diseases 0.000 claims 1
- 239000013312 porous aromatic framework Substances 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于提高人体解析效果的多任务深度学习模型。本发明包括如下步骤:步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;步骤(3)将训练数据集送入神经网络进行训练;步骤(4)使用训练好的神经网络进行推理验证结果的准确率。本发明首次做到了人体姿态估计、人体边缘检测和人体解析多任务结合,设计了一个全新的深度学习神经网络模型,并且三个任务都达到了不错的效果。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种用于提高人体解析效果的多任务深度学习模型。
背景技术
人体解析的概念产生于人体图像身体部位的语义分割,属于语义分割中比较特殊的一种。最早的人体解析任务都是由语义分割的神经网络来完成,包括FCN、DeepLab、SegNet等。随后出现了专门针对人体解析的神经网络,从最早的CO-CNN开始改进了语义分割的网络专用于人体解析,而后的RefineNet、Attention to scale等神经网络也在做相同的工作,还有一些特殊的比如MMAN利用了Gan网络技术用于人体解析。
人体边缘检测任务意在找到图像中人体的轮廓。边缘检测是一个传统图像处理的任务,已有很多寻找图像边缘信息的方法比如Sobel、Canny等算法,但只专注于人体边缘信息的算法很少。在深度学习中,也有一些网络结合了人体边缘检测和人体解析任务,如CE2P网络、PGN网络。
人体姿态估计任务和人体解析同属于人体图像处理任务,人体姿态估计意在寻找并标注人体的骨骼关节点。由于人体图像中多人的原因,该任务分为自上而下和自下而上两种方法,自上而下的方法是先检测出人体在图像中的位置,然后再预测关节点位置,代表性的深度学习模型有AlphaPose;自下而上的方法是先预测出图像中所有的关节点位置,然后再通过二分图匹配的方法把骨架点分到每个人上面,代表性的深度学习模型有OpenPose。
发明内容
本发明为了做到输入一张原图能输出姿态估计、人体边缘检测、人体解析三种任务的结果。本发明在特征共享的情况下新构建了一种用于提高人体解析效果的多任务深度学习模型,并且每个任务都达到了不错的效果。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;
步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;
步骤(3)将训练数据集送入神经网络进行训练;
步骤(4)使用训练好的神经网络进行推理验证结果的准确率。
所述步骤(1)中,设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络,步骤如下:
2-1.骨干网络。
骨干网络由ResNet-101,由5层瓶颈块组成,用于特征提取。
2-2.姿态估计任务网络模块。姿态估计网络模块包括三部分:卷积姿态网络、初始阶段、精炼阶段。
骨干网络的输出特征,分别作为卷积姿态网络、初始阶段、精炼阶段的输入特征;姿态估计任务网络模块的输出包括热力图和部分亲和力场。
所述的卷积姿态网络具体结构包括了连续3组3×3空洞卷积和激活函数的组合,以及一层3×3普通卷积。
所述的初始阶段初始输出热力图和部分亲和力场的阶段,故有两个小分支输出,但小分支前共享了一段特征处理;即先对输入特征进行3组连续的3×3普通卷积和激活函数的组合;然后分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成。两个小分支结构的输出分别为热力图和部分亲和力场。
所述的精炼阶段设计有2个连续的精炼层,每一层递进会使提取的结果更准确。其中每个精炼层包含5个精炼块,每个个精炼块的内容依次是:一个1×1普通卷积降维,2组3×3空洞卷积、归一化、激活函数的组合;组合输出的特征分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成。两个小分支结构的输出分别为热力图和部分亲和力场。
所述的精炼阶段的中第一层精炼层的输入为初始阶段输出的热力图和部分亲和力场的拼接后的特征与卷积姿态网络输出的特征的残差组成;后续精炼层的输入为相邻前一层的精炼层的输出和卷积姿态网络输出的特征的残差组成。
因此,该姿态估计任务网络模块的输出包含3组热力图和部分亲和力场,即初始阶段输出一组,精炼阶段的每个精炼层输出一组;实验证明最后一个阶段输出的结果最为准确。
2-3.边缘检测模块。
边缘检测模块由两层组成,第一层包括3组1×1的空洞卷积、激活函数、归一化的组合,分别作用于ResNet中间3个瓶颈层,第二层包括一个3×3的空洞卷积和1×1的空洞卷积的组合。该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图,该特征图更能够体现图像的细节特征;输出的边缘检测结果是一个二值图。
2-4.人体解析模块。
人体解析模块包含一个PSP模块、特征解码模块和特征增强模块。
PSP模块用于提取图像的细节特征和语义特征,PSP模块的输入是骨干网络的输出,PSP模块将输入特征图先经过4种不同大小的池化输出,再将输出通过线性插值法重新合并成一个特征图输出。
特征解码模块包括5层1×1的空洞卷积,每层卷积之间添加了注意力模块CBAM,CBAM包含通道注意层和空间注意层,分别在通道和大小两个尺度上过滤了部分无效特征。特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成,分别代表语义特征和细节特征的结合;输出为第一种人体解析结果。
特征增强模块包括2层1×1的空洞卷积,其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起;输出第二种人体解析结果;
所述步骤(3)中,将训练数据集送入神经网络进行训练,步骤如下:
3-1.预加载骨干网络模块的预训练参数,然后将训练数据送入多任务神经网络,获取多任务神经网络的输出结果。
所述的训练数据来自于PASCAL-person-part数据集,该数据集为单人或多人的生活场景图片集合,数据集的标签标定了图片中人体的6个身体部位,包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿;数据集还标定了14个人体骨骼关节点,包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝。
3-2.对训练数据中的每个样本,从样本的分割标注信息中提取出人体解析的标签记为classgt-parsing,通过人体解析标签计算出边缘检测的标签记为classgt_edge,再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为clasgt_heatgap以及部分亲和字段PAFs记为classgt_pafs。
定义Ltotal、Lparsing、Ledge、Lpose分别为总的损失值、人体解析损失值、边缘检测损失值、姿态估计损失值,具体计算如下:
Ledge=LCrossEntropy(classpred_edge,classgt_edge)
Ltotal=α1Lparsing+α2Ledge+α3Lpose
其中,classpred_parsing1是预测得到的第一种人体解析的结果,classpred_parsing2是预测得到的第二种人体解析的结果,classpred_edge是预测得到的边缘检测模块输出的结果,classpred_pose是预测得到的姿态估计任务网络模块输出的结果。LCrossEntropy是交叉熵损失函数;LMSE是L2损失函数,LIOU是交并比损失函数;α1、αd、α3是权重。最后将总的损失值Ltotal的值反向传导,更新网络中参数。
所述步骤(4)中,使用步骤(3)中训练好的神经网络进行验证,步骤如下:
4-1.将测试数据送入训练好的神经网络,获取网络输出结果。
4-2.输出结果在评价标准上效果明显;最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。
本发明有益效果如下:
本发明提供了一种姿态估计、边缘检测和人体解析的多任务深度学习模型,对比目前已有的网络模型,我们结合了特征共享、特征融合的思想,做到了多任务输出,并且每个任务的效果都达到了不错的效果。
附图说明
图1为本发明的步骤流程示意图;
图2为本发明深度学习模型的模块示意图;
图3为人体解析模块的特征解码模块中两两卷积间添加的注意力模块示意图;
图4为本发明的人体解析模块的特征增强模块的输入特征拼接示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1-4所示,一种用于提高人体解析效果的多任务深度学习模型,其特征在于包括如下步骤:
步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;
步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;
步骤(3)将训练数据集送入神经网络进行训练;
步骤(4)使用训练好的神经网络进行推理验证结果的准确率。
如图2所示,所述步骤(1)中,设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络,步骤如下:
2-1.骨干网络。
骨干网络由ResNet-101,由5层瓶颈块组成,用于特征提取。
2-2.姿态估计任务网络模块。姿态估计网络模块包括三部分:卷积姿态网络(CPM,Convolutional Pose Machines)、初始阶段(Initial Stage)、精炼阶段(RefinementStage)。
骨干网络的输出特征,分别作为CPM、Initial Stage、Refinement Stage的输入特征;姿态估计任务网络模块的输出包括热力图(HeatMap)和部分亲和力场(PAFs)。
所述的CPM具体结构包括了连续3组3×3空洞卷积(stride=1,padding=1,dilation=1)和激活函数的组合,以及一层3×3普通卷积(stride=1,padding=1)。
所述的Initial Stage为初始输出热力图(HeatMap)和部分亲和力场(PAFs)的阶段,故有两个小分支输出,但小分支前共享了一段特征处理;即先对输入特征进行3组连续的3×3普通卷积(stride=1,padding=1)和激活函数的组合;然后分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积(stride=1,padding=1)和激活函数的组合组成。两个小分支结构的输出分别为热力图(HeatMap)和部分亲和力场(PAFs)。
所述的精炼阶段(Refinement stages)设计有2个连续的精炼层,每一层递进会使提取的结果更准确。其中每个精炼层包含5个精炼块(Refinement Stage Block),每个个精炼块的内容依次是:一个1×1普通卷积降维,2组3×3空洞卷积(stride=1,padding=2,dilation=2)、归一化、激活函数的组合;组合输出的特征分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积(stride=1,padding=1)和激活函数的组合组成。两个小分支结构的输出分别为热力图(HeatMap)和部分亲和力场(PAFs)。
所述的精炼阶段的中第一层精炼层的输入为Initial Stage输出的热力图(HeatMap)和部分亲和力场(PAFs)的拼接后的特征与CPM输出的特征的残差组成;后续精炼层的输入为相邻前一层的精炼层的输出和CPM输出的特征的残差组成。
因此,该姿态估计任务网络模块的输出包含3组热力图(HeatMap)和部分亲和力场(PAFs),即Initial Stage输出一组,精炼阶段的每个精炼层输出一组;实验证明最后一个阶段输出的结果最为准确。
2-3.边缘检测模块。
边缘检测模块由两层组成,第一层包括3组1×1的空洞卷积(stride=1,padding=1,dilation=1)、激活函数、归一化的组合,分别作用于ResNet中间3个瓶颈层,第二层包括一个3×3的空洞卷积(stride=1,padding=1,dilation=1)和1×1的空洞卷积(stride=1,padding=1,dilation=1)的组合。该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图,该特征图更能够体现图像的细节特征;输出的边缘检测结果是一个二值图。
2-4.人体解析模块。
人体解析模块包含一个PSP模块、特征解码模块和特征增强模块。
PSP模块用于提取图像的细节特征和语义特征,PSP模块的输入是骨干网络的输出,PSP模块将输入特征图先经过4种不同大小的池化(输出尺寸分别为1、2、3、6)输出,再将输出通过线性插值法重新合并成一个特征图输出。
如图3所示,特征解码模块包括5层1×1的空洞卷积(stride=1,padding=1,dilation=1),每层卷积之间添加了注意力模块CBAM,CBAM包含通道注意层和空间注意层,分别在通道和大小两个尺度上过滤了部分无效特征。特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成,分别代表语义特征和细节特征的结合;输出为第一种人体解析结果。
如图4所示,特征增强模块包括2层1×1的空洞卷积(stride=1,padding=1,dilation=1),其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起;输出第二种人体解析结果;
所述步骤(3)中,将训练数据集送入神经网络进行训练,步骤如下:
3-1.预加载骨干网络模块的预训练参数,然后将训练数据送入多任务神经网络,获取多任务神经网络的输出结果。
所述的训练数据来自于PASCAL-person-part数据集,该数据集为单人或多人的生活场景图片集合,数据集的标签标定了图片中人体的6个身体部位,包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿;数据集还标定了14个人体骨骼关节点,包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝。
3-2.对训练数据中的每个样本,从样本的分割标注信息中提取出人体解析的标签记为classgt_parsing,通过人体解析标签计算出边缘检测的标签记为classgt_edge,再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为classgt-heatmap以及部分亲和字段PAFs记为classgt_pafs。
定义Ltotal、Lparsing、Ledge、Lpose分别为总的损失值、人体解析损失值、边缘检测损失值、姿态估计损失值,具体计算如下:
Ledge=LCrossEntropy(classpred_edge,classgt_edge)
Ltotal=α1Lparsing+α2Ledge+α3Lpose
其中,classpred_parsing1是预测得到的第一种人体解析的结果,classpred_parsing2是预测得到的第二种人体解析的结果,classpred_edge是预测得到的边缘检测模块输出的结果,classpred-pose是预测得到的姿态估计任务网络模块输出的结果。LCrossEntropy是交叉熵损失函数;LMSE是L2损失函数,LIOU是交并比损失函数;α1、αd、α3是权重。最后将总的损失值Ltotal的值反向传导,更新网络中参数。
所述步骤(4)中,使用步骤(3)中训练好的神经网络进行验证,步骤如下:
4-1.将测试数据送入网络,获取网络输出结果。
4-2.神经网络模型把三个任务统一到了一个端到端的网络模型中,并且三个任务的训练都能收敛。其中,人体边缘检测模块和姿态估计模块属轻量级,运算量较小,并且它们输出的结果在评价标准上都保持了现有的最好效果;而改进的人体解析模块加入注意力机制过滤了无效特征,特征增强部分有了另两个任务的特征补充,最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。
根据步骤(1)中描述,网络输出包括HeatMap、PAFs、人体解析结果、边缘检测结果。人体解析结果为多通道的输出,一个通道对应一个部位的分割,直接做通道最大值合并就得到最终人体解析结果。边缘检测输出是二通道,分别对应黑白二值图,同样做最大值合并得到最终的人体边缘检测结果。HeatMap每个通道对应了每一类关节点的位置,做最大值提取并合并得到关节点结果,多关节点要连成骨架需要利用PAFs。PAFs每个通道对应一对关节点相连的矢量信息,于是寻找同一个人体的两两关节点相连变成了二分图匹配的问题,利用匈牙利算法寻找权值最大的匹配得到图片中所有的人体骨架。最终得到人体关节点和骨架信息,也就是姿态估计的结果。
Claims (3)
1.一种用于提高人体解析效果的多任务深度学习模型,其特征在于包括如下步骤:
步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络;
步骤(2)使用PyTorch深度学习框架搭建多任务神经网络;
步骤(3)将训练数据集送入神经网络进行训练;
步骤(4)使用训练好的神经网络进行推理验证结果的准确率;
所述步骤(1)中,设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络,步骤如下:
2-1.骨干网络;
骨干网络由ResNet-101,由5层瓶颈块组成,用于特征提取;
2-2.姿态估计任务网络模块;姿态估计网络模块包括三部分:卷积姿态网络、初始阶段、精炼阶段;
骨干网络的输出特征,分别作为卷积姿态网络、初始阶段、精炼阶段的输入特征;姿态估计任务网络模块的输出包括热力图和部分亲和力场;
所述的卷积姿态网络具体结构包括了连续3组3×3空洞卷积和激活函数的组合,以及一层3×3普通卷积;
所述的初始阶段初始输出热力图和部分亲和力场的阶段,故有两个小分支输出,但小分支前共享了一段特征处理;即先对输入特征进行3组连续的3×3普通卷积和激活函数的组合;然后分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成;两个小分支结构的输出分别为热力图和部分亲和力场;
所述的精炼阶段设计有2个连续的精炼层,每一层递进会使提取的结果更准确;其中每个精炼层包含5个精炼块,每个精炼块的内容依次是:一个1×1普通卷积降维,2组3×3空洞卷积、归一化、激活函数的组合;组合输出的特征分别进入两个小分支结构;所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成;两个小分支结构的输出分别为热力图和部分亲和力场;
所述的精炼阶段的中第一层精炼层的输入为初始阶段输出的热力图和部分亲和力场的拼接后的特征与卷积姿态网络输出的特征的残差组成;后续精炼层的输入为相邻前一层的精炼层的输出和卷积姿态网络输出的特征的残差组成;
因此,该姿态估计任务网络模块的输出包含3组热力图和部分亲和力场,即初始阶段输出一组,精炼阶段的每个精炼层输出一组;实验证明最后一个阶段输出的结果最为准确;
2-3.边缘检测模块;
边缘检测模块由两层组成,第一层包括3组1×1的空洞卷积、激活函数、归一化的组合,分别作用于ResNet中间3个瓶颈层,第二层包括一个3×3的空洞卷积和1×1的空洞卷积的组合;该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图,该特征图更能够体现图像的细节特征;输出的边缘检测结果是一个二值图;
2-4.人体解析模块;
人体解析模块包含一个PSP模块、特征解码模块和特征增强模块;
PSP模块用于提取图像的细节特征和语义特征,PSP模块的输入是骨干网络的输出,PSP模块将输入特征图先经过4种不同大小的池化输出,再将输出通过线性插值法重新合并成一个特征图输出;
特征解码模块包括5层1×1的空洞卷积,每层卷积之间添加了注意力模块CBAM,CBAM包含通道注意层和空间注意层,分别在通道和大小两个尺度上过滤了部分无效特征;特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成,分别代表语义特征和细节特征的结合;输出为第一种人体解析结果;
特征增强模块包括2层1×1的空洞卷积,其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起;输出第二种人体解析结果。
2.根据权利要求1所述的一种用于提高人体解析效果的多任务深度学习模型,其特征在于:所述步骤(3)中,将训练数据集送入神经网络进行训练,步骤如下:
3-1.预加载骨干网络模块的预训练参数,然后将训练数据送入多任务神经网络,获取多任务神经网络的输出结果;
所述的训练数据来自于PASCAL-person-part数据集,该数据集为单人或多人的生活场景图片集合,数据集的标签标定了图片中人体的6个身体部位,包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿;数据集还标定了14个人体骨骼关节点,包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝;
3-2.对训练数据中的每个样本,从样本的分割标注信息中提取出人体解析的标签记为classgt_parsing,通过人体解析标签计算出边缘检测的标签记为classgt_edqe,再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为classgt_heatmap以及部分亲和字段PAFs记为classgt_pafs;
定义Ltotal、Lparsing、Ledge、Lpose分别为总的损失值、人体解析损失值、边缘检测损失值、姿态估计损失值,具体计算如下:
Lparsing=LCrossEntropy(classpred_parsing1,classgt_parsing)+LCrossEntropy(classpred_parsing2,classgt_parsing)+LIOU(classpred_parsing1,classgt_parsing)+LIOU(classpred_parsing2,classgt_parsing)
Ledge=LCrossEntropy(classpred_edge,classgt_edge)
Ltotal=α1Lparsing+α2Ledge+α3Lpose
其中,classpred_parsing1是预测得到的第一种人体解析的结果,classpred_parsing2是预测得到的第二种人体解析的结果,clasSpred_edge是预测得到的边缘检测模块输出的结果;LCrossEntropy是交叉熵损失函数;LMSE是L2损失函数,LIOU是交并比损失函数;α1、α2、α3是权重;最后将总的损失值Ltotal的值反向传导,更新网络中参数。
3.根据权利要求2所述的一种用于提高人体解析效果的多任务深度学习模型,其特征在于:所述步骤(4)中,使用步骤(3)中训练好的神经网络进行验证,步骤如下:
4-1.将测试数据送入训练好的神经网络,获取网络输出结果;
4-2.输出结果在评价标准上效果明显;最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418959.2A CN111709289B (zh) | 2020-05-18 | 2020-05-18 | 一种用于提高人体解析效果的多任务深度学习模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418959.2A CN111709289B (zh) | 2020-05-18 | 2020-05-18 | 一种用于提高人体解析效果的多任务深度学习模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709289A CN111709289A (zh) | 2020-09-25 |
CN111709289B true CN111709289B (zh) | 2023-05-05 |
Family
ID=72537626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010418959.2A Active CN111709289B (zh) | 2020-05-18 | 2020-05-18 | 一种用于提高人体解析效果的多任务深度学习模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709289B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733821B (zh) * | 2021-03-31 | 2021-07-02 | 成都西交智汇大数据科技有限公司 | 一种融合轻量级注意力模型的目标检测方法 |
CN113537395B (zh) * | 2021-08-09 | 2022-07-08 | 同济大学 | 一种基于眼底图像的糖尿病性视网膜病变图像识别方法 |
CN115034280B (zh) * | 2022-03-16 | 2023-07-25 | 宁夏广天夏科技股份有限公司 | 矿井下人员不安全行为检测系统 |
CN115019349B (zh) * | 2022-08-09 | 2022-11-04 | 中科视语(北京)科技有限公司 | 图像分析方法、装置、电子设备和存储介质 |
-
2020
- 2020-05-18 CN CN202010418959.2A patent/CN111709289B/zh active Active
Non-Patent Citations (1)
Title |
---|
邵杰,黄茜,曹坤涛.基于深度学习的人体解析研究综述.电子科技大学学报.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111709289A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709289B (zh) | 一种用于提高人体解析效果的多任务深度学习模型 | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN112131908B (zh) | 基于双流网络的动作识别方法、装置、存储介质及设备 | |
Ahmed | The impact of filter size and number of filters on classification accuracy in CNN | |
CN112131985B (zh) | 一种基于OpenPose改进的实时轻量人体姿态估计方法 | |
CN110414432A (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
Maraqa et al. | Recognition of Arabic Sign Language (ArSL) using recurrent neural networks | |
CN110472604B (zh) | 一种基于视频的行人与人群行为识别方法 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN111241963B (zh) | 基于交互建模的第一人称视角视频交互行为识别方法 | |
CN113255522B (zh) | 基于时间一致性的个性化运动姿态估计与分析方法及系统 | |
CN112258555A (zh) | 实时姿态估计运动分析方法、系统、计算机设备及存储介质 | |
CN111199207A (zh) | 基于深度残差神经网络的二维多人体姿态估计方法 | |
Xu et al. | Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction | |
CN112446253B (zh) | 一种骨架行为识别方法及装置 | |
Ye et al. | LPFormer: LiDAR pose estimation transformer with multi-task network | |
Chen et al. | Real-time human segmentation using pose skeleton map | |
CN117437690A (zh) | 环境适应和估计分类相结合的姿态识别方法、系统及介质 | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 | |
Wang et al. | Lightweight bilateral network for real-time semantic segmentation | |
CN115546491A (zh) | 一种跌倒报警方法、系统、电子设备及存储介质 | |
Palanimeera et al. | Yoga posture recognition by learning spatial-temporal feature with deep learning techniques | |
CN114463844A (zh) | 一种基于自注意力双流网络的跌倒检测方法 | |
CN112634411A (zh) | 一种动画生成方法、系统及其可读介质 | |
Liu et al. | Lost-Found Item Net for Classification Based on Inception-Resnet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |