CN111709289B

CN111709289B - 一种用于提高人体解析效果的多任务深度学习模型

Info

Publication number: CN111709289B
Application number: CN202010418959.2A
Authority: CN
Inventors: 王毅刚; 杜顺程
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-05-05
Anticipated expiration: 2040-05-18
Also published as: CN111709289A

Abstract

本发明公开了一种用于提高人体解析效果的多任务深度学习模型。本发明包括如下步骤：步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络；步骤(2)使用PyTorch深度学习框架搭建多任务神经网络；步骤(3)将训练数据集送入神经网络进行训练；步骤(4)使用训练好的神经网络进行推理验证结果的准确率。本发明首次做到了人体姿态估计、人体边缘检测和人体解析多任务结合，设计了一个全新的深度学习神经网络模型，并且三个任务都达到了不错的效果。

Description

一种用于提高人体解析效果的多任务深度学习模型

技术领域

本发明属于计算机视觉技术领域，具体涉及一种用于提高人体解析效果的多任务深度学习模型。

背景技术

人体解析的概念产生于人体图像身体部位的语义分割，属于语义分割中比较特殊的一种。最早的人体解析任务都是由语义分割的神经网络来完成，包括FCN、DeepLab、SegNet等。随后出现了专门针对人体解析的神经网络，从最早的CO-CNN开始改进了语义分割的网络专用于人体解析，而后的RefineNet、Attention to scale等神经网络也在做相同的工作，还有一些特殊的比如MMAN利用了Gan网络技术用于人体解析。

人体边缘检测任务意在找到图像中人体的轮廓。边缘检测是一个传统图像处理的任务，已有很多寻找图像边缘信息的方法比如Sobel、Canny等算法，但只专注于人体边缘信息的算法很少。在深度学习中，也有一些网络结合了人体边缘检测和人体解析任务，如CE2P网络、PGN网络。

人体姿态估计任务和人体解析同属于人体图像处理任务，人体姿态估计意在寻找并标注人体的骨骼关节点。由于人体图像中多人的原因，该任务分为自上而下和自下而上两种方法，自上而下的方法是先检测出人体在图像中的位置，然后再预测关节点位置，代表性的深度学习模型有AlphaPose；自下而上的方法是先预测出图像中所有的关节点位置，然后再通过二分图匹配的方法把骨架点分到每个人上面，代表性的深度学习模型有OpenPose。

发明内容

本发明为了做到输入一张原图能输出姿态估计、人体边缘检测、人体解析三种任务的结果。本发明在特征共享的情况下新构建了一种用于提高人体解析效果的多任务深度学习模型，并且每个任务都达到了不错的效果。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)设计姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络；

步骤(2)使用PyTorch深度学习框架搭建多任务神经网络；

步骤(3)将训练数据集送入神经网络进行训练；

步骤(4)使用训练好的神经网络进行推理验证结果的准确率。

所述步骤(1)中，设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络，步骤如下：

2-1.骨干网络。

骨干网络由ResNet-101，由5层瓶颈块组成，用于特征提取。

2-2.姿态估计任务网络模块。姿态估计网络模块包括三部分：卷积姿态网络、初始阶段、精炼阶段。

骨干网络的输出特征，分别作为卷积姿态网络、初始阶段、精炼阶段的输入特征；姿态估计任务网络模块的输出包括热力图和部分亲和力场。

所述的卷积姿态网络具体结构包括了连续3组3×3空洞卷积和激活函数的组合，以及一层3×3普通卷积。

所述的初始阶段初始输出热力图和部分亲和力场的阶段，故有两个小分支输出，但小分支前共享了一段特征处理；即先对输入特征进行3组连续的3×3普通卷积和激活函数的组合；然后分别进入两个小分支结构；所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成。两个小分支结构的输出分别为热力图和部分亲和力场。

所述的精炼阶段设计有2个连续的精炼层，每一层递进会使提取的结果更准确。其中每个精炼层包含5个精炼块，每个个精炼块的内容依次是：一个1×1普通卷积降维，2组3×3空洞卷积、归一化、激活函数的组合；组合输出的特征分别进入两个小分支结构；所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成。两个小分支结构的输出分别为热力图和部分亲和力场。

所述的精炼阶段的中第一层精炼层的输入为初始阶段输出的热力图和部分亲和力场的拼接后的特征与卷积姿态网络输出的特征的残差组成；后续精炼层的输入为相邻前一层的精炼层的输出和卷积姿态网络输出的特征的残差组成。

因此，该姿态估计任务网络模块的输出包含3组热力图和部分亲和力场，即初始阶段输出一组，精炼阶段的每个精炼层输出一组；实验证明最后一个阶段输出的结果最为准确。

2-3.边缘检测模块。

边缘检测模块由两层组成，第一层包括3组1×1的空洞卷积、激活函数、归一化的组合，分别作用于ResNet中间3个瓶颈层，第二层包括一个3×3的空洞卷积和1×1的空洞卷积的组合。该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图，该特征图更能够体现图像的细节特征；输出的边缘检测结果是一个二值图。

2-4.人体解析模块。

人体解析模块包含一个PSP模块、特征解码模块和特征增强模块。

PSP模块用于提取图像的细节特征和语义特征，PSP模块的输入是骨干网络的输出，PSP模块将输入特征图先经过4种不同大小的池化输出，再将输出通过线性插值法重新合并成一个特征图输出。

特征解码模块包括5层1×1的空洞卷积，每层卷积之间添加了注意力模块CBAM，CBAM包含通道注意层和空间注意层，分别在通道和大小两个尺度上过滤了部分无效特征。特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成，分别代表语义特征和细节特征的结合；输出为第一种人体解析结果。

特征增强模块包括2层1×1的空洞卷积，其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起；输出第二种人体解析结果；

所述步骤(3)中，将训练数据集送入神经网络进行训练，步骤如下：

3-1.预加载骨干网络模块的预训练参数，然后将训练数据送入多任务神经网络，获取多任务神经网络的输出结果。

所述的训练数据来自于PASCAL-person-part数据集，该数据集为单人或多人的生活场景图片集合，数据集的标签标定了图片中人体的6个身体部位，包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿；数据集还标定了14个人体骨骼关节点，包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝。

3-2.对训练数据中的每个样本，从样本的分割标注信息中提取出人体解析的标签记为class_gt-parsing，通过人体解析标签计算出边缘检测的标签记为class_{gt_edge}，再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为clas_{gt_heatgap}以及部分亲和字段PAFs记为class_{gt_pafs}。

定义L_total、L_parsing、L_edge、L_pose分别为总的损失值、人体解析损失值、边缘检测损失值、姿态估计损失值，具体计算如下：

L_edge＝L_CrossEntropy(class_{pred_edge}，class_{gt_edge})

L_total＝α1L_parsing+α2L_edge+α3L_pose

其中，class_{pred_parsing1}是预测得到的第一种人体解析的结果，class_{pred_parsing2}是预测得到的第二种人体解析的结果，class_{pred_edge}是预测得到的边缘检测模块输出的结果，class_{pred_pose}是预测得到的姿态估计任务网络模块输出的结果。L_CrossEntropy是交叉熵损失函数；L_MSE是L2损失函数，L_IOU是交并比损失函数；α1、αd、α3是权重。最后将总的损失值L_total的值反向传导，更新网络中参数。

所述步骤(4)中，使用步骤(3)中训练好的神经网络进行验证,步骤如下：

4-1.将测试数据送入训练好的神经网络，获取网络输出结果。

4-2.输出结果在评价标准上效果明显；最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。

本发明有益效果如下：

本发明提供了一种姿态估计、边缘检测和人体解析的多任务深度学习模型，对比目前已有的网络模型，我们结合了特征共享、特征融合的思想，做到了多任务输出，并且每个任务的效果都达到了不错的效果。

附图说明

图1为本发明的步骤流程示意图；

图2为本发明深度学习模型的模块示意图；

图3为人体解析模块的特征解码模块中两两卷积间添加的注意力模块示意图；

图4为本发明的人体解析模块的特征增强模块的输入特征拼接示意图；

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1-4所示，一种用于提高人体解析效果的多任务深度学习模型，其特征在于包括如下步骤：

步骤(2)使用PyTorch深度学习框架搭建多任务神经网络；

步骤(3)将训练数据集送入神经网络进行训练；

步骤(4)使用训练好的神经网络进行推理验证结果的准确率。

如图2所示，所述步骤(1)中，设计一个姿态估计、边缘检测和人体解析三个分支模块的多任务神经网络，步骤如下：

2-1.骨干网络。

骨干网络由ResNet-101，由5层瓶颈块组成，用于特征提取。

2-2.姿态估计任务网络模块。姿态估计网络模块包括三部分：卷积姿态网络(CPM，Convolutional Pose Machines)、初始阶段(Initial Stage)、精炼阶段(RefinementStage)。

骨干网络的输出特征，分别作为CPM、Initial Stage、Refinement Stage的输入特征；姿态估计任务网络模块的输出包括热力图(HeatMap)和部分亲和力场(PAFs)。

所述的CPM具体结构包括了连续3组3×3空洞卷积(stride＝1，padding＝1，dilation＝1)和激活函数的组合，以及一层3×3普通卷积(stride＝1，padding＝1)。

所述的Initial Stage为初始输出热力图(HeatMap)和部分亲和力场(PAFs)的阶段，故有两个小分支输出，但小分支前共享了一段特征处理；即先对输入特征进行3组连续的3×3普通卷积(stride＝1，padding＝1)和激活函数的组合；然后分别进入两个小分支结构；所述的两个小分支结构都由两组连续的1×1普通卷积(stride＝1，padding＝1)和激活函数的组合组成。两个小分支结构的输出分别为热力图(HeatMap)和部分亲和力场(PAFs)。

所述的精炼阶段(Refinement stages)设计有2个连续的精炼层，每一层递进会使提取的结果更准确。其中每个精炼层包含5个精炼块(Refinement Stage Block)，每个个精炼块的内容依次是：一个1×1普通卷积降维，2组3×3空洞卷积(stride＝1，padding＝2，dilation＝2)、归一化、激活函数的组合；组合输出的特征分别进入两个小分支结构；所述的两个小分支结构都由两组连续的1×1普通卷积(stride＝1，padding＝1)和激活函数的组合组成。两个小分支结构的输出分别为热力图(HeatMap)和部分亲和力场(PAFs)。

所述的精炼阶段的中第一层精炼层的输入为Initial Stage输出的热力图(HeatMap)和部分亲和力场(PAFs)的拼接后的特征与CPM输出的特征的残差组成；后续精炼层的输入为相邻前一层的精炼层的输出和CPM输出的特征的残差组成。

因此，该姿态估计任务网络模块的输出包含3组热力图(HeatMap)和部分亲和力场(PAFs)，即Initial Stage输出一组，精炼阶段的每个精炼层输出一组；实验证明最后一个阶段输出的结果最为准确。

2-3.边缘检测模块。

边缘检测模块由两层组成，第一层包括3组1×1的空洞卷积(stride＝1，padding＝1，dilation＝1)、激活函数、归一化的组合，分别作用于ResNet中间3个瓶颈层，第二层包括一个3×3的空洞卷积(stride＝1，padding＝1，dilation＝1)和1×1的空洞卷积(stride＝1，padding＝1，dilation＝1)的组合。该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图，该特征图更能够体现图像的细节特征；输出的边缘检测结果是一个二值图。

2-4.人体解析模块。

PSP模块用于提取图像的细节特征和语义特征，PSP模块的输入是骨干网络的输出，PSP模块将输入特征图先经过4种不同大小的池化(输出尺寸分别为1、2、3、6)输出，再将输出通过线性插值法重新合并成一个特征图输出。

如图3所示，特征解码模块包括5层1×1的空洞卷积(stride＝1，padding＝1，dilation＝1)，每层卷积之间添加了注意力模块CBAM，CBAM包含通道注意层和空间注意层，分别在通道和大小两个尺度上过滤了部分无效特征。特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成，分别代表语义特征和细节特征的结合；输出为第一种人体解析结果。

如图4所示，特征增强模块包括2层1×1的空洞卷积(stride＝1，padding＝1，dilation＝1)，其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起；输出第二种人体解析结果；

3-2.对训练数据中的每个样本，从样本的分割标注信息中提取出人体解析的标签记为class_{gt_parsing}，通过人体解析标签计算出边缘检测的标签记为class_{gt_edge}，再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为class_gt-heatmap以及部分亲和字段PAFs记为class_{gt_pafs}。

L_edge＝L_CrossEntropy(class_{pred_edge}，class_{gt_edge})

L_total＝α1L_parsing+α2L_edge+α3L_pose

其中，class_{pred_parsing1}是预测得到的第一种人体解析的结果，class_{pred_parsing2}是预测得到的第二种人体解析的结果，class_{pred_edge}是预测得到的边缘检测模块输出的结果，class_pred-pose是预测得到的姿态估计任务网络模块输出的结果。L_CrossEntropy是交叉熵损失函数；L_MSE是L2损失函数，L_IOU是交并比损失函数；α1、αd、α3是权重。最后将总的损失值L_total的值反向传导，更新网络中参数。

4-1.将测试数据送入网络，获取网络输出结果。

4-2.神经网络模型把三个任务统一到了一个端到端的网络模型中，并且三个任务的训练都能收敛。其中，人体边缘检测模块和姿态估计模块属轻量级，运算量较小，并且它们输出的结果在评价标准上都保持了现有的最好效果；而改进的人体解析模块加入注意力机制过滤了无效特征，特征增强部分有了另两个任务的特征补充，最终输出的人体解析结果在评价标准mIOU上较常规的语义分割模型提高了2个百分点。

根据步骤(1)中描述，网络输出包括HeatMap、PAFs、人体解析结果、边缘检测结果。人体解析结果为多通道的输出，一个通道对应一个部位的分割，直接做通道最大值合并就得到最终人体解析结果。边缘检测输出是二通道，分别对应黑白二值图，同样做最大值合并得到最终的人体边缘检测结果。HeatMap每个通道对应了每一类关节点的位置，做最大值提取并合并得到关节点结果，多关节点要连成骨架需要利用PAFs。PAFs每个通道对应一对关节点相连的矢量信息，于是寻找同一个人体的两两关节点相连变成了二分图匹配的问题，利用匈牙利算法寻找权值最大的匹配得到图片中所有的人体骨架。最终得到人体关节点和骨架信息，也就是姿态估计的结果。

Claims

1.一种用于提高人体解析效果的多任务深度学习模型，其特征在于包括如下步骤：

步骤(2)使用PyTorch深度学习框架搭建多任务神经网络；

步骤(3)将训练数据集送入神经网络进行训练；

步骤(4)使用训练好的神经网络进行推理验证结果的准确率；

2-1.骨干网络；

骨干网络由ResNet-101，由5层瓶颈块组成，用于特征提取；

2-2.姿态估计任务网络模块；姿态估计网络模块包括三部分：卷积姿态网络、初始阶段、精炼阶段；

骨干网络的输出特征，分别作为卷积姿态网络、初始阶段、精炼阶段的输入特征；姿态估计任务网络模块的输出包括热力图和部分亲和力场；

所述的卷积姿态网络具体结构包括了连续3组3×3空洞卷积和激活函数的组合，以及一层3×3普通卷积；

所述的初始阶段初始输出热力图和部分亲和力场的阶段，故有两个小分支输出，但小分支前共享了一段特征处理；即先对输入特征进行3组连续的3×3普通卷积和激活函数的组合；然后分别进入两个小分支结构；所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成；两个小分支结构的输出分别为热力图和部分亲和力场；

所述的精炼阶段设计有2个连续的精炼层，每一层递进会使提取的结果更准确；其中每个精炼层包含5个精炼块，每个精炼块的内容依次是：一个1×1普通卷积降维，2组3×3空洞卷积、归一化、激活函数的组合；组合输出的特征分别进入两个小分支结构；所述的两个小分支结构都由两组连续的1×1普通卷积和激活函数的组合组成；两个小分支结构的输出分别为热力图和部分亲和力场；

所述的精炼阶段的中第一层精炼层的输入为初始阶段输出的热力图和部分亲和力场的拼接后的特征与卷积姿态网络输出的特征的残差组成；后续精炼层的输入为相邻前一层的精炼层的输出和卷积姿态网络输出的特征的残差组成；

因此，该姿态估计任务网络模块的输出包含3组热力图和部分亲和力场，即初始阶段输出一组，精炼阶段的每个精炼层输出一组；实验证明最后一个阶段输出的结果最为准确；

2-3.边缘检测模块；

边缘检测模块由两层组成，第一层包括3组1×1的空洞卷积、激活函数、归一化的组合，分别作用于ResNet中间3个瓶颈层，第二层包括一个3×3的空洞卷积和1×1的空洞卷积的组合；该边缘检测的模块输入是ResNet中间3个瓶颈层合并的特征图，该特征图更能够体现图像的细节特征；输出的边缘检测结果是一个二值图；

2-4.人体解析模块；

人体解析模块包含一个PSP模块、特征解码模块和特征增强模块；

PSP模块用于提取图像的细节特征和语义特征，PSP模块的输入是骨干网络的输出，PSP模块将输入特征图先经过4种不同大小的池化输出，再将输出通过线性插值法重新合并成一个特征图输出；

特征解码模块包括5层1×1的空洞卷积，每层卷积之间添加了注意力模块CBAM，CBAM包含通道注意层和空间注意层，分别在通道和大小两个尺度上过滤了部分无效特征；特征解码模块输入为PSP模块输出的特征图和骨干网络第二个瓶颈层的输出特征的残差组成，分别代表语义特征和细节特征的结合；输出为第一种人体解析结果；

特征增强模块包括2层1×1的空洞卷积，其输入为边缘检测模块第一层输出的边缘特征和特征解码模块最终输出的分割特征以及姿态估计模块最后精炼层输出的姿态特征拼接在一起；输出第二种人体解析结果。

2.根据权利要求1所述的一种用于提高人体解析效果的多任务深度学习模型，其特征在于：所述步骤(3)中，将训练数据集送入神经网络进行训练，步骤如下：

3-1.预加载骨干网络模块的预训练参数，然后将训练数据送入多任务神经网络，获取多任务神经网络的输出结果；

所述的训练数据来自于PASCAL-person-part数据集，该数据集为单人或多人的生活场景图片集合，数据集的标签标定了图片中人体的6个身体部位，包括头部、躯干、手臂上肢、手臂下肢、大腿、小腿；数据集还标定了14个人体骨骼关节点，包括头部、脖子、左肩膀、左手肘、左手腕、左臀部、左膝盖、左脚踝、右肩膀、右手肘、右手腕、右臀部、右膝盖、右脚踝；

3-2.对训练数据中的每个样本，从样本的分割标注信息中提取出人体解析的标签记为class_{gt_parsing}，通过人体解析标签计算出边缘检测的标签记为class_{gt_edqe}，再通过姿态估计的骨骼点位置标签计算出图像以关节点为峰值的热力图HeatMap记为class_{gt_heatmap}以及部分亲和字段PAFs记为class_{gt_pafs}；

L_parsing＝L_CrossEntropy(class_{pred_parsing1}，class_{gt_parsing})+L_CrossEntropy(class_{pred_parsing2}，class_{gt_parsing})+L_IOU(class_{pred_parsing1}，class_{gt_parsing})+L_IOU(class_{pred_parsing2}，class_{gt_parsing})

L_edge＝L_CrossEntropy(class_{pred_edge}，class_{gt_edge})

L_total＝α1L_parsing+α2L_edge+α3L_pose

其中，class_{pred_parsing1}是预测得到的第一种人体解析的结果，class_{pred_parsing2}是预测得到的第二种人体解析的结果，clasS_{pred_edge}是预测得到的边缘检测模块输出的结果；L_CrossEntropy是交叉熵损失函数；L_MSE是L2损失函数，L_IOU是交并比损失函数；α1、α2、α3是权重；最后将总的损失值L_total的值反向传导，更新网络中参数。

3.根据权利要求2所述的一种用于提高人体解析效果的多任务深度学习模型，其特征在于：所述步骤(4)中，使用步骤(3)中训练好的神经网络进行验证，步骤如下：

4-1.将测试数据送入训练好的神经网络，获取网络输出结果；