CN117423134A

CN117423134A - 一种人体目标检测和解析的多任务协同网络及其训练方法

Info

Publication number: CN117423134A
Application number: CN202311476652.8A
Authority: CN
Inventors: 范锐军; 陈潇; 包志强
Original assignee: Qunzhou Technology Shanghai Co ltd
Current assignee: Qunzhou Technology Shanghai Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-19

Abstract

本发明公开了一种人体目标检测和解析的多任务协同网络及其训练方法，该网络包括特征提取网络模块，特征融合网络模块；特征原型网络模块，提供图像分割的掩码矩阵；检测和解析分支网络，包括目标检测分支网络和人体解析分支网络，其共享特征提取网络模块和融合网络模块；先检测后解析，获得检测目标的各个部位的像素级分割和分类。本发明不仅可以在视频或者图像中，对人体目标进行定位检测，适用于目标检测和识别的应用领域，而且能够对检测的目标进行进一步的解析，获得目标的各个部位的像素级分割和分类，例如获得人体目标的头部、躯干、上肢和下肢等像素级分割信息，进而可以应用到其他任务中。

Description

一种人体目标检测和解析的多任务协同网络及其训练方法

技术领域

本发明属于图像目标检测技术领域，涉及一种人体目标检测和解析的多任务协同网络算法。

背景技术

人体视觉理解技术是计算机视觉领域的重要组成部分，由于人类往往作为图片、视频等多媒体产物的核心研究对象，因此对图片或视频中的人体进行分析和理解是非常有必要的。人体视觉理解是基于计算机视觉技术的一系列人体相关任务的综合，通过对多个维度人体信息的分析，能够更好的促进对于图像、视频中与人相关内容的理解。

图像分割算法主要分为语义分割和实例分割。语义分割的目的是为了从像素级别理解图像的内容，并为图像中的每个像素分配一个对象类。传统的分割方法，如阈值化、基于直方图的方法、区域划分、k-均值聚类、分水岭，到更先进的算法，如活动轮廓、基于Graph的分割、马尔可夫随机场和稀疏方法。这些传统方法通过提取图像的低级特征指导分割，精度比较低。

基于深度学习的语义分割的方法分别有FCN全卷积网络，U-Ne，PSPNet，SegNet，DeepLab等，对比传统的图像分割方法，全卷积神经网络可以提取图像的高级语义信息，提高图片的分割精度。

实例分割是目标检测和语义分割的结合，在图像中将目标检测出来，然后对每个像素打上标签。实例分割能够对前景语义类别相同的不同实例进行区分，这是它与语义分割的最大区别。实例分割的研究主要有三个不同的方向，分别是自下而上的基于语义分割的方法和自上而下的基于检测的方法，这两种方法都属于两阶段的方法，还有单阶段的实例分割方法。

(1)自上而下的实例分割方法，通过目标检测的方法找出实例所在的区域，再在检测框内进行语义分割，每个分割结果都作为一个不同的实例输出。通常先检测后分割，如FCIS，Mask-RCNN，PANet等；

(2)自下而上的实例分割方法，先进行像素级别的语义分割，再通过聚类、度量学习等手段区分不同的实例。这种方法虽然保持了更好的低层特征(细节信息和位置信息)，但也存在不少缺点：

对密集分割的质量要求很高，会导致非最优的分割泛化能力较差；无法应对类别多的复杂场景，且后处理方法繁琐。

(3)单阶段实例分割，这方面工作其实也是受到了单阶段目标检测研究的启发，因此也有两种思路，一种是基于锚点框单阶段检测模型，如YOLO，RetinaNet等，代表作有YOLACT和SOLO；一种是基于无锚框检测模型，如FCOS等，代表作有PolarMask和AdaptIS等。

人体解析是语义分割的子任务。其目标是将一个人身体的各个部位或者所着衣物配饰加以识别。所有组成人体的像素均被标记，并且归类为对应类别。和通用语义分割不同，人体解析集中于以人为中心的分割，须识别出人体的头部、躯干、手臂、腿部等区域。人体解析在诸多领域均有应用，如人体外观转、行为识别、行人再识别、时装合成。因此，人体解析具有重要的研究意义和应用价值。

发明内容

针对单阶段实例分割算法无法获得人体目标的解析信息，以及目前人体解析深度网络没有定位信息的问题，本发明根据人体目标的检测和解析的双重任务需求，提出一种人体目标检测和解析的多任务协同网络及其训练方法，对人体目标进行定位检测、解析和分类。

本发明是通过以下技术方案来实现：

一种人体目标检测和解析的多任务协同网络，包括：

特征提取网络模块，经过池化运算将输入的图像特征进行降维，获得覆盖低级和高级的不同尺度特征的语义特征，供后续的特征融合模块进行特征融合；

特征融合网络模块，分别采用特征金字塔网络FPN和PAN结构构建自顶向下和自下向上两条融合路径，融合路径中的各子模块分别对接不同尺度的深度特征，对其进行充分融合；

特征原型网络模块，提供图像分割的掩码矩阵，包括特征矩阵，边沿矩阵和空间自注意力矩阵，其输入均是由融合特征经过上采样后的特征；特征矩阵关注目标内部细节部分，边沿矩阵关注目标的边沿细节，空间自注意力矩阵则是在复杂背景下对目标关注的程度；特征矩阵和边沿矩阵在通道维相互拼接，其输出与空间自注意力矩阵相乘得到融合的特征原型矩阵用于人体部位解析；

检测和解析分支网络，包括目标检测分支网络和人体解析分支网络，其共享特征提取网络模块和融合网络模块；先检测后解析，获得检测目标的各个部位的像素级分割和分类；

其中目标检测分支网络包括m*(n+C)个通道用于定位目标的位置，其中m为特征图所采用的m种锚点框，n为目标检测的定位信息个数，C为人体解析的类别数；

人体解析分支网络为32*C的解析稀疏矩阵，解析稀疏矩阵系数与融合的原型特征矩阵相乘得到掩码矩阵Mask，经裁剪和阈值比较后得到解析图像掩码矩阵，原图根据掩码矩阵处理后输出解析图像。

所述特征提取网络模块包括提供5级尺度特征的C1～C5子模块，最高为32倍下采样的特征，其k级特征维度如式(1)所示：

其中W，H和C_k分别为输入图像的宽、高和通道数；

所述自顶向下融合路径包括融合特征层F5、F4、F3，分别对应C5、C4、C3子模块；其自顶向下的特征融合为：

F5融合特征层为高级语义特征，其经过上采样模块后与C4子模块分辨率一致，进行拼接操作获得F4融合特征层，F4融合特征层经过上采样后与C3子模块进行拼接获得F3融合特征层，完成自顶向下的特征融合；

所述自下至上融合路径包括融合特征层P5、P4、P3，其自下至上的特征融合为：F3融合特征层直接或经过卷积层后传递给P3融合特征层，在经过下采样运算后与F4融合特征层进行特征融合获得P4融合特征层，P4融合特征层经过下采样与F5融合特征层进行特征融合，得到P5融合特征层，完成自下至上融合。

所述特征矩阵的分辨率，选用特征融合网络模块的自下向上融合路径最上的融合特征层P3，经过卷积层后上采样得到的分辨率；

所述边缘检测特征矩阵，其边沿检测特征的输入与解析分支网络相同但目标不同，这一部分特征矩阵会与解析原型特征矩阵进行融合，再进入解析过程；

所述空间自注意力矩阵是对特征图在通道维度使用平均池化和最大池化运算，得到图像在空间维度的重要性度量，使得网络聚焦于人体部位。

一种所述人体目标检测和解析的多任务协同网络的训练方法，包括以下操作：

1)通过特征提取网络模块、特征融合网络模块、特征原型网络模块、目标检测分支网络，人体解析分支网络，构建人体目标检测和解析的多任务协同网络；

目标检测分支网络和人体解析分支网络共享特征提取网络和特征融合网络，两者网络训练的损失函数分别独立构造，加权后一起反向传播，并使用梯度归一化设计平衡所有任务的协同学习；

2)使用深度学习框架搭建多任务神经网络，包括网络架构的搭建，网络的训练和推理，评价指标和性能分析；

3)训练数据集的采集和标注，根据不同的应用场景进行数据的采集和标注，生成训练和测试数据集，并对数据集进行预处理和数据增强；

4)将训练数据集送入神经网络进行训练；

5)使用训练好的神经网络进行推理，验证算法的准确率。

所述使用深度学习框架搭建多任务神经网络，是使用包括pytorch，tensorflow，caffe在内的开发工具进行，包括以下操作：

搭建目标检测和解析的网络模型框架，并设置包括学习率、批量大小、训练轮数、数据增强方法在内的参数；

初始化网络或者使用预训练权重，并定义损失函数和优化器；

训练完成后需要对网络的性能进行评估，使用mAP全类平均分类精度指标：

其中：K为类别数，r表示查全率，p表示查准率；

定义损失函数如下：

L_total＝L_detect+L_parsing

L_detect＝α₁L_bbox+α₂L_obj+α₃L_class

L_parsing＝β₁L_cls+β₂L_edge

其中：L_total为总损失函数，包括检测损失L_detect和解析损失L_parsing；

检测损失用于学习目标检测分支，包括边框回归损失L_bbox，置信度损失L_obj和类别损失L_class；

解析损失用于学习目标解析，包括解析类别损失L_cls和边沿损失L_edge；每个batch训练将总的损失值L_total进行反向传播，更行网络权重参数。

所述对训练所需数据集的采集和标注，根据应用需求确定人体解析的部分，包括头部，躯干，上臂，下臂，大腿，小腿以及背景，共7类；根据应用的不同场景，采集不同天气，光照以及距离的人体目标，并进行标注；

数据集建立后，训练时还需要进行预处理和图像增强，包括随机调整色调、饱和度以及曝光，图像的缩放旋转。

所述将训练数据集送入神经网络进行训练，训练时为了节省训练时间，可以加载预训练模型，设置好训练参数，可以开始训练；

使用训练好的神经网络进行推理和验证，输出的结果为解析类别的Mask矩阵，以及行人目标定位的信息。

与现有技术相比，本发明具有以下有益的技术效果：

不同于单阶段实例分割算法，本发明设计了检测和解析多任务网络，检测分支网络通过三个不同尺度的检测头和九个不同的锚点框应对不同大小的行人目标，从而改善小目标检测性能，提升目标检测精度。网络输入经过后处理后，不仅可以获得目标检测的定位信息(cx，cy，w，h，score)，能够定位不同人体对象实例，而且针对不同的人体对象，使用解析头和原型特征矩阵来完成人体解析的掩码矩阵计算。

为了降低解析的误差，本发明还加入边缘检测特征矩阵，边沿特征矩阵会与解析原型特征矩阵进行融合，然后进入解析过程，进一步提升解析的性能。本发明还引入空间自注意力机制，让模型更关注感兴趣区域，实现了“重要性加权”的效果。通过引入空间注意力机制，可以对特征图中的感兴趣区域进行更加准确的定位和加权；这样就可以提取到更具有区分度的特征，从而提高了模型对人体解析的准确度和鲁棒性，降低复杂背景和噪声对人体解析结果的影响。最终，解析分支网络采用32*C的解析稀疏矩阵，原型特征矩阵经过特征原型网络输出为32*W*H大小的矩阵。稀疏矩阵系数与融合后的原型特征矩阵相乘得到掩码矩阵Mask，在经过后处理能够进行人体部位分割解析。

本发明提供的人体目标检测和解析的多任务协同网络算法，不仅可以在视频或者图像中，对人体目标进行定位检测，适用于目标检测和识别的应用领域，而且能够对检测的目标进行进一步的解析，获得目标的各个部位的像素级分割和分类，例如获得人体目标的头部、躯干、上肢和下肢等像素级分割信息，进而可以应用到其他任务中。实验验证，该多任务协同网络在目标检测和人体解析的任务中达到了良好的性能，在VOC行人数据验证集上的定位性能，mAP0.5达到了0.9，人体解析性能mAP0.5，6个部位平均精度达到了0.7。在嵌入式设备上部署可以达到20fps的实时处理速度。

附图说明

图1本发明的设计流程图；

图2本发明设计的训练流程图；

图3人体目标检测和解析的多任务协同网络结构；

图4空间自注意力矩阵结构图；

图5人体目标检测和解析的多任务协同网络解析结果。

具体实施方式

下面结合实施例对本发明做进一步详细描述，所述是对本发明的解释而不是限定。

本发明根据人体目标的检测和解析的双重任务需求，提出一种人体目标检测和解析的多任务协同网络及其训练方法，人体目标检测和解析的多任务协同网络的设计参见图1，其训练流程如图2所示，对人体目标进行定位检测、解析和分类。

本发明提供的人体目标检测和解析的多任务协同网络，包括：

结合图3，骨干网络为特征提取网络模块，颈部网络为特征融合模块，头网络为检测和解析分支网络；下面对各个模块进行详细说明。

特征提取网络模块，特征提取网络可以采用标准的网络，如Vgg-19，ResNet50，DarkNet53，MobileNet等，这些标准网络本身是针对图像分类的应用而设计，都会经过池化运算(下采样)把输入的特征进行降维，从而获得高级的语义特征，使用标准网络时可以根据需要从不同尺度的特征层抽头并接入到融合网络模块；

或者，也可以自行设计，但需要保证覆盖低级和高级的不同尺度特征，供后续的特征融合模块进行特征融合，增强多尺度特征的语义表示。

特征提取网络的末端接特征融合网络模块，可以获得不同尺度的上下文特征，提升小目标检测的能力。

具体的，所述特征提取网络模块包括提供5级尺度特征的C1～C5子模块，最高为32倍下采样的特征，其k级特征维度如式(1)所示：

其中W，H和C_k分别为输入图像的宽、高和通道数；

所述自顶向下融合路径包括融合特征层F5、F4、F3，分别对应C5、C4、C3子模块；所述自下至上融合路径包括融合特征层P5、P4、P3；

特征融合网络模块，采用特征金字塔网络FPN(Feature Pyramid Networks)和PAN(Pyramid Attention Networks)的结构，特征融合包含自顶向下和自下向上两条路径；FPN就是把深层的语义特征传到浅层，从而增强多个尺度上的语义表达，而PAN则相反把浅层的定位信息传导到深层，增强多个尺度上的定位能力。对不同尺度的深度特征进行充分融合，可以使网络提升对小目标检测的能力。

则特征融合模块的自顶向下的特征融合为：

F5融合特征层为高级语义特征，其经过上采样模块后与C4子模块分辨率一致，进行拼Concat接操作获得F4融合特征层，F4融合特征层经过上采样后与C3子模块进行Concat拼接获得F3融合特征层，完成自顶向下的特征融合；

所述自下至上融合路径包括融合特征层P5、P4、P3，为了充分的融合高低级语义特征，其自下至上的特征融合为：

F3融合特征层直接或经过卷积层后传递给P3融合特征层，在经过下采样运算后与F4融合特征层进行特征融合获得P4融合特征层，P4融合特征层经过下采样与F5融合特征层进行特征融合，得到P5融合特征层，完成自下至上融合。

特征原型网络，用于计算分割的掩码矩阵，主要由三个子模块构成，分别为特征矩阵，边沿矩阵和空间自注意力矩阵。

如图3中所示的特征原型矩阵网络部分，其中三个矩阵的输入均是由融合特征经过上采样后的特征，三者的关注目标不同，特征矩阵关注目标内部细节部分，而边沿矩阵关注目标的边沿细节，空间自注意力矩阵则是在复杂背景下对目标关注的程度(重点)。特征矩阵和边沿矩阵在通道维相互拼接(ConCat)，其输出与空间自注意力矩阵相乘(点乘)得到最终的特征原型矩阵用于人体部位解析。

特征矩阵是进行人体解析的重要部分，与解析头的稀疏矩阵系数相乘，从而计算最终的解析mask矩阵。特征矩阵需要较高的分辨率，但是为了平衡精度和速度，具体的选用融合特征层P3经过卷积层后上采样得到的，其分辨率为输入图像大小的四分之一。

为了增加人体解析的精度，引入边缘检测特征，边沿检测特征的输入与解析分支相同但目标不同，使用的损失函数也不同，这一部分特征矩阵会与解析原型特征矩阵进行融合，然后进入解析过程，使用融合边缘特征后的矩阵会带来解析性能的提升。

为了降低复杂背景和噪声对人体解析结果的影响，如图4所示，本发明设计了空间自注意力矩阵，空间自注意力矩阵主要是对特征图在通道维度使用平均池化和最大池化运算，得到图像在空间维度(宽高维度)的重要性度量，并与特征原型矩阵相乘，进一步使得网络聚焦于人体部位，提升对人体解析的效果。

检测和解析分支网络，包括目标检测分支网络(检测头)和人体解析分支网络(解析头)；

目标检测分支网络包括m*(n+C)个通道用于定位目标的位置，其中m为特征图所采用的m种锚点框，n为目标检测的定位信息个数，C为人体解析的类别数；

具体的，目标检测分支网络采用3*(5+C)个通道，其中3代表有3种锚点框(anchor)，5为目标检测的定位信息(cx，cy，w，h，score)，C代表预测目标的种类。本发明使用多尺度特征进行预测，融合网络包含3种大小的特征图，每个特征图使用3种不同大小预设的锚点框(anchor)。目标检测分支用于定位目标的具体位置，本发明采用先检测后解析，因此良好的检测性能是后续人体解析分割的保障。

解析头为32*C的解析稀疏矩阵，其中C为人体解析的类别数目。解析分支与检测分支共享提取网络模块和融合网络模块，引入更多的上下文信息，增大感受野，使用深层和浅层特征的融合，增加浅层的语义信息，提升对人体的解析能力。

解析头稀疏矩阵系数与融合后的原型特征矩阵相乘得到掩码矩阵Mask，在经过后处理，裁剪和阈值比较后得到最终的解析图像掩码矩阵，原图根据掩码矩阵处理后就可以输出解析图像了。

所构建的人体目标检测和解析的多任务协同网络对图像的处理为：

如图3所示，首先输入为一副彩色图像，经过Resize处理成网络需要的大小(例如512*512)作为输入；经过特征提取网络模块和特征融合网络模块后，得到三个不同尺度(例如64*64，32*32和16*16)的特征图像送入到检测分支，目标检测分支网络用于回归目标检测所需的定位信息，包括目标中心(cx，cy)、目标宽高(w，h)以及置信度score；人体解析分支网络则为解析使用的稀疏系数矩阵；

人体解析分支网络的稀疏矩阵系数与融合后的原型特征矩阵相乘得到掩码矩阵Mask，经裁剪和阈值比较后得到最终的解析图像掩码矩阵，原图根据掩码矩阵处理后，输出最终的解析图像。

上述人体目标检测和解析的多任务协同网络的训练方法，包括以下操作：

4)将训练数据集送入神经网络进行训练；

5)使用训练好的神经网络进行推理，验证算法的准确率。

下面对训练方法进行详细说明。

构建的网络中，目标检测和解析任务共享特征提取和融合网络，然后经过不同的分支网络完成各自的功能；两者网络训练的损失函数分别独立构造，但是加权后一起反向传播，通过这样的协同处理，使得网络的学习不仅能够适应两种不同的任务，而且相互促进提升各自任务的精度。为了避免多项任务对网络权重产生主导影响，使用梯度归一化设计平衡所有任务的协同学习。

所述使用深度学习框架搭建多任务神经网络，具体包括以下操作：包括但不限于使用pytorch，tensorflow，caffe等开发工具对网络训练和推理架构的搭建，同时给出评价指标和性能分析。

PyTorch是基于Python的开源机器学习库，由Facebook开发，其具有灵活性，使用动态计算图，和易于学习的优点，能够更快地构建、训练和部署深度学习模型。

以pytorch开发环境为例，首先需要安装环境所需的依赖，python、Cuda、Cudnn、torch以及程序运行所需要的各种工具包。使用torch搭建出目标检测和解析的网络模型框架，设置超参数，例如学习率，批量大小，训练轮数，数据增强方法等，初始化网络或者使用预训练权重，并定义损失函数和优化器。训练完成后需要对网络的性能进行评估，使用mAP全类平均分类精度指标。

其中：K为类别数，r表示查全率，p表示查准率。

定义损失函数如下：

L_total＝L_detect+L_parsing

L_detect＝α₁L_bbox+α₂L_obj+α₃L_class

L_parsing＝β₁L_cls+β₂L_edge

其中：L_total为总损失函数，包括检测损失L_detect和解析损失L_parsing。检测损失用于学习目标检测分支，包括边框回归损失L_bbox，置信度损失L_obj和类别损失L_class。解析损失用于学习目标解析，包括解析类别损失L_cls和边沿损失L_edge。每个batch训练将总的损失值L_total进行反向传播，更行网络权重参数。

所述对训练所需数据集的采集和标注：

根据应用需求确定人体解析的部分，本发明使用的训练集部分来自于网络的公开数据集，包括PASCAL Person Part，数据集的标签标注了6个人体部位，包括头部，躯干，上臂，下臂，大腿，小腿以及背景，共7类，数据集共3536张图片。

另外，由于公开数据集数量较少，根据应用的不同场景，采集不同天气，光照以及距离的人体目标，并进行标注。数据集建立后，训练时还需要进行预处理和图像增强，包括随机调整色调、饱和度以及曝光，图像的缩放旋转，Mosaic和Mixup等方法。

所述将训练数据集送入神经网络进行训练，训练时为了节省训练时间，可以加载预训练模型，设置好训练参数，可以开始训练。

训练时，输入为一副彩色图像，经过Resize处理成网络需要的大小(例如512*512)，输入网络，经过特征提取和特征融合模块后，得到三个不同尺度(例如64*64，32*32和16*16)的特征图像送入到检测分支，输出行人目标的检测框信息，包括cx，cy，w，h表示目标框的中心坐标和宽高，obj表示目标的置信度。

最大尺度的特征图(例如64*64)也同时输入特征原型网络进行特征原型矩阵的提取，解析头稀疏矩阵系数与融合后的原型特征矩阵相乘得到掩码矩阵Mask(该矩阵大小为N*W*H，其中N为解析的类别数，W为图像的宽，H图像的高，矩阵为二值矩阵0代表不属于该类，1代表属于该类别)，在经过后处理，裁剪和阈值比较后得到最终的解析图像掩码矩阵，原图根据掩码矩阵处理后，输出最终的解析图像，如图5所示。

以上给出的实施例是实现本发明较优的例子，本发明不限于上述实施例。本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种人体目标检测和解析的多任务协同网络，其特征在于，包括：

其中目标检测分支网络包括m*(n+C)个通道用于定位目标的位置，其中m为特征图所采用的m种锚点框；n为目标检测的定位信息个数，包括目标中心、目标宽高以及置信度；C为人体解析的类别数；

2.如权利要求1所述的人体目标检测和解析的多任务协同网络，其特征在于，所述特征提取网络模块包括提供5级尺度特征的C1～C5子模块，最高为32倍下采样的特征，其k级特征维度如式(1)所示：

其中W，H和C_k分别为输入图像的宽、高和通道数；

3.如权利要求1或2所述的人体目标检测和解析的多任务协同网络，其特征在于，所述特征矩阵的分辨率，选用特征融合网络模块的自下向上融合路径最上的融合特征层P3，经过卷积层后上采样得到的分辨率；

4.一种权利要求1所述人体目标检测和解析的多任务协同网络的训练方法，其特征在于，包括以下操作：

4)将训练数据集送入神经网络进行训练；

5)使用训练好的神经网络进行推理，验证算法的准确率。

5.如权利要求4所述的人体目标检测和解析的多任务协同网络的训练方法，其特征在于，所述使用深度学习框架搭建多任务神经网络，是使用包括pytorch，tensorflow，caffe在内的开发工具进行，包括以下操作：

其中：K为类别数，r表示查全率，p表示查准率；

定义损失函数如下：

L_total＝L_detect+L_parsing

L_detect＝α₁L_bbox+α₂L_obj+α₃L_class

L_parsing＝β₁L_cls+β₂L_edge

6.如权利要求4所述的人体目标检测和解析的多任务协同网络的训练方法，其特征在于，所述对训练所需数据集的采集和标注，根据应用需求确定人体解析的部分，包括头部，躯干，上臂，下臂，大腿，小腿以及背景，共7类；根据应用的不同场景，采集不同天气，光照以及距离的人体目标，并进行标注；

7.如权利要求4所述的人体目标检测和解析的多任务协同网络的训练方法，其特征在于，所述将训练数据集送入神经网络进行训练，训练时为了节省训练时间，可以加载预训练模型，设置好训练参数，可以开始训练；