CN113076902B

CN113076902B - 一种多任务融合的人物细粒度分割系统和方法

Info

Publication number: CN113076902B
Application number: CN202110398552.2A
Authority: CN
Inventors: 梁远; 何盛烽; 毛爱华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2023-07-18
Anticipated expiration: 2041-04-12
Also published as: CN113076902A

Abstract

本发明公开了一种多任务融合的人物细粒度分割系统和方法，该系统包括：主干网络、边缘检测模块、前景预测模块和细粒度分割模块；主干网络，用于提取输入图像的特征图，并降低特征图的尺寸；边缘检测模块，用于将特征图进行边缘特征提取，得到对应的边缘特征图；将所有边缘特征图连接并经边缘预测模块得到边缘预测结果；前景预测模块，用于从主干网络的特征图中提取到前景对应的信息，将前景对应的信息作背景内容过滤；细粒度分割模块输出输入图像的细粒度分割预测结果。本发明能够一次输出三种预测结果，分别属于低层次理解的边缘检测和前景预测，以及高层次的细粒度分割预测，使得在现实场景的理解中具有更大层次性。

Description

一种多任务融合的人物细粒度分割系统和方法

技术领域

本发明涉及图像处理与图像表征学习技术领域，具体涉及一种多任务融合的人物细粒度分割系统和方法。

背景技术

人物细粒度分割是从视频或图像中对包含人脸、头发、肢体、以及各种着装在内的细粒度分割，该任务目标是逐像素地识别人体肢体部位和人的衣着外表。

随着城镇化的发展，当前各主要城市及新兴城市人口逐渐增多，公共安全变的越来越重要，公共场所监控场景下的人物行为识别和特定人物检索有助与公安侦查和维护社会治安。目前的传统做法是人工监视或逐帧检索，这样无法实现实时的监控分析，并且在大批量监控数据下人工处理难度很大。如何智能化地提取视频或图像中的人物信息，进而为行为识别和行人检索提供可智能化理解的特征具有重要的现实意义。

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了一种多任务融合的人物细粒度分割系统和方法。

本发明的目的通过以下的技术方案实现：

一种多任务融合的人物细粒度分割系统，包括：主干网络、边缘检测模块、前景预测模块和细粒度分割模块；主干网络，用于提取输入图像的特征图，并降低特征图的尺寸；边缘检测模块，用于将特征图进行边缘特征提取，得到对应的边缘特征图；将所有边缘特征图连接并经边缘预测模块得到边缘预测结果；前景预测模块，用于从主干网络的特征图中提取到前景对应的信息，将前景对应的信息作背景内容过滤；细粒度分割模块，用于将主干网络输出的特征图与前景预测模块的前景权重参数相乘，得到经过背景过滤的特征图，将该特征图与边缘特征图进行连接后输入细粒度分割模块，主干网络细粒度分割模块输出输入图像的细粒度分割预测结果。

其中，前景预测模块将前景的预测从分割任务中解耦出来。背景的结果预测由前景检测网络负责。由前景预测模块的特征图产生的前景注意力参数用来过滤主干特征图中的背景信息。边缘检测模块为细粒度分割任务提供细粒度分割的参考信息。在分割任务中边缘部分的分割预测置信度较低，边缘特征图重点关注这些区域。人物细粒度分割任务综合上述两个任务的注意力参数或特征图，预测出最总的细粒度分割结果。

边缘特征图提供给主干网络在进行细粒度分割决策时的一些参考信息，尤其在判定分割任务的置信度较低的边缘区域。使用参数共享的边缘检测模块使整体边缘特征图忽略类别间的尺寸差异，为了增强不同层的边缘特征图对尺寸的感知，让每一层边缘检测网略拥有自己独立的参数。除此之外，来自主干网络的高层特征也被用作边缘特征检测，这进一步增强边缘检测模块对整体上下文的学习。

优选地，主干网络包括五层依次连接的处理模块；

第一层为使用大尺寸卷积处理输入图像，产生尺寸为输入图像1/2的特征图，该特征图输入由3个卷积操作组成的特征提取模块产生尺寸为输入图像尺寸的1/4的特征图；

第二层为将第一层产生的特征图输入由3个残差网络组成的特征提取模块conv1，该模块里的残差网络包含的卷积操作都由变形卷积代替。特征提取模块conv1输出尺寸降为输入图像尺寸1/8的特征图；

第三层为将第二层输出的特征图输入由4个残差网络组成的特征提取模块conv2，该模块里的残差网络包含的卷积操作都由变形卷积代替。特征提取模块conv2输出尺寸降为输入图像尺寸1/16的特征图；

第四层为将第三层输出的特征图输入由23个残差网络组成的特征提取模块conv3，该模块里的残差网络包含的卷积操作都由变形卷积代替。特征提取模块conv3输出尺寸为输入图像尺寸1/16的特征图；

第五层为将第四层输出的特征图输入由3个残差网络组成的特征提取模块conv4，该模块里的残差网络包含的卷积操作都由变形卷积代替。特征提取模块conv4输出的特征图尺寸保持不变；

最后，使用多层金字塔池化操作对第五层输出的特征图进行不同尺度的池化操作，将不同的池化操作结果连接并经同一个卷积操作后产生主干网络的输出。

优选地，前景预测模块包括前景特征提取子模块和前景注意力子模块；前景特征提取子模块，用于将主干网络的第二层、第三层、第四层、第五层输出的特征图均经过卷积操作和双线性插值后得到尺寸相同的特征图；前景注意力子模块，用于将每层的特征图进行连接并输入前景注意力模块，前景注意力模块输出0-1之间的前景权重参数；前景注意力模块包括由卷积函数、ReLU激活函数和sigmoid函数，前景注意力模块的输出是0-1之间的前景权重参数。

前景注意力参数的形成使用了高维信息，使用sigmoid函数来避免过度抑制类别间差异的响应信息，前景预测任务得到的特征图会忽略类别间差异，为了让前景特征图保持一定原有类别差异，在前景分支中加入了高维特征，同时也让前景特征图受细粒度分割任务的监督。前景注意力参数由sigmoid函数生成，较好的平衡类别间差异与前景一致。本发明对应的网络只采用了常用的常规卷积操作，这使得网络的学习过程更加快速稳定，细粒度分割检测速度更快速可靠。

优选地，多任务融合的人物细粒度分割系统，还包括：多分割预测校正模块；多分割预测校正模块，用于将主干网络、边缘检测模块、前景预测模块输出的细粒度分割预测结果进行校正。从主干网络、边缘检测模块、前景预测模块得到三个细粒度分割预测结果。三种分割预测来自不同的任务分支，主干网络的分割预测主要来自主干网络的高层特征，因此主要关注高层语义信息。边缘检测模块的分割预测主要关注不同尺寸的不同分割类别间的差异，对类别内部的分割预测结果连续性关注较少。来自前景预测模块的细粒度分割预测主要关注类别内部的连续性，对类别间特别是边缘部分的关注较少。为了综合这三种预测结果并各取所长，本模块把这三个细粒度分割预测结果输入到预测校正模块。预测校正模块由两个卷积核较大的卷积操作组成。

本发明摈弃了传统的计算量较大的CRF等后处理方法，采用了将预测结果再校正的方法，即将多个细粒度分割的预测结果连接在一起用较大尺寸的卷积处理得到新的预测结果。新的细粒度分割预测结果使用交叉熵损失函数。如此能够让多任务产生的细粒度分割结果在结构上保持一致，同时在更高层的细粒度分割任务上让三个不同任务保持相互兼容。

一种多任务融合的人物细粒度分割方法，包括：

S1，主干网络提取输入图像的特征图，并降低特征图的尺寸；

S2，主干网络的特征图均经过边缘特征提取得到对应的边缘特征图；将所有边缘特征图进行连接并经缘预测模块得到边缘预测结果；

S3，将主干网络每层的特征图进行连接并输入前景注意力模块，前景注意力模块输出前景权重参数；

S4，将主干网络的第五层特征图与前景预测模块的前景权重参数相乘，得到经过背景过滤的特征图，将该特征图与边缘特征图进行连接后输入主干网络细粒度分割模块，主干网络细粒度分割模块输出输入图像的细粒度分割预测结果。

优选地，步骤S1包括：输入图像经卷积处理，生成尺寸为输入图像1/2的特征图，尺寸为输入图像1/2的特征图输入由三个卷积操作组成的特征提取模块，产生尺寸为输入图像尺寸的1/4的特征图；将特征图输入由3个残差网络组成的特征提取模块conv1，特征图尺寸降为输入图像尺寸的1/8；将特征图输入由4个残差网络组成的特征提取模块conv2，特征图尺寸降为输入图像尺寸的1/16；将特征图依次输入由23个残差网络组成的特征提取模块conv3、由3个残差网络组成的特征提取模块conv4，特征图尺寸依然为输入图像尺寸的1/16；使用多层金字塔池化操作对特征图进行不同尺度的池化操作，将不同的池化操作结果连接，并经同一个卷积操作后产生主干网络的输出。

优选地，步骤S2包括：将主干网络输出的特征图均经过边缘特征提取得到对应的边缘特征图；将主干网络的边缘特征图的尺寸经卷积操作和双线性插值统一上采样到与第二层特征图相同的尺寸；将所有边缘特征图进行连接并经缘预测模块得到边缘预测结果。

优选地，步骤S3包括：将主干网络的第二层、第三层、第四层、第五层输出的特征图均经过卷积操作和双线性插值后得到尺寸相同的特征图；将每层的特征图进行连接并输入前景注意力模块，前景注意力模块输出0-1之间的前景权重参数；前景注意力模块包括由卷积函数、ReLU激活函数和sigmoid函数，前景注意力模块的输出是0-1之间的前景权重参数。

本发明相对于现有技术具有如下优点：

1、本发明能够一次输出三种预测结果，分别属于低层次理解的边缘检测和前景预测，以及高层次的细粒度分割预测，使得在现实场景的理解中具有更大层次性。

2、本发明只使用了常规卷积操作和变形卷积操作，以及sigmoid作为了注意力激活函数，相对其他自注意力机制的模型计算量较小。测试时的预测时间效率也较高，比较接近现实的实用场景。

3、本发明提出的网络以较小的计算量和更高的测试速度超过或接近目前最好的预测精度，可以作为今后进一步深入研究的基础网络。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的多任务融合的人物细粒度分割系统的原理图。

图2为本发明的多任务融合的人物细粒度分割系统的结构图。

图3为本发明的边缘检测模块的结构图。

图4为本发明的前景预测模块和边缘检测模块的输入特征生成过程图。

图5为本发明在多人场景下的预测精度比较图。

图6为本发明在单人场景下的预测精度比较图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参见图1-6，所述主干网络，主干网络采用ResNet-101网络，网络由ImageNet预训练模型初始化，网络的输入图像需要首先进行归一化操作，归一化操作的参数为ImageNet数据集图像的均值和方差。

所述主干网络在第二层至第五层中的每一个残差模块里都使用了变形卷积以扩大感受卷积操作对应的响应区域。主干网络的第二层输出和多级池化层连接一融合更多底维数据。

所述主干网络最后一层的金字塔池化操作使用了空洞卷积进一步扩大对应卷积操作的响应区域，池化核的尺寸分别为2，8，16，对应的空洞卷积扩展率分别为2,4,12。

所述边缘检测模块的输入是来自主干网络的不同层、不同尺寸的特征。不同类别的物体往往对应不同的尺寸级别，例如在一张图里上衣往往比鞋子所占像素比例更大，在网络更高层的响应里上衣对应位置的响应也更大。为了能够动态适应不同层的不同类别的不同尺度边缘信息，在边缘检测模块设置5个边缘检测网络，每个边缘检测网络单独负责对应输入层的边缘预测。

所述边缘预测模块使用了尺寸为7×7的较大卷积核操作，边缘检测的常用卷积操作是1×1卷积核，但是这里需要预测的是不同类别之间的边缘，也即需要更大的感受野和更多的上下文信息。为此增大了边缘检测输出网络的卷子核大小。

所述边缘检测模块的特征矩阵需要和主干网络融合，为了减少计算开销，直接把边缘特征图和主干网络的特征图合并在一起作为主干网络的细粒度分割特征图。

所述前景预测模块产生的前景权重参数需要和主干网络特征图相乘以达到过滤背景的作用。由于前景预测模块受前景标注的监督，这导致前景特征往往倾向于忽略图像中不同类别间的差异，这样会减弱主干网络特征对不同类别间差异的响应。为了缓解这个问题，前景预测模块也引入了主干网络的高层特征，并且前景特征图也受细粒度分割标注的监督。

所述前景预测模块的前景特征图需要激活得到数值在0至1间的前景权重参数，常用的激活函数有softmax函数、sigmoid函数、ReLu函数等，softmax函数对应的输出结果和对应维度的所有位置上的取值相关，即对应维度上的所有输出值的和为1，这样的结果会导致响应值较小的区域得到更小的值。ReLu操作的结果超出了0至1的范围，不利于保持主干网络的细分割特征。综上所述，选择了sigmoid函数，它的输出值在0至1间且结果与周围位置取值无关。

所述细粒度分割预测与校正网络用两个卷积核为1×15和15×1的卷积操作组成，该网络得到的新的细粒度分割预测结果是对主干网络、边缘检测、前景预测模块在分割任务上的统一。

所述发明的输出阶段，由于网络融合了主干网络不同层的特征图，同时受到不同任务的监督，这使得在做测试时发现把不同尺度的预测结果再求平均的方法对细粒度分割的准确度的影响很小，单独的一个尺寸的输出结果已经达到很好的准确度。

所述三个任务的损失函数设置方面，因为三个任务都是像素级预测，单一像素的预测结果很取决与它的位置和上下文信息。常用损失函数有基于概率的交叉熵损失(crossentropy loss)和基于距离度量的回归损失(regression loss)。为了更好地理解上下文信息同时对个别预测置信度较小的区域进行重点关注，首先对细粒度分割、前景预测、边缘检测均使用了交叉熵损失(cross entropy loss)，为了增强对网络不确定区域的关注，在边缘预测结果中低于平均预测值的像素位置进行L2 Loss。这样网络的预测结果同时兼顾了整体结构性和局部有效性。

三个任务对应的交叉熵损失函数为：

其中p_c为预测值，y_c为真是值，w_c为该类别对应的权重。N为对应类别数，(对边缘检测和前景预测的输出只有两个类别，故N＝2；对细粒度分割预测的输出来讲N的值依训练数据集的类别数而定。)

边缘区域对应的分割损失为：

其中Ω是边缘预测结果中低于平均预测值的边缘区域。

记L_ps为细粒度分割任务对应的损失函数，L_edg为边缘检测对应的损失函数，L_m为前景检测对应的损失函数。本发明提出的网络对应的总损失函数为：

L_total＝L_ps+L_edg+L_m+L_pe

因为三个任务有共享高层特征，且损失函数均为交叉熵损失，对应的损失值(lossvalue)在数量级上是一致的，因此将三个任务的loss权重值均设置为1。

训练过程中对输入图像进行了数据增强。因为细粒度分割需要关注图像中人的左右、上下等结构信息，为了增强网络对这种结构信息的关注，对输入图像进行了随机水平翻转再和原图拼接的操作，这样在同一张图出现同一个人同一个部位在水平翻转后的图中处于不同的左右位置。以此启发网络去寻找更有利于识别结构信息的线索(比如脸的朝向，肢体的关节位置等)。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多任务融合的人物细粒度分割系统，其特征在于，主干网络、边缘检测模块、前景预测模块和细粒度分割模块；

主干网络，用于提取输入图像的特征图，并降低特征图的尺寸；所述主干网络包括五层依次连接的处理模块；

第二层为将第一层产生的特征图输入由3个残差网络组成的特征提取模块conv1，特征提取模块conv1输出尺寸降为输入图像尺寸1/8的特征图；

第三层为将第二层输出的特征图输入由4个残差网络组成的特征提取模块conv2，特征提取模块conv2输出尺寸降为输入图像尺寸1/16的特征图；

第四层为将第三层输出的特征图输入由23个残差网络组成的特征提取模块conv3，特征提取模块conv3输出尺寸为输入图像尺寸1/16的特征图；

第五层为将第四层输出的特征图输入由3个残差网络组成的特征提取模块conv4，特征提取模块conv4输出的特征图尺寸保持不变；

最后，使用多层金字塔池化操作对第五层输出的特征图进行不同尺度的池化操作，将不同的池化操作结果连接并经同一个卷积操作后产生主干网络的输出；

边缘检测模块，用于将特征图进行边缘特征提取，得到对应的边缘特征图；将所有边缘特征图连接并经边缘预测模块得到边缘预测结果；

前景预测模块，用于从主干网络的特征图中提取到前景对应的信息，将前景对应的信息作背景内容过滤；所述前景预测模块包括前景特征提取子模块和前景注意力子模块；

前景特征提取子模块，用于将主干网络的第二层、第三层、第四层、第五层输出的特征图均经过卷积操作和双线性插值后得到尺寸相同的特征图；

前景注意力子模块，用于将每层的特征图进行连接并输入前景注意力模块，前景注意力模块输出0-1之间的前景权重参数；前景注意力模块包括由卷积函数、ReLU激活函数和sigmoid函数，前景注意力模块的输出是0-1之间的前景权重参数；

细粒度分割模块，用于将主干网络输出的特征图与前景预测模块的前景权重参数相乘，得到经过背景过滤的特征图，将该特征图与边缘特征图进行连接后输入细粒度分割模块，主干网络细粒度分割模块输出输入图像的细粒度分割预测结果。

2.根据权利要求1所述的多任务融合的人物细粒度分割系统，其特征在于，还包括：多分割预测校正模块；

多分割预测校正模块，用于将主干网络、边缘检测模块、前景预测模块输出的细粒度分割预测结果进行校正。

3.一种多任务融合的人物细粒度分割方法，其特征在于，包括：

S1，主干网络提取输入图像的特征图，并降低特征图的尺寸；具体包括以下步骤：

输入图像经卷积处理，生成尺寸为输入图像1/2的特征图，尺寸为输入图像1/2的特征图输入由三个卷积操作组成的特征提取模块，产生尺寸为输入图像尺寸的1/4的特征图；

将特征图输入由3个残差网络组成的特征提取模块conv1，特征图尺寸降为输入图像尺寸的1/8；

将特征图输入由4个残差网络组成的特征提取模块conv2，特征图尺寸降为输入图像尺寸的1/16；

将特征图依次输入由23个残差网络组成的特征提取模块conv3、由3个残差网络组成的特征提取模块conv4，特征图尺寸依然为输入图像尺寸的1/16；

使用多层金字塔池化操作对特征图进行不同尺度的池化操作，将不同的池化操作结果连接，并经同一个卷积操作后产生主干网络的输出；

S2，主干网络的特征图均经过边缘特征提取得到对应的边缘特征图；将所有边缘特征图进行连接并经缘预测模块得到边缘预测结果；具体如下，

将主干网络输出的特征图均经过边缘特征提取得到对应的边缘特征图；

将主干网络的边缘特征图的尺寸经卷积操作和双线性插值统一上采样到与第二层特征图相同的尺寸；

将所有边缘特征图进行连接并经缘预测模块得到边缘预测结果；

S3，将主干网络每层的特征图进行连接并输入前景注意力模块，前景注意力模块输出前景权重参数；具体为：

将主干网络输出的特征图均经过卷积操作和双线性插值后得到尺寸相同的特征图；

将所有的特征图进行连接并输入前景注意力模块，前景注意力模块输出0-1之间的前景权重参数；前景注意力模块包括由卷积函数、ReLU激活函数和sigmoid函数，前景注意力模块的输出是0-1之间的前景权重参数；