CN110674685A

CN110674685A - 一种基于边缘信息增强的人体解析分割模型及方法

Info

Publication number: CN110674685A
Application number: CN201910763391.5A
Authority: CN
Inventors: 邵杰; 黄茜; 伍克煜; 徐行
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2020-01-10
Anticipated expiration: 2039-08-19
Also published as: CN110674685B

Abstract

本发明公开了一种基于边缘信息增强的人体解析分割模型及方法，属于计算机视觉中的语义分割技术领域。本发明的人体解析分割模型的网络结构在ResNet‑101的基础上，构建了边缘特征提取模块、人体特征提取模块，分别用于提取边缘特征图和人体解析特征图。边缘特征提取模块和人体特征提取模块以ResNet‑101生成的四个特征作为输入，进一步提取并增强特征。两个模块均采用了DenseASPP提取多维度特征，在此基础上，进一步规划网络结构分别提取两个任务对应的有效特征。模型损失项仅包含人体分割损失和边缘损失，易于训练过程中的权重调整，并且能更针对性地发掘边缘信息潜能。本发明用于多分类的单个人体细致分割，与现有分割方式相比，其分割性能更优。

Description

一种基于边缘信息增强的人体解析分割模型及方法

技术领域

本发明属于计算机视觉中的语义分割领域，具体涉及一种利用边缘信息增强人体解析的分割技术。

背景技术

人体解析(human parsing)是语义分割的子任务。其目标是将一个人身体的各个部位或者所着衣物配饰加以识别。和通用语义分割不同，人体解析集中于以人为中心的分割，须识别出人体的手臂、头部、腿部等区域，即对人体各部位做细致分割。人体解析在行为识别、行人再识别、时装合成等领域均有应用。

研究技术尝试利用前沿的深度学习技术改善模型表现力，例如：基于多任务学习、基于生成对抗网络、基于相互学习。其中，基于多任务学习中最具代表性的工作是融合边缘检测任务和人体解析任务到一个网络模型中，使其提取的特征能达到相互增强、融合的效果。但是，已经关注到这两个任务之间密切联系的工作中。

通常在现有的基于多任务的人体解析模型中，通过利用多个角度的损失以约束模型，其损失项的构成通常包含除边缘损失、人体分割损失外的多个其他损失，例如以前层输出的分割预测图损失、对抗损失。这种设置可以多角度约束模型参数，但同时，也难以通过调整损失项所占比例使得模型参数优化到最佳状态，并且可能弱化某种损失项的影响力。在模型结构规划上，对于多维度特征的提取是最为重要的，这从根本上影响了模型的解析能力。现有的方法中，在边缘特征提取方面，存在不足。

在场景解析问题中，研究者们提出了多种方法以解决复杂多变的场景分割问题，其中，备受关注的是多维特征提取。大量实验已经证明multi-scale预测具有明显效果，但由于其具有占用内存大、训练时间长等缺点，研究者们提出了另外一种思路，即添加特征提取模块。其中，最具代表性的三种方法是金字塔池模块(pyramid pooling module)、阿托罗斯空间金字塔池(Atrous Spatial Pyramid Pooling，ASPP)和、密集连接的空间金字塔池(Densely connected Atrous Spatial Pyramid Pooling，DenseASPP)。金字塔池模块是一个金字塔池化结构，通过融合四种不同金字塔尺度的特征，达到语义和细节的融合。ASPP是一个利用空洞卷积提取特征的模块，采用四个不同的空洞卷积率(dilated rate)进行卷积，从而达到多维度特征提取的目的。DenseASPP则是ASPP的一种改进结构，以一种密集连接的方式提取更大维度特征。

场景解析需要解决的问题相对人体解析来说更为复杂，但是就目前存在的主流数据集来看，人体解析领域的LIP、CIHP等数据集均包含20个类别，场景解析领域的常用数据集Cityscape包含19个类别，这意味着人体解析模型面临的复杂性和场景解析相当，因此有必要通过进一步挖掘边缘信息来设置人体解析模型，以丰富人体解析模型所提取的特征维度，进而达到更好的分割性能。

发明内容

本发明的发明目的在于：提供一种基于边缘信息增强人体解析的分割技术，实现更好的分割性能。

本发明的一种基于边缘信息增强的人体解析分割模型，包括残差神经网络ResNet-101、边缘特征提取模块和人体特征提取模块；

其中，所述残差神经网络ResNet-101作为人体解析分割模型的基础层，用于提取共享特征；残差神经网络ResNet-101输出的四个不同维度特征作为边缘特征提取模块和人体特征提取模块的输入；

用Block1、Block2、Block3和Block4表示残差神经网络ResNet-101输出的四个不同维度特征，Block1、Block2、Block3和Block4的维度为递减方式；

所述边缘特征提取模块通过1×1的卷积层分别提取Block1和Block2的特征，得到边缘特征提取模块的第一提取特征和第二提取特征；以及通过DenseASPP提取Block3和Block4的特征，得到边缘特征提取模块的第三提取特征；边缘特征提取模块的第一、二和经过上采样后的第三提取特征分别通过3×3的卷积层，再通过1×1的卷积层输出边缘预测图；

所述人体特征提取模块通过1×1的卷积层提取Block1的特征，得到人体特征提取模块的第一提取特征；以及通过DenseASPP提取Block3和Block4的特征，得到人体特征提取模块的第二提取特征；人体特征提取模块的第二提取特征经上采样后与人体特征提取模块的第一提取特征通过融合层进行特征融合，再通过3×3的卷积层，得到人体特征提取模块的第三提取特征；人体特征提取模块的第三提取特征、边缘特征提取模块的第一提取特征和经上采样后的边缘特征提取模块的第三提取特征通过融合层进行特征融合，再通过2个1×1的卷积层输出人体分割预测图；

即本发明中，边缘特征提取模块和人体特征提取模块均采用了DenseASPP进一步提取Block3、Block4的特征；人体特征提取模块采用跳跃连接(skip connections)融合特征Block1，并经过解码处理，再进一步与来自边缘特征提取模块提取的特征融合。

进一步的，本发明的基于边缘信息增强人体解析分割模型在训练时的学习率的更新方式设置为：

其中，base_lr为初始学习率，iter为当前迭代次数，max_iter为迭代总次数，power设置为0.9。

优选的，本发明的人体解析模型的损失函数设置为：L＝L_parsing+λL_edge；

其中，L_parsing表示分割预测图和分割标注图的交叉熵损失，L_edge表示边缘预测图和边缘标注图的交叉熵损失，λ表示预置权重，用于平衡分割损失和边缘损失的比例。通常其取值与所采用的人体解析数据集，即不同类型数据集适应于不同取值；例如对于人体解析数据集LIP、CIHP、Pascal-Person-Part，λ的取值分别为：2、3、0.1。

本发明提出的人体解析模型着重探索了边缘信息的潜能。在网络结构上，通过所构建的边缘特征提取模块，有效提取边缘信息，并融合多维度特征，增强了人体解析的效果；在训练过程中，由于损失函数只规划了分割损失和边缘损失，因此权重调整更为容易，从而进一步提升基于本发明的人体解析模型进行图像的人体各部位的细致分割的分割性能。

同时，本发明还公开了一种构建上述人体解析分割模型的构建方法，其具体包括下述步骤：

步骤1：选择训练数据集；

步骤2：构建基于边缘信息增强的人体解析分割模型的网络结构；

步骤3：对训练数据进行预处理操作，生成图像边缘图片；

步骤4：训练人体解析分割模型；

步骤5：验证人体解析分割模型及模型中的边缘特征提取模块。即验证人体解析分割模型，以及验证剔除边缘特征提取模块的人体解析分割模型，获取对应的分割性能的描述数据。

进一步的，所述步骤3中，预处理操作包括：裁剪(尺寸归一化)、左右翻转等处理；且边缘图片通过计算标注图片相邻像素间关系得到，以“0”标识背景类，以“1”标识边缘。

进一步的，所述步骤4中，人体解析分割模型的网络训练的具体过程为：首先对人体解析分割模型的网络结构中涉及的网络参数进行初始化操作，其中，ResNet-101可以采用在ImageNet数据集(用于视觉对象识别软件研究的大型可视化数据库)上已经预训练的模型；然后，以批处理的方式输入经预处理的数据到人体解析分割模型中，对其网络进行训练；

所述步骤5中，在多个数据集上验证步骤2所构建的人体解析分割模型；并验证其边缘特征提取模块的作用，即训练剔除该模块之后的人体解析分割模型进行验证，通过该验证证明本发明提出的边缘特征提取模块具有非常突出的增强效果。

此外，本发明还公开了基于本发明的人体解析分割模型的分割方法，具体包括下述步骤：

步骤1：采集训练数据集，并对训练数据进行图像数据预处理，生成图像边缘图片；所述图像数据预处理包括尺寸归一化处理、图像左右翻转处理等；

基于所述图像边缘图片对本发明所构建的人体解析分割模型进行网络训练，当网络训练满足预设的分割精度需求时，保存训练好的人体解析分割模型作为人体解析分割器；

步骤2：对待分割的图像进行图像数据预处理(与步骤1的处理方式相同)，输入人体解析分割器，基于人体解析分割器的输出的人体分割预测图得到待分割的图像的人体分割结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明通过在人体解析分割模型中的边缘特征提取模块，有效的提取边缘信息，并融合多维度特征，增强了人体解析的效果；在训练过程中，由于损失函数只规划了分割损失和边缘损失，因此权重调整更为容易。本发明规划的模型进一步提升基于本发明的人体解析模型进行图像的人体各部位的细致分割的分割性能，从而展现了最优分割效果。

附图说明

图1为具体实施方式中，设置人体解析分割模型的实现流程图；

图2为具体实施方式中，本发明的人体解析分割模型的框架示意图；

图3为具体实施方式中，本发明的人体解析分割模型的网络结构；

图4为具体实施方式中，人体解析网络模型在数据集LIP上的分割效果对比图；

图5为具体实施方式中，人体解析网络模型在数据集CIHP上的分割效果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

为深入挖掘边缘信息的潜能，并且提取更多维度特征，本发明提出了一种利用边缘信息增强人体解析的网络模型。本发明提升了人体解析的效果，并在提取特征和利用边缘信息方面做了改进。下面结合具体实例，来对本发明进行详细且完整的说明。

如图1所示，本发明中基于边缘信息增强的人体解析分割模型的构建方法包含如下步骤：

步骤1：选择训练数据集。本实施例选取了三个主流人体解析数据集进行实验，包括LIP、CIHP、Pascal-Person-Part。

LIP是目前数量最大的一个人体解析数据集，共包含50462张图片，其中30462张用于训练，10000张用于验证，剩下的10000张用于测试。该数据集共包含20个类别，大多数图片只包含单个人体。

CIHP是一个应对实例人体解析的数据集，每张图片均包含多个实例，相对于现有的主流数据集，其图片更具复杂性和挑战性。该数据集共包含38280张图片，其中28280张图片用于训练，测试集和验证集分别包含5000张，类别分类为20。

Pascal-Person-Part是PASCAL 2010的一个子集，共包含3533张图片，训练集和测试集分别包含1716、1817。该数据集具有数据量适中、人体姿态多样性等优点。该数据集标注的类别数相对较少，只有7类。

选择以上三个数据集是为了验证模型对于不同类型数据集的适应性和鲁棒性，LIP和CIHP均包含20个分类，属于复杂的多分类解析问题。同时，CIHP包含多个实例，增加了解析难度。另外，Pascal-Person-Part是一个分类数较少的数据集，模型是否适用于较少分类任务，则可从该数据集上得到基本验证。

步骤2：构建利用边缘信息增强人体解析的网络结构。

参见图2、3，本发明的人体解析分割模型包含三个部分：ResNet-101、边缘特征提取模块、人体特征提取模块。其中ResNet-101为层数为101的ResNet(Residual NeuralNetwork)网络，其包含四个输出，分别是Block1、Block2、Block3、Block4，这四个不同维度的输出作为边缘特征提取模块、人体特征提取模块的输入；边缘特征提取模块的作用是提取边缘特征，一方面用以增强人体解析，另一方面用于生成边缘预测图；人体特征提取模块的作用是提取人体特征，并融合边缘特征，输出最终的人体解析预测图；边缘特征提取模块由DenseASPP模块进一步提取Block3、Block4特征，由卷积核大小为1的卷积层分别进一步提取Block1、Block2特征，上述操作输出的特征将输入到人体特征提取模块，同时，令其分别通过3个卷积核大小为3的卷积层，再经1个卷积核大小为1的卷积层输出边缘预测图。

DenseASPP是一种密集连接的改进ASPP模块，连接了多个空洞卷积层，用于提取多维特征，由5个卷积核大小为1的卷积层和5个卷积核大小为3的空洞卷积层组成，空洞卷积率依次为3、6、12、18、24；人体特征提取模块利用卷积核大小为1的卷积层进一步提取Block1特征，利用DenseASPP进一步提取Block3、Block4特征，DenseASPP结构及参数设置同边缘特征模块采用的DenseASPP一致；在人体解析模块中，将上述操作提取的人体特征与边缘特征提取模块输出的特征图连接到一起，再经过2个卷积核大小为1的卷积层，输出最后的分割预测图；上述模块中使用的卷积层后面均紧跟了InPlace-ABN层，用于弱化较小的批数量(batch size)的影响，其中，DenseASPP中的卷积层后也用InPlace-ABN层代替了原来的规范层和激活函数。

步骤3：对训练数据进行预处理操作，生成图像边缘图片。在所有模型训练过程中，图片进行了随机比例抽样(例如0.5-1.5之间)、裁剪、左右翻转等处理。训练过程中采用的边缘图是通过计算标注图片相邻像素间关系得到，验证或测试过程中不需要生成边缘图。

步骤4：训练人体解析模型。本发明中采用的基础层模型是在ImageNet数据集上预训练的ResNet-101。在训练过程中，由于三个数据集存在差异，故采用了不同的图片输入尺寸。对于LIP，输入尺寸为473×473；对于CIHP和Pascal-Person-Part，采用的输入尺寸是512×512。三个数据集分类情况也具有差异，LIP和CIHP类别数目K设置为20，Pascal-Person-Part类别数目K为7。所有模型使用的初始学习率为0.007，更新形式为：

其中，base_lr为初始学习率，iter为当前迭代次数，max_iter为迭代总次数，power设置为0.9。另外，根据模型生成的边缘预测图和人体分割预测图，损失函数规划为：

L＝L_parsing+λL_edge

其中，L_parsing表示分割预测图和分割标注图的交叉熵损失，L_edge表示边缘预测图和边缘标注图的交叉熵损失，λ用以平衡分割损失和边缘损失的比例。对于不同数据集，λ的值有所不同。对于LIP、CIHP、Pascal-Person-Part，λ分别等于2、3、0.1。为了与其他方法公平对比，在LIP、CIHP、Pascal-Person-Part分别训练了150epochs、80epochs、300epochs。所有模型采用的batch size为8。

步骤5：验证人体解析模型以及模型中的边缘特征提取模块。本发明提出的模型在上述步骤1中提到的三个数据集上均进行了训练、验证。在验证过程中，不需要生成边缘标注图。所有实验均以均交并比mIoU作为评价标准，其公式如下：

其中，k+1表示数据集类别总数(相当于步骤4提到的K)，p_ij表示类i被识别为类j的像素总数，p_ji表示类j被识别为类i的像素总数，p_ii表示识别正确的像素总数。实验结果显示，模型在LIP、CIHP、Pascal-Person-Part上实现的mIoU分别为56.55％、62.60％、68.51％。其中，在LIP、CIHP上的表现力超越了已有的方法，在Pascal-Person-Part上的表现力达到了前沿水平。这证明了本发明提出的模型在处理多分类任务上具有突出的效果，在较少分类的任务中依然具有鲁棒性和普遍性。如图4和图5，展示了本发明提出的人体解析模型生成的人体分割图的效果对比。在验证过程中，为了证明本发明提出的边缘特征提取模块的有效性，进行了原模型剔除该模块的实验。剔除边缘特征提取模块后的模型，在LIP、CIHP上实现的mIoU分别为54.68％、60.81％，与原模型生成的分割图对比也展示在图4和图5中。对比说明，本发明提出的边缘特征提取模块具有非常突出的增强效果。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.基于边缘信息增强的人体解析分割模型，其特征在于，包括残差神经网络ResNet-101、边缘特征提取模块和人体特征提取模块；

所述人体特征提取模块通过1×1的卷积层提取Block1的特征，得到人体特征提取模块的第一提取特征；以及通过DenseASPP模块提取Block3和Block4的特征，得到人体特征提取模块的第二提取特征；人体特征提取模块的第二提取特征经上采样后与人体特征提取模块的第一提取特征通过融合层进行特征融合，再通过3×3的卷积层，得到人体特征提取模块的第三提取特征；人体特征提取模块的第三提取特征、边缘特征提取模块的第一提取特征和经上采样后的边缘特征提取模块的第三提取特征通过融合层进行特征融合，再通过2个1×1的卷积层输出人体分割预测图。

2.如权利要求1所述的人体解析分割模型，其特征在于，人体解析分割模型在训练时的学习率的更新方式设置为：

3.如权利要求1所述的人体解析分割模型，其特征在于，人体解析模型的损失函数设置为：L＝L_parsing+λL_edge；其中，L_parsing表示分割预测图和分割标注图的交叉熵损失，L_edge表示边缘预测图和边缘标注图的交叉熵损失，λ表示预置权重，用于平衡分割损失和边缘损失的比例。

4.一种基于边缘信息增强的人体解析分割模型的构建方法，其特征在于，包括下述步骤：

步骤1：选择训练数据集；

步骤2：构建所述的基于边缘信息增强的人体解析分割模型的网络结构，所述人体解析分割模型的网络结构如权利要求1所述；

步骤3：对训练数据进行预处理操作，生成图像边缘图片；

步骤4：训练人体解析分割模型；

步骤5：验证人体解析分割模型，以及验证剔除边缘特征提取模块的人体解析分割模型，获取对应的分割性能的描述数据。

5.基于权利要求1所述的人体解析分割模型的分割方法，包括下述步骤：

步骤1：采集训练数据集，并对训练数据进行图像数据预处理，生成图像边缘图片；

步骤2：对待分割的图像进行图像数据预处理，生成图像边缘图片，其中图像数据预处理方式与步骤1的图像数据预处理处理方式相同；

将步骤2得到的图像边缘图片输入人体解析分割器，基于人体解析分割器的输出的人体分割预测图得到待分割的图像的人体分割结果。