CN113643305B

CN113643305B - 一种基于深度网络上下文提升的人像检测与分割方法

Info

Publication number: CN113643305B
Application number: CN202110913353.0A
Authority: CN
Inventors: 许赢月; 王俊宇; 高自立
Original assignee: Zhuhai Fudan Innovation Research Institute
Current assignee: Zhuhai Fudan Innovation Research Institute
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-08-25
Anticipated expiration: 2041-08-10
Also published as: CN113643305A

Abstract

本发明公开了一种基于深度网络上下文提升的人像检测与分割方法，具体包括基于深度网络框架，从人像图片中提取出L个不同尺度的深度特征；基于最高尺度特征，通过金字塔池化模块将最高尺度的深度特征在多个金字塔尺度上进行特征融合，生成全局先验信息；通过融合组块从高尺度向低尺度对深度特征的上下文信息进行提升并融合，得到每个尺度的输出特征；对每个尺度的输出特征分别进行优化与训练,完成人像检测与分割；通过该方法能够在不借助额外知识的情况下，从多尺度、多空间、多通道出发深入挖掘深度网络上下文信息，实现对单目图像进行精准人像检测与分割。

Description

一种基于深度网络上下文提升的人像检测与分割方法

技术领域

本发明属于图像处理技术领域，特别是一种基于深度网络上下文提升的人像检测与分割方法。

背景技术

人像检测与分割，作为语义分割的一类特殊任务，拥有广泛的应用范围。针对美化应用，人像检测是人像图片风格化、景深虚化处理、抠图等应用的基础；对于安全保护应用，人像检测可以模糊处理、替换人像图片背景信息；单目图像的人像检测在实际应用中更加重要，因为相对于双摄像头拍摄的多目图像更加不受拍摄光线和距离限制。

基于深度学习的人像检测的主要挑战是不仅要准确定位人像，还要对人像与背景的边界进行精确分割，而人像的边缘细节如头发丝等加剧了边缘分割的难度。目前的基于深度学习的算法主要通过额外知识进行更加精细的人像检测与分割。

一些基于深度学习的算法通过将额外知识作为深度网络的额外输入来更准确定位网络。例如《Automatic portrait segmentation for image stylization》通过计算人像位置和形状范围作为深度网络的额外输入通道；《High-accuracy automatic personsegmentation with novel spatial saliency map》加入姿态检测子生成人体关键点图像作为深度网络的额外输入通道。额外输入虽然有利于精准定位人像，但需要额外计算和内存要求，同时对边缘分割并无帮助。

一些基于深度学习的算法将额外标定(如边缘标定)作为深度网络训练的额外知识。这些额外边缘标定帮助深度网路精细化边缘细节。但实际上，边缘标注成本昂贵，且目前的大部分数据集的边缘标定基于手动人像标定，边缘附近的精细度很模糊。因此，边缘标注对概括人像形状有益，却对精确边缘分割影响力很小。

因此，如何在不借助额外知识的情况下进行精细化人像检测与分割，成为当前研究的关键问题。

发明内容

鉴于上述问题，本发明提供一种至少解决上述部分技术问题的一种基于深度网络上下文提升的人像检测与分割方法，在不借助额外知识的情况下，从多尺度、多空间、多通道出发深入挖掘深度网络上下文信息，对单目图像进行人像检测与分割。

本发明实施例提供了一种基于深度网络上下文提升的人像检测与分割方法，包括：

S1、基于深度网络框架，从人像图片中提取出L个不同尺度的深度特征；

S2、基于最高尺度特征，通过金字塔池化模块将最高尺度的所述深度特征在多个金字塔尺度上进行特征融合，生成全局先验信息；

S3、通过融合组块从高尺度向低尺度对所述深度特征的上下文信息进行提升并融合，得到每个尺度的输出特征；

S4、对所述每个尺度的输出特征分别进行优化与训练,完成人像检测与分割。

进一步地，所述S2具体包括：

S21、通过平均池化层对所述深度特征进行特征尺寸缩小，生成尺寸分别为1×1、3×3和5×5的特征；

S22、通过卷积核为1×1的卷积层分别对所述尺寸分别为1×1、3×3和5×5的特征进行降维，得到三个降维特征；

S23、通过双线性插值对所述三个降维特征进行上采样，将所述深度特征和上采样处理后的三个特征进行拼接，得到第一拼接特征；

S24、通过卷积核为3×3的卷积层对所述第一拼接特征进行平滑处理，得到全局先验信息。

进一步地，所述步骤S3中的所述融合组块包括通道提升模块、空间提升模块和尺度提升模块。

进一步地，所述S3具体包括：

S31、通过通道提升模块从通道出发对深度特征的上下文信息进行提升；

S32、通过空间提升模块从空间出发对深度特征的上下文信息进行提升；

S33、通过尺度提升模块从多尺度出发对深度特征的上下文信息进行融合。

进一步地，所述S31具体包括：

S311、将尺度为l＝1至尺度为l＝L-1上所对应的深度特征充当初始特征，采用卷积核为3×3、组数等于通道数的卷积层对所述初始特征进行处理，得到生成特征；

S312、将所述生成特征和所述初始特征进行拼接，得到第二拼接特征；

S313、通过卷积核为1×1、输出通道等于输入特征通道数的卷积层对所述第二拼接特征进行降维处理并输出，得到第一输出特征。

进一步地，所述S32具体包括：

S321、通过平均池化层对所述第一输入特征进行特征尺寸缩小，通过平均池化层对所述第一输入特征进行特征尺寸缩小，池化核尺寸分别为2×2、4×4和8×8，分别生成所述第一特征1/2,1/4,1/8大小的特征；

S322、通过卷积核为3×3的卷积层对所述大小分别为1/2、1/4和1/8的特征进行平滑处理；

S323、通过双线性插值对S322平滑处理后的特征进行上采样，并对上采样结果进行相加融合；

S324、通过卷积核为3×3的卷积层对S323中相加融合之后的特征进行平滑处理，得到第二输出特征。

进一步地，所述S33具体包括：

S331、通过卷积核为3×3的卷积层对所述第二输出特征进行处理，并通过双线性插值对处理后的结果进行上采样，得到第三输出特征；

S332、将所述第二输出特征和所述第三输出特征进行相加融合；

S333、通过卷积核为3×3的卷积层对S332相加融合之后的特征进行平滑处理；得到多尺度特征融合结果。

进一步地，所述S4具体包括：

S41、通过卷积核为1×1的卷积层分别对每个尺度的输出特征进行处理，生成一张人像预测图；

S42、通过交叉熵损失函数对每个所述预测图进行优化训练；

S43、通过大规模人像检测数据集来训练出人像检测与分割模型；

S43、通过精选的小规模人像边缘标定细致的人像数据集，进行模型微调，实现精细化人像检测模型；

S44、对人像进行检测与分割。

与现有技术人相比，本发明记载的一种基于深度网络上下文提升的人像检测与分割方法，具有如下有益效果：

本发明在对人像图片进行边缘标定、附加检测算子等工作时，不需要依靠额外知识，仅通过从多尺度、多空间、多通道出发深入挖掘深度网络上下文信息，便能够实现精确检测并分割人像，因而降低了数据标注成本，更适应工业生产和实际应用需求。

本发明可以在不使用额外知识的情况下，性能远远超过使用额外知识的深度模型。

本发明可实现精确检测并分割人像图片，且分割结果可以用于后续的抠图、景深虚化处理、背景替换、素描、风格化卡通等应用上。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于深度网络上下文提升的人像检测与分割方法框架图。

图2为本发明实施例提供的金字塔池化模块图。

图3为本发明实施例提供的通道提升模块图。

图4为本发明实施例提供的空间提升模块图。

图5为本发明实施例提供的尺度提升模块图

图6为本发明实施例提供的基于深度网络上下文提升的人像检测与分割方法结构图。

图7为使用现有数据集对人像图片进行标注的结果图。

图8为本发明实施例提供的本发明人像检测方法在拓展应用中所得到的效果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参见图1所示，本发明实施例提供了一种基于深度网络上下文提升的人像检测与分割方法，具体包括如下步骤：

下面分别对上述各个步骤进行详细的说明。

在上述步骤S1中，给定一张输入人像图片I，在深度网络框架下提取出L个不同尺度的深度特征；本发明实施例中所选用的深度网络框架选取为当下流行的多种深度网络结构，并保留深度网络框架所采用的卷积形式；所提取出来的深度特征的合集记作其中，f_l是l尺度上的特征；l＝0表示深度网络最高尺度；l＝L-1表示深度网络最低尺度。

在上述步骤S2中，金字塔池化模型的作用是在多个金字塔空间对特征进行空间上的统计，以用来概括全场景特征信息；通过金字塔池化模块将深度特征在多个金字塔尺度上进行特征融合，即使用L-1个尺度的融合组块对深度特征进行融合，公式如下：

其中，表示融合组块/>在第l尺度上的输出，Ξ表示模型权重。

本发明实施例嵌入的模块采用深度可分离卷积来减少参数量和计算复杂度，具体参照图2所示，可采用三个金字塔尺度，首先通过平均池化层对深度特征进行特征尺寸缩小，生成尺寸分别为1×1、3×3和5×5的特征；其次通过卷积核为1×1的卷积层分别对尺寸分别为1×1、3×3和5×5的特征进行降维，得到三个降维特征；再后通过双线性插值对这三个降维特征进行上采样，将深度特征和该上采样处理后的三个特征进行拼接，得到第一拼接特征；最后通过卷积核为3×3的卷积层对第一拼接特征进行平滑处理，得到全局先验信息；全局先验信息通过融合组块从高尺度向低尺度逐级传递全局信息，用于指导整体的人像定位，确保人像精准定位；

在最高尺度l＝0时，全局先验信息通过如下方式计算：

其中，P(·)表示金字塔池化模块，W表示深度网络框架权重，w_P表示金字塔池化模块权重。

在上述步骤S3中，通过融合组块从高尺度向低尺度对所述深度特征进行提升并融合，得到每个尺度的输出特征，其中融合组块包括通道提升模块、空间提升模块和尺度提升模块；

由于直接从人像图片上所提取出来的深度特征存在很多相似对，因此被认为存在信息冗余；通过通道提升模块可以改善深度特征在通道上的冗余，从而使特征的表现力更加丰富；在使用通道提升模块从通道出发对深度特征的上下文信息进行提升时，具体可参照图3，首先将尺度为l＝1至尺度为l＝L-1上所对应的深度特征充当初始特征，采用卷积核为3×3、组数等于通道数的卷积层对初始特征进行处理，得到生成特征；其次将生成特征和初始特征进行拼接，得到第二拼接特征；最后通过卷积核为1×1、输出通道等于输入特征通道数的卷积层对第二拼接特征进行降维处理并输出，得到第一输出特征；该第一输出特征具有丰富的表现力。

在使用空间提升模块从空间出发对深度特征的上下文信息进行提升时，使用金字塔池化概念，具体可参照图4，首先通过平均池化层对第一输入特征进行特征尺寸缩小，通过平均池化层对所述第一输入特征进行特征尺寸缩小，通过平均池化层对所述第一输入特征进行特征尺寸缩小，池化核尺寸分别为2×2、4×4和8×8，分别生成所述第一特征1/2,1/4,1/8大小的特征；通过卷积核为3×3的卷积层对所述大小分别为1/2、1/4和1/8的特征进行平滑处理；再后通过双线性插值对平滑处理后的特征进行上采样，并对上采样结果进行相加融合；最后通过卷积核为3×3的卷积层对相加融合之后的特征进行平滑处理，得到第二输出特征；通过空间提升模块所得到的第二输出特征的特征质量得到极大提升。

在使用尺度提升模块从多尺度出发对深度特征的上下文信息进行融合时，具体参照图5和图6，首先通过卷积核为3×3的卷积层对第二输出特征进行处理，并通过双线性插值对处理后的结果进行上采样，得到第三输出特征；其次将第二输出特征和第三输出特征进行相加融合；最后通过卷积核为3×3的卷积层对相加融合之后的特征进行平滑处理；得到多尺度特征融合结果。

通过从高尺度到低尺度逐级在通道角度、空间角度和尺度角度对深度特征的上下文信息进行提升和融合，由全局定位到局部细节、由粗到细精细化人像检测与分割预测，最终得到l＝L-1尺度上准确性高的人像检测结果。

在上述步骤S4中，首先对每个尺度的输出特征分别进行优化，具体为：通过卷积核为1×1的卷积层分别对每个尺度的输出特征进行处理，生成一张人像预测图；通过交叉熵损失函数对每个预测图进行优化训练；其次对每个尺度的输出特征进行数据训练，由于现有大部分人像检测数据均具有边缘标注较模糊的特点，具体参照图7所示，通过附图图7最后一列放大图可以看到边缘标注误差大，所以基于这种标注取得的边缘标注并不准确，无法指导精细化模型训练；因此，为了进行精细化人像检测模型训练，本发明具体通过两个阶段的训练：第一阶段通过大规模人像检测数据集，例如提供大量人像图片及对应标注，来训练出鲁棒性强、准确率高的人像检测与分割模型；第二阶段通过精选的小规模人像边缘标定细致的人像数据集，进行模型微调，使其对人像边缘像素的判定更为准确；本发明实施例中的深度网络框架选取可使用当下流行的多种深度网络结构。以VGG-16为例，可使用conv5，conv4，conv2，conv1的特征输出作为f_l。深度网络框架所采用的卷积形式可保留，而本算法嵌入的模块采用深度可分离卷积来减少参数量和计算复杂度。在训练过程中，VGG-16的参数设定为：权重衰减为0.0005；动量为0.9；各个尺度的损失函数权重皆为1；批量大小为1；优化器使用adam optimizer。在第一阶段训练，初始学习率固定为1e-4，在训练30个周期后每10个周期学习率除以10，共训练80个周期；在第二阶段训练，初始学习率learningrate固定为1e-5，训练每10个周期学习率除以10，共训练50个周期；参照图8所示，采用本发明所提供的种基于深度网络上下文提升的人像检测与分割方法可以精确检测并分割人像，可以实现端到端人像检测；在对分辨率为300X400的图像进行人像检测时，检测速度可以达到57.21FPS，分割结果可用于后续抠图、景深虚化处理、背景替换、素描、风格化以及卡通等应用上。

本发明实施例提供了一种基于深度网络上下文提升的人像检测与分割方法，参照图6所示，首先，基于深度网络框架通过金字塔池化模块计算出基于最高尺度特征的全局先验信息，用来指导整体的人像定位；然后通过全局先验信息将通过通道提升模块、空间提升模块和尺度提升模块从高尺度向底尺度逐级传递全局信息，以确保人像精准定位；通过通道提升模块可以丰富特征表现力；通过空间提升模块可以提高特征图的质量；通过尺度提升模块可以得到多尺度特征融合结果；最后对每个尺度的输出特征分别进行优化与训练实现精细化人像检测模型；基于此便可实现对人像图片进行精准检测与分割。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度网络上下文提升的人像检测与分割方法，其特征在于，包括：

S4、对所述每个尺度的输出特征分别进行优化与训练，完成人像检测与分割；

所述步骤S3中的所述融合组块包括通道提升模块、空间提升模块和尺度提升模块；

所述S3具体包括：

S31、通过通道提升模块从通道角度对深度特征的上下文信息进行提升；

S32、通过空间提升模块从空间角度对深度特征的上下文信息进行提升；

S33、通过尺度提升模块从多尺度角度对深度特征的上下文信息进行融合；

所述S31具体包括：

S313、通过卷积核为1×1、输出通道等于输入特征通道数的卷积层对所述第二拼接特征进行降维处理并输出，得到第一输出特征；

所述S32具体包括：

S321、通过平均池化层对所述第一输出特征进行特征尺寸缩小，池化核尺寸分别为2×2、4×4和8×8，分别生成所述第一输出特征1/2，1/4，1/8大小的特征；

S324、通过卷积核为3×3的卷积层对S323中相加融合之后的特征进行平滑处理，得到第二输出特征；

所述S33具体包括：

2.如权利要求1所述的一种基于深度网络上下文提升的人像检测与分割方法，其特征在于，所述S2具体包括：

3.如权利要求1所述的一种基于深度网络上下文提升的人像检测与分割方法，其特征在于，所述S4具体包括：

S42、通过交叉熵损失函数对每个所述预测图进行优化训练；

S44、对人像进行检测与分割。