CN110363134B

CN110363134B - 一种基于语义分割的人脸遮挡区定位方法

Info

Publication number: CN110363134B
Application number: CN201910621290.4A
Authority: CN
Inventors: 段贵多; 张栗粽; 陈爱国; 田玲; 赵碧莹
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-06-08
Anticipated expiration: 2039-07-10
Also published as: CN110363134A

Abstract

本发明公开了一种基于语义分割的人脸遮挡区定位方法，涉及人脸遮挡定位方法领域；其包括步骤1：采集和扩充数据集，并对数据集进行预处理和标注；步骤2：构建包括多尺度空洞卷积模块的子网络模型；步骤3：构建端对端像素级分类的主网络模型；步骤4：训练包括步骤2所述子网络模型和步骤3所述主网络模型的语义分割模型，获取网络模型参数；步骤5：测试图像输入已训练的语义分割模型定位出遮挡的连续区域。本发明通过不同比率的空洞卷积结果融合解决下采样中空洞卷积的棋盘式丢失问题，使得网络适应不同大小的分割对象，人脸遮挡区定位采用语义分割网络使得定位遮挡区域更加细致，能够保留人脸图像中有效像素，定位出遮挡的连续区域。

Description

一种基于语义分割的人脸遮挡区定位方法

技术领域

本发明涉及人脸遮挡定位方法领域，尤其是一种基于语义分割的人脸遮挡区定位方法。

背景技术

人脸遮挡区定位是遮挡人脸检测领域中一个重要的问题，人脸遮挡区定位是针对被遮挡的人脸检测出被遮挡的区域。针对遮挡区域定位，目前都是定位出被遮挡的人脸关键点，或者只能框出遮挡人脸特定部位的矩形框，无法定位出完整的被遮挡的脸部区域，同时遮挡区域一般都是不规则的、连续的区域。

语义分割是一种给图像中的每个像素赋予标签的方法，可以看成像素级分类问题。目前语义分割应用领域包括地理信息识别系统、无人驾驶识别障碍物以及医疗影像领域的肿瘤图像分割。

当前比较典型的语义分割网络是利用全卷积神经网络，包括编码器和解码器，编码器为图像下采样过程，提取图像的语义特征，解码器为图像上采样过程，为了将语义特征恢复为和原始图像大小相同的图像从而进行像素级分类预测；然而采用池化层的下采样会导致图像语义信息的丢失从而使得分割结果精度较低，且未考虑像素之间的关系。还有的方法采用条件随机场解决了由于空间不变性导致的图像边缘预测不准确问题，采用空洞卷积解决由于下采样导致的分割图像分辨率低的问题。但是空洞卷积的卷积核不连续，这导致图像呈现棋盘式的信息丢失，对于小对象分割效果不理想。有的网络将浅层网络提取的细节信息和深层网络提取的语义信息结合实现更为细致的端到端直接预测。因此，现有的分割网络由于语义分割可以做到像素级的分类，将预义分割应用到遮挡区定位领域，克服了定位不准确，不能定位连续不规则区域等问题，但存在无法适应遮挡区域大小不一致、遮挡区域和未遮挡区域纹理一致等问题。因此，需要一种方法可以克服以上问题。

发明内容

本发明的目的在于：本发明提供了一种基于语义分割的人脸遮挡区定位方法，解决现有语义分割网络用于人脸遮挡区定位时因分割目标大小不一致导致无法自动定位遮挡区域的问题。

本发明采用的技术方案如下：

一种基于语义分割的人脸遮挡区定位方法，包括如下步骤：

步骤1：采集和扩充数据集，并对数据集进行预处理和标注；

步骤2：构建包括多尺度空洞卷积模块的子网络模型；

步骤3：构建端对端像素级分类的主网络模型；

步骤4：训练包括步骤2所述子网络模型和步骤3所述主网络模型的语义分割模型，获取网络模型参数；

步骤5：测试图像输入已训练的语义分割模型输出语义分割结果，定位出遮挡的连续区域。

优选地，所述步骤1包括如下步骤：

步骤1.1：采集遮挡人脸数据集，并对目标进行分类，分类包括口罩、手、头发、眼镜、帽子、围巾、面部和背景；

步骤1.2：利用标注工具对目标进行语义标注获取标签集；

步骤1.3：将遮挡人脸数据集和标签集进行N种不同位置的剪裁，将图像剪裁为224*224大小的图像，N取大于3的正整数。

优选地，所述步骤2包括如下步骤：

步骤2.1：创建多路径子网络Improve-RefineNet1-4，并将其设置为两条路径，每条路径包括block_1、block_2和block_3；

步骤2.2：构建多尺度空洞卷积模块，步骤2.1中的block_3的输出作为多尺度空洞卷积模块的输入，每个尺度的空洞卷积结果进行拼接作为输出；

步骤2.3：创建一个1*1的卷积层A，所述步骤2.2的输出连接卷积层A；

步骤2.4：创建block_4、block_5和一个1*1的卷积层B，将两个路径的卷积层A相加后依次经过block_4、block_5和卷积层B完成输出。

优选地，所述步骤3包括如下步骤：

步骤3.1：创建包括四个模块的主网络模型，四个模块分别为Conv1_x、Conv2_x、Conv3_x、Conv4_x；

步骤3.2：设置上述模块的连接关系：

将Conv4_x的输出作为子网络Improve-RefineNet-4的单路径输入；

将Conv3_x的输出作为子网络Improve-RefineNet-3的单路径输入和上一步Improve-RefineNet-4的输出作为Improve-RefineNet-3的两条路径输入；

将Conv2_x的输出作为子网络Improve-RefineNet-2的单路径输入和上一步Improve-RefineNet-3的输出作为Improve-RefineNet-2的两条路径输入；

将Conv1_x的输出作为子网络Improve-RefineNet-1的单路径输入和上一步Improve-RefineNet-2的输出作为Improve-RefineNet-1的两条路径输入，Improve-RefineNet-1的输出即为最终的网络输出；

步骤3.3：融合各个模块所提取的特征信息。

优选地，所述block_1包括卷积层、批归一化层和relu层；

所述block_2包括最大池化层和3个残差块，每个残差块包括2层3*3的卷积层，批归一化层和relu层，每个残差块的输入为上一个残差块的输出和上两层的输出相加的结果；

所述block_3包括4个残差块，每个残差块包括两层卷积层；

所述block_4包括6个残差块，每个残差块包括两层卷积层；

所述block_5包括3个残差块，每个残差块包括两层卷积层。

优选地，所述Conv1_x包括卷积层、批归一化层和relu层，Conv2_x使输出的特征图大小为网络输入的1/2；

所述Conv2_x包括最大池化层和3个残差块，每个残差块包括3层卷积层，每个卷积层依次连接批归一化层和relu层，每个残差块的输入为上一个残差块的输出和上两层的输出相加的结果，Conv2_x使输出的特征图大小为网络输入的1/4；

所述Conv3_x包括4个残差块，每个残差块包括3层卷积层，每个卷积层后面接批归一化层和relu层，Conv3_x使输出的特征图大小为网络输入的1/8；

所述Conv4_x包括23个残差块，每个残差块包括3层卷积层，每个卷积层后面接批归一化层和relu层，Conv4_x使输出的特征图大小为网络输入的1/16。

优选地，所述步骤2.2中的多尺度卷积模块包括空洞率为1的1*1卷积和空洞率为1、2、5的3*3卷积。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明通过数据扩充预处理数据集，构建包括多尺度空洞卷积模块的子网络模型用来适应不同大小的分割目标，再构建主网络模型，主网络模型添加子网络模型进行不同层级的特征融合，最后测试图像训练的网络输出分割结果，定位出遮挡的连续区域，人脸遮挡区定位采用语义分割网络使得定位遮挡区域更加细致，能够保留人脸图像中有效像素，可以自动化地端对端分割出遮挡区域；

2.本发明扩充图像种类和进行不同位置的对应裁剪，大大增加训练集样本，解决了大量数据标注需要花费大量人工代价的问题；

3.本发明语义分割网络中子模块引入多尺度空洞卷积，通过不同比率的空洞卷积结果融合解决下采样中空洞卷积的棋盘式丢失问题，而且使得网络适应不同大小的分割对象；

4.本发明语义分割网络主网络将低层的细节信息和高层语义信息相结合，使得网络保留图像的细节信息，而且网络融合各个级别的细节特征获得高分辨率的预测，使得网络无需维护大的中间特征映射。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的总体流程图；

图2为本发明的子网络示意图；

图3为本发明的残差网络示意图；

图4为本发明的主网络示意图；

图5为本发明的效果图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

目前基于语义分割的遮挡人脸定位方法是通过6层卷积层、全连接层和softmax分类器之后预测出所有像素的标签，并搜索最小的矩形框来定位整个人脸区域，主要用于检测带有遮挡人脸。该方法中的语义分割方法较为原始，分割出的遮挡区域比较粗糙，不能适应不同输入大小的图像。而且遮挡人脸分割的数据集数量过少，人工标注标签成本代价太大。

如图1所示，为整个方法的总体流程图，本发明包括训练集准备、主网络构造、子网络构造、网络训练、模型测试结果五大步骤，每个步骤包括1-4个小步骤。

步骤1：收集并扩充训练数据集，并对数据集进行预处理和标注。具体如下：

1.1 收集遮挡人脸的数据集，主要收集单个遮挡人脸的数据集，其中遮挡分为6类遮挡，包括：口罩、手、头发、眼镜、帽子、围巾。利用工具标注出五官位置，并根据五官位置对图像做旋转对齐，使得图像显示为正面的人脸。

1.2 对训练集中的分类目标利用标注工具进行语义标注作为标签集，由于训练集中包含6类遮挡，增加了背景和面部两类。主要分割类别和相应标注颜色如下表：

标号	类别	颜色	RGB
				0	口罩	红色	（217,54,54）
1	面部	紫色	（205,76,194）
				2	背景	黑色	（0,0,0）
3	头发	蓝色	（54,13,217）
				4	眼镜	绿色	（25,121,32）
5	手	黄色	（232,226,73）
				6	帽子	橙色	（221,121,32）
7	围巾	青色	（55,196,205）

具体步骤可以细分如下：

1.2.1 随机抽取20%的遮挡数据集样本，对其进行人工标注；

1.2.2 对标注过的数据集上通过步骤2和3所构建的分割网络模型上进行像素级分类训练，得到其他未标注图像每个像素概率分值最大的类别预测值；

1.2.3 挑选出预测类别的概率分值接近0.5的训练样本，人工对这批样本进行分类；

1.2.4 重复步骤1.2.2和1.2.3直到当前网络分割精度达到98%以上。

1.3 由于遮挡数据集数量过少，所以需要进行数据扩充。将1.1收集的遮挡人脸数据集和1.2标注好的标签集进行4种不同位置的对应裁剪，最终将图像批量裁剪为224*224大小的图像。例如可以设置裁剪的左上角横坐标为图像的长减去224再除以2等。

步骤2：如图2所示为主网络中的子网络模型。具体如下：

2.1 多路径子网络Improve-Refine-m设置为最多两条路径。将每条路径设置经过为3个block，分别为block_1、block_2、block_3。

block_1包括卷积层（卷积核大小为7*7，卷积核个数为64个，步长为2），批归一化层和relu层。

block_2包括步长为2、大小为3*3的最大池化层和3个残差块，每个残差块包括2层3*3的卷积层，批归一化层和relu层。每个残差块的输入为上一个残差块的输出和上两层的输出相加的结果，残差结构如图3所示。

block_3包括4个残差块，每个残差块包括两层卷积层，卷积核大小都为3*3，卷积核个数都为128。

2.2 构建多尺度空洞卷积模块用来适应不同大小的分割目标。设置4种尺度的空洞卷积，分别为空洞率为1的1*1卷积用以提高网络的泛化能力，空洞率分别为1、2、5的卷积用以适应不同大小的分割目标。上一步中每条路径的输出作为每个尺度空洞卷积层的输入，最后将每个尺度的空洞卷积层的输出结果进行按照通道拼接堆叠。

2.3 将上一步两条路径的输出都通过一个1*1的卷积层，通过1*1的卷积对图像降维，增加网络的非线性表达。由于有两条路径，两条路径的通过1*1卷积层得到的中间特征图大小不一样，所以需要使大小较小的一条路径进行上采样放大2倍使得两条路径的输出大小一致。

2.4 将两个路径的结果相加后经过2个block，分别为block_4、block_5。

block_4包括6个残差块，每个残差块包括两层卷积层，卷积核大小都为3*3，卷积核个数都为256。

block_5包括3个残差块，每个残差块包括两层卷积层，卷积核大小都为3*3，卷积核个数都为512。

最后，中间结果再经过1个1*1的卷积得到子网络最终的输出。

步骤3：如图4所示为构建的端对端像素级分类的基础主网络。具体如下：

3.1 将语义分割主网络设置为4个模块，分别为Conv1_x、Conv2_x、Conv3_x、Conv4_x。

Conv1_x包括卷积层（卷积核大小为7*7，卷积核个数为64个，步长为2），批归一化层和relu层。Conv1_x使输出的特征图大小为输入的1/2。

Conv2_x包括步长为2大小为3*3的最大池化层和3个残差块。每个残差块包括3层卷积层，分别为卷积核大小为1*1的卷积，其中卷积核个数为64，卷积核大小为3*3的卷积，其中卷积核个数为64，卷积核大小为1*1的卷积，其中卷积核个数为64，每个卷积层后面接批归一化层和relu层。每个残差块的输入为上一个残差块的输出和上两层的输出相加的结果，残差结构如图3所示。Conv2_x使输出的特征图大小为网络输入的1/4。

Conv3_x包括4个残差块，每个残差块包括3层卷积层，分别为卷积核大小为1*1的卷积，其中卷积核个数为128，卷积核大小为3*3的卷积，其中卷积核个数为128，卷积核大小为1*1的卷积，其中卷积核个数为512，每个卷积层后面接批归一化层和relu层。Conv3_x使输出的特征图大小为网络输入的1/8。

Conv4_x包括23个残差块，每个残差块包括3层卷积层，分别为卷积核大小为1*1的卷积，其中卷积核个数为256，卷积核大小为3*3的卷积，其中卷积核个数为256，卷积核大小为1*1的卷积，其中卷积核个数为1024，每个卷积层后面接批归一化层和relu层。Conv4_x使输出的特征图大小为网络输入的1/16。

3.2为了融合各个层提取的特征信息，使得网络得到高分辨率的预测结果，主要细分为以下的步骤。

3.2.1 Conv4_x的输出作为子网络Improve-RefineNet-4的单路径输入，所以只经过Improve-RefineNet的一条路径，不需要上采样和特征图相加的过程；

3.2.2 将Conv3_x的输出作为子网络Improve-RefineNet-3的单路径输入和上一步Improve-RefineNet-4的输出作为Improve-RefineNet-3的两条路径输入；

3.2.3 将Conv2_x的输出作为子网络Improve-RefineNet-2的单路径输入和上一步Improve-RefineNet-3的输出作为Improve-RefineNet-2的两条路径输入；

3.2.4 将Conv1_x的输出作为子网络Improve-RefineNet-1的单路径输入和上一步Improve-RefineNet-2的输出作为Improve-RefineNet-1的两条路径输入，Improve-RefineNet-1的输出即是最终网络的网络输出。

步骤4：对整个语义分割模型进行训练，获得网络参数。具体如下：

4.1该网络的训练损失函数网络输出经过softmax层得到的结果与标签交叉熵损失。如下公式所示：

其中，

为图像当前像素i的网络输出，

像素总数，

为softmax层的输出类别，

为真实类别标签。

4.2使用Resnet-101的预训练模型对主网络进行微调。批量大小设置为4，使用Adam优化器优化模型，初始学习率设为0.0001，每训练20000步，衰减率为0.1。

步骤5：输入测试的图像，在已经训练好的分割网络模型中进行前向传播，进而输出语义分割的结果。最终得到网络输出的分割结果后通过像素的分类值得到分割的结果。比如除了类别标号为1和2的都将判别为遮挡区。

如图4-5所示，比较输入图像和输出图像可知，本申请的人脸遮挡区定位效果佳，定位区域为连续区域；其中（a）列为未分割的原图，（b）列为标注好的标签真值，（c）列为本算法在测试集的分割结果图，可以看出本算法的分割结果正确地进行了目标分类，定位的遮挡区域连续。本发明通过数据扩充预处理数据集，构建包括多尺度空洞卷积模块的子网络模型用来适应不同大小的分割目标，再构建主网络模型，主网络模型添加子网络模型进行不同层级的特征融合，最后测试图像训练的网络输出分割结果，定位出遮挡的连续区域，人脸遮挡区定位采用语义分割网络使得定位遮挡区域更加细致，能够保留人脸图像中有效像素，可以自动化地端对端分割出遮挡区域。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义分割的人脸遮挡区定位方法，其特征在于：包括如下步骤：

步骤1：采集和扩充数据集，并对数据集进行预处理和标注；

步骤2：构建包括多尺度空洞卷积模块的子网络模型；

步骤3：构建端对端像素级分类的主网络模型；

步骤5：测试图像输入已训练的语义分割模型输出语义分割结果，定位出遮挡的连续区域；

所述步骤3包括如下步骤：

步骤3.2：设置上述模块的连接关系：

将Conv4_x的输出作为子网络Improve-RefineNet-4的单路径输入；

步骤3.3：融合各个模块所提取的特征信息。

2.根据权利要求1所述的一种基于语义分割的人脸遮挡区定位方法，其特征在于：所述步骤1包括如下步骤：

步骤1.2：利用标注工具对目标进行语义标注获取标签集；

3.根据权利要求1所述的一种基于语义分割的人脸遮挡区定位方法，其特征在于：所述步骤2包括如下步骤：

4.根据权利要求3所述的一种基于语义分割的人脸遮挡区定位方法，其特征在于：

所述block_1包括卷积层、批归一化层和relu层；

所述block_3包括4个残差块，每个残差块包括两层卷积层；

所述block_4包括6个残差块，每个残差块包括两层卷积层；

所述block_5包括3个残差块，每个残差块包括两层卷积层。

5.根据权利要求1所述的一种基于语义分割的人脸遮挡区定位方法，其特征在于：

所述Conv1_x包括卷积层、批归一化层和relu层，Conv2_x使输出的特征图大小为网络输入的1/2；

6.根据权利要求3所述的一种基于语义分割的人脸遮挡区定位方法，其特征在于：所述步骤2.2中的多尺度卷积模块包括空洞率为1的1*1卷积和空洞率为1、2、5的3*3卷积。