CN112329511A

CN112329511A - 基于残差特征金字塔的人像分割方法

Info

Publication number: CN112329511A
Application number: CN202010784216.7A
Authority: CN
Inventors: 陈舒涵; 徐秀奇; 王奔
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2021-02-05

Abstract

本发明公开了一种基于残差特征金字塔的人像分割方法，实现以人像图片为输入，输出该图像的人像区域显著性图。本发明首先设计了侧输出优化单元，减少了网络参数，然后利用特征金字塔整合相邻层间人像特征图，逐步提升了人像特征的分辨率，最后引入残差学习模块从背景区域重学习并补充人像特征边缘等细节，进一步提高整个网络的模型分辨率。本发明可以得到高分辨率的人像图，同时能更好的检测复杂场景下人像细节信息。

Description

基于残差特征金字塔的人像分割方法

技术领域

本发明属于计算机视觉与数字图像处理领域，具体为一种基于残差特征金字塔的人像分割方法。

背景技术

人像分割的目的是定位和分割出图像中的人像信息。人像分割被应用于后续的各种高级任务，例如背景替换或虚化，人像3D建模等。分割的准确性直接影响了背景替换的精确度，影响后续工作性能。传统的检测方法通常采用手工设计的低级特征(例如颜色，密度，对比度)或启发式先验，这些手工设计的特征很难捕捉到高级语意信息。

随着深度学习的快速发展，人像分割的性能也取得了大幅度提升。相比传统手工设计人像特征的方式，深度学习网络能够获得高级人像语意特征。观察到深层卷积特征具有高级语意信息，而浅层卷积特征具有空间细节信息，现有的人像分割方法都致力于研究如何更加有效地整合深层高级语意和浅层低级空间信息。然而这些方法只是简单的相加或合并，容易忽略背景区域与人像区域间的联系，从而影响复杂场景下人像分割。另外，人像分割方法都仅仅采用每个阶段的最后一层作为侧输出，这种方式直接忽略了前面卷积特征作用从而导致次优的侧输出，不利于之后人像边界的优化。

发明内容

本发明的目的在于提出了一种基于残差特征金字塔的人像分割方法。

实现本发明目的的技术解决方案为：一种基于残差特征金字塔的人像分割方法，包括：

构建基于残差特征金子塔的人像分割模型并对其进行训练；

将待分割图像输入训练好的人像分割模型获得分割结果；

其中，构建基于残差特征金子塔的人像分割模型的具体过程为：

S1：移除VGG-16网络最后的三个全连接层；

S2：在VGG-16网络中选取三组侧输出，每组侧输出包括3个卷积特征，将每组侧输出输入至一个侧输出优化单元，获得优化后的侧输出；

选取pool5直接作为第四组侧输出，在第四组侧输出后增加三个卷积层并在每个卷积层后增加一个非线性激活层，获得人像特征图；

S3：将人像特征图通过反卷积层上采样2倍；

S4：将上采样的人像特征图通过sigmoid层归一化到[0,1]得到显著性区域图，将显著性区域图与1相减得到非显著性区域图，将非显著性区域图与上一组侧输出的每个通道相乘，得到侧输出非显著性区域图；

S5：将侧输出非显著性区域图输入两个卷积层、一个非线性激活层，并将输出结果与上采样后人像特征图做元素相加，得到残差学习输出作为上一组侧输出的人像特征图；

S6：重复S3～S6，直至获得第一组侧输出的人像特征图，将第一组侧输出的人像特征图通过积核、反卷积操作上采样至原图像大小，通过一个sigmoid层归一化到[0,1]后作为最终输出的人像显著图结果。

优选地，选取的三组侧输出分别为：第一组侧输出{conv3_1,conv3_2,conv3_3}，第二组侧输出{conv4_1,conv4_2,conv4_3}，第三组侧输出{conv5_1,conv5_2,conv5_3}。

优选地，获得优化后的侧输出的具体过程为：在每个卷积特征后各自增加一个卷积层，在每一个卷积层后增加一个非线性激活层，并对非线性激活后的三个特征进行元素相加的操作整合，分别得到三组优化后的侧输出。

优选地，对人像分割模型进行训练的过程为：设置迭代次数，输入训练图像，在反向传播中利用批量梯度下降算法更新网络参数。

优选地，训练过程中利用交叉熵损失函数计算人像概率显著图与真实标注之间的误差，具体为：

其中，I(θ)和G(θ)分别表示输入图像和真实标签图第θ个像素值，p_n表示图像总像素数，H(G(θ)＝1|I(θ))表示预测为人像的概率，H(G(θ)＝0|I(θ))表示预测为背景的概率。

本发明与现有技术相比，其显著优点为：

本发明通过侧输出优化单元，能够有效的提升侧输出特征的精确度，同时降低网络参数；

本发明通过整合相邻层间的低级和高级特征，能够不断地提高人像显著图的分辨率；

本发明通过学习背景区域与人像区域的残差特征，最终得到就高分辨率的人像显著图。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为本发明的流程图。

图2为本发明的侧输出优化单元示意图

图3为本发明的若干张分割结果图。

具体实施方式

如图1所示，一种基于残差特征金字塔的人像分割方法，包括：

构建基于残差特征金子塔的人像分割模型并对其进行训练；

将待分割图像输入训练好的人像分割模型获得分割结果；

S1：移除VGG-16网络最后的三个全连接层；

S2：在VGG-16网络中选取三组侧输出，每组侧输出包括3个卷积特征，将每组侧输出输入至一个侧输出优化单元，获得优化后的侧输出；本发明中，侧输出优化单元提高了人像侧输出特征图分辨率。

S3：将人像特征图通过反卷积层上采样2倍；本步骤构建的反卷积层即为特征金字塔单元，利用特征金字塔单元自上而下地整合相邻层的人像显著图，融合高级语意信息和低级空间信息，逐步细化深层人像显著图；

S5：将侧输出非显著性区域图输入两个卷积层、一个非线性激活层，并将输出结果与上采样后人像特征图做元素相加，得到残差学习输出作为上一组侧输出的人像特征图；利用残差学习从背景区域二次学习人像边缘等细节内容，逐步提纯得到更高分辨率的人像显著性图。

进一步的实施例中，选取的三组侧输出分别为：第一组侧输出{conv3_1,conv3_2,conv3_3}，第二组侧输出{conv4_1,conv4_2,conv4_3}，第三组侧输出{conv5_1,conv5_2,conv5_3}。

进一步的实施例中，获得优化后的侧输出的具体过程为：在每个卷积特征后各自增加一个卷积层，在每一个卷积层后增加一个非线性激活层，并对非线性激活后的三个特征进行元素相加的操作整合，分别得到三组优化后的侧输出。

进一步的实施例中，对人像分割模型进行训练的过程为：设置迭代次数，输入训练图像，在反向传播中利用批量梯度下降算法更新网络参数。

进一步的实施例中，训练过程中利用交叉熵损失函数计算人像概率显著图与真实标注之间的误差，具体为：

实施例

如图1所示，一种基于残差特征金字塔的人像分割方法，包括如下步骤：

移除VGG-16网络最后的三个全连接层，选取四组(共十个)侧输出{conv3_1,conv3_2,conv3_3}，{conv4_1,conv4_2,conv4_3}，{conv5_1,conv5_2,conv5_3}，{pool5}；

选取第一组特征{conv3_1,conv3_2,conv3_3}，每个卷积特征后各自增加一个卷积层{1x1x256},降低通道数至256，一是降低通道冗余减少参数，二是便于后续特征相加，卷积后都添加一个非线性激活层ReLU,用于去除响应小于零的特征响应值，卷积后的三个特征通过元素相加(element-wise addition)的操作整合，作为优化后的侧输出，并记为F₃。

选取第二组特征{conv4_1,conv4_2,conv4_3}，每个卷积特征后各自增加一个卷积层{1x1x256},卷积后都添加一个非线性激活层ReLU，卷积后的三个特征通过元素相加(element-wise addition)的操作整合，作为优化后的侧输出，并记为F₄；

选取第三组特征{conv5_1,conv5_2,conv5_3}，每个卷积特征后各自增加一个卷积层{1x1x256},卷积后都添加一个非线性激活层ReLU，卷积后的三个特征通过元素相加(element-wise addition)的操作整合，作为优化后的侧输出，并记为F₅；

将pool5直接作为侧输出，记为F₆；在F₆后增加三个卷积层{1x1x256},{5x5x256},{5x5x256},卷积层后都附有一个非线性激活层ReLU，输出人像特征图记为S₆；

如图2所示，通过反卷积层(deconvolution)将人像特征图S_i+1上采样2倍，得到人像特征图

作为第i层的输入。

如图3所示，将上采样的人像特征图

通过sigmoid层归一化到[0,1]得到显著性区域图,然后与1相减得到非显著性区域图Wi,再将非显著性区域图与侧输出F₃～F₅每一个通道相乘，得到侧输出非显著性区域图，将其表示为：

其中，F_i和

分别为侧输出的显著图和非显著图区域，⊙表示矩阵点乘，c表示卷积特征的通道索引；

在卷积特征

后增加两个卷积层{3x3x256}，每个卷积层后增加一个非线性激活ReLU，得到的结果记为R_i，将其与上采样特征

做元素相加(element-wise addition),得到残差学习输出，将其表示为：

将人像特征图S₆～S₃通过{1×1×1}卷积核，再通过反卷积(deconvolution)操作上采样至原图像大小。将输出的人像显著图

通过一个sigmoid层归一化到[0,1]后作为最终输出的人像显著图结果。

Claims

1.一种基于残差特征金字塔的人像分割方法，其特征在于，包括：

构建基于残差特征金子塔的人像分割模型并对其进行训练；

将待分割图像输入训练好的人像分割模型获得分割结果；

S1：移除VGG-16网络最后的三个全连接层；

S3：将人像特征图通过反卷积层上采样2倍；

2.根据权利要求1所述的基于残差特征金字塔的人像分割方法，其特征在于，选取的三组侧输出分别为：第一组侧输出{conv3_1,conv3_2,conv3_3}，第二组侧输出{conv4_1,conv4_2,conv4_3}，第三组侧输出{conv5_1,conv5_2,conv5_3}。

3.根据权利要求1所述的基于残差特征金字塔的人像分割方法，其特征在于，获得优化后的侧输出的具体过程为：在每个卷积特征后各自增加一个卷积层，在每一个卷积层后增加一个非线性激活层，并对非线性激活后的三个特征进行元素相加的操作整合，分别得到三组优化后的侧输出。

4.根据权利要求1所述的基于残差特征金字塔的人像分割方法，其特征在于，对人像分割模型进行训练的过程为：设置迭代次数，输入训练图像，在反向传播中利用批量梯度下降算法更新网络参数。

5.根据权利要求1所述的基于残差特征金字塔的人像分割方法，其特征在于，训练过程中利用交叉熵损失函数计算人像概率显著图与真实标注之间的误差，具体为：