CN111401247B

CN111401247B - 一种基于级联卷积神经网络的人像分割方法

Info

Publication number: CN111401247B
Application number: CN202010185088.4A
Authority: CN
Inventors: 张明琦; 李云夕; 熊永春
Original assignee: Hangzhou Xiaoying Innovation Technology Co ltd
Current assignee: Hangzhou Xiaoying Innovation Technology Co ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-07-28
Anticipated expiration: 2040-03-17
Also published as: CN111401247A

Abstract

本发明公开了一种基于级联卷积神经网络的人像分割方法。它具体包括如下步骤：(1)搜集大量的人像数据，对数据进行人工标注，得到与原始图像一致的二值化人像标注掩膜；(2)构建多尺度的图像输入；(3)构建主级人像分割网络；(4)构建次级人像分割网络；(5)构建次级人像分割网络的输入；(6)构建整个网络的损失函数；(7)根据整个网络的损失函数对整个网络进行反向传播更新权重，获得训练好的人像分割模型。本发明的有益效果是：在少量增加模型复杂度的情况下，较好的恢复人像边缘；保证次级网络在优化人像边缘的同时，保持人像完整性；提升人像整体的分割效果以及人像边缘的准确性。

Description

一种基于级联卷积神经网络的人像分割方法

技术领域

本发明涉及图像处理相关技术领域，尤其是指一种基于级联卷积神经网络的人像分割方法。

背景技术

人像分割是指将图片中的人像与背景分离出来，分离出来的人像将为后续进行背景虚化、背景替换、人像移动等应用提供基础。由于背景的复杂程度高，以及人像姿态的多样化，导致传统的人像分割不能很好的提取人像区域，因此目前的人像分割技术大多是基于深度学习的方法。

基于深度学习的人像分割方法通常采用全卷积神经网络，用端到端预测的方式来分割人像与背景，例如FCN、U-net、DeepLab等网络架构。但这些方法普遍存在边缘分割不准的问题，或者通过提高网络模型的大小来提升结果的准确性，从而导致算法复杂度增加，运行速度较慢。因此，无法在效果和性能方面达到一个很好的平衡，难以满足当前的需求。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种提升分割效率和边缘准确性的基于级联卷积神经网络的人像分割方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于级联卷积神经网络的人像分割方法，具体包括如下步骤：

(1)搜集大量的人像数据，对数据进行人工标注，得到与原始图像一致的二值化人像标注掩膜；

(2)构建多尺度的图像输入：对原始输入图像进行预处理，得到RGB输入图像I₁，对相应的二值化人像标注掩膜做同样的预处理操作得到人像掩膜I_y，对RGB输入图像I₁进行两次缩放操作，分别得到RGB输入图像I₂和RGB输入图像I₃；

(3)构建主级人像分割网络：由卷积模块、下采样层和上采样层组成，卷积模块由若干特征提取单元组成，每个特征提取单元包括卷积层、归一化层以及激活层，RGB输入图像I₁经过主级人像分割网络后得到人像概率输出P₁；

(4)构建次级人像分割网络：由可分离卷积模块、下采样层和上采样层组成，可分离卷积模块由可分离卷积层、归一化层和激活层组成；

(5)将步骤(2)中RGB输入图像I₁、RGB输入图像I₂和RGB输入图像I₃分别与不同等级的特征进行通道上的合并后输入到次级人像分割网络的不同阶段；经过次级人像分割网络后，得到最终的优化人像概率输出P₂；

(6)构建整个网络的损失函数：将人像概率输出P₁、人像概率输出P₂与人像掩膜I_y进行交叉熵损失函数运算，得到loss₁和loss₂，将loss₁和loss₂按不同权重相加作为整个网络的损失函数loss；

(7)根据权重loss对整个网络进行反向传播更新权重，获得训练好的人像分割模型。

整个人像分割算法包括多尺度的输入图像，主级分割网络以及次级分割网络。经过主级分割网络的整体分割，以及次级分割网络的人像边缘优化，最终输出精确的人像掩膜。采用级联卷积神经网络，主级网络用于对人像的整体分割，次级网络用于细化人像边缘；设计轻量的次级网络，在少量增加模型复杂度的情况下，较好的恢复人像边缘；将图像以多种尺度输入次级网络，保证次级网络在优化人像边缘的同时，保持人像完整性。故而，本发明在少量增加模型复杂度的情况下，提升人像整体的分割效果以及人像边缘的准确性。

作为优选，在步骤(1)中，具体操作方法为：从各种渠道搜集若干人像数据，并使用photoshop软件对数据进行人工标注，背景区域标记为0，人像区域标记为1，得到与原始图像一致的二值化人像标注掩膜。

作为优选，在步骤(2)中，构建多尺度的图像输入的具体操作方法为：首先对原始输入图像进行预处理，得到尺寸为512*512*3的RGB输入图像I₁；然后对相应的二值化人像标注掩膜做同样的预处理操作得到尺寸为512*512*1的人像掩膜I_y；最后对RGB输入图像I₁进行两次缩放操作，分别得到尺寸为256*256*3的RGB输入图像I₂和尺寸为128*128*3的RGB输入图像I₃。

作为优选，在步骤(3)中，构建主级人像分割网络的具体操作方法为：由编码模块和解码模块组成，主级人像分割网络的左半部分为编码模块，其中每个卷积模块后都使用下采样层来降低特征的空间分辨率，整个网络使用16倍的下采样步长，即编码模块的特征输出尺寸为原始图像的1/16；主级人像分割网络的右半部分为解码模块，其中每个卷积模块后都使用上采样层来增加特征的空间分辨率，同时与编码模块中的特征进行融合来达到更好的分割效果；最后用sigmoid激活函数对主级人像分割网络的特征进行激活，输入图像I₁经过主级人像分割网络后得到尺寸为512*512*1的人像概率输出P₁。

作为优选，sigmoid激活函数如下所示：

其中x表示未激活前的特征值，y(x)表示激活后的特征值。

作为优选，在步骤(4)中，构建次级人像分割网络具体操作方法为：由编码模块和解码模块组成，按照主级人像分割网络的编码模块构建方式，构建次级人像分割网络的编码模块，但在次级人像分割网络的编码模块中仅采用4倍的下采样步长来保留边缘细节；并按照主级人像分割网络的解码模块构建方式，构建次级人像分割网络的解码模块；最后用sigmoid激活函数对次级人像分割网络的输出特征进行激活。

作为优选，在步骤(5)中，RGB输入图像I₁和主级人像分割网络的输出P₁进行通道上的合并后输入到次级人像分割网络的第一级编码模块；RGB输入图像I₂和次级人像分割网络的第一级下采样特征进行通道上的合并后输入到次级人像分割网络的第二级编码模块；RGB输入图像I₃和次级人像分割网络的第二级下采样特征进行通道上的合并后输入到次级人像分割网络的第三级编码模块。

作为优选，在步骤(6)中，得到loss₁和loss₂的计算公式如下：

整个网络的损失函数loss的计算公式如下：

loss＝loss₁+λloss₂

其中λ表示loss₂的权重。

本发明的有益效果是：采用级联卷积神经网络，主级网络用于对人像的整体分割，次级网络用于细化人像边缘；设计轻量的次级网络，在少量增加模型复杂度的情况下，较好的恢复人像边缘；将图像以多种尺度输入次级网络，保证次级网络在优化人像边缘的同时，保持人像完整性；提升人像整体的分割效果以及人像边缘的准确性。

附图说明

图1是本发明的方法流程图；

图2是本发明的方法框架图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1、图2所述的实施例中，一种基于级联卷积神经网络的人像分割方法，具体包括如下步骤：

(1)搜集大量的人像数据，对数据进行人工标注，得到与原始图像一致的二值化人像标注掩膜；具体操作方法为：从各种渠道搜集若干人像数据，并使用photoshop软件对数据进行人工标注，背景区域标记为0，人像区域标记为1，得到与原始图像一致的二值化人像标注掩膜。

(2)构建多尺度的图像输入：对原始输入图像进行预处理，得到RGB输入图像I₁，对相应的二值化人像标注掩膜做同样的预处理操作得到人像掩膜I_y，对RGB输入图像I₁进行两次缩放操作，分别得到RGB输入图像I₂和RGB输入图像I₃；构建多尺度的图像输入的具体操作方法为：首先对原始输入图像进行预处理，得到尺寸为512*512*3的RGB输入图像I₁；然后对相应的二值化人像标注掩膜做同样的预处理操作得到尺寸为512*512*1的人像掩膜I_y；最后对RGB输入图像I₁进行两次缩放操作，分别得到尺寸为256*256*3的RGB输入图像I₂和尺寸为128*128*3的RGB输入图像I₃。

(3)构建主级人像分割网络：由卷积模块、下采样层和上采样层组成，卷积模块由若干特征提取单元组成，每个特征提取单元包括卷积层、归一化层以及激活层，RGB输入图像I₁经过主级人像分割网络后得到人像概率输出P₁；如图2所示，构建主级人像分割网络的具体操作方法为：由编码模块和解码模块组成，主级人像分割网络的左半部分为编码模块，其中每个卷积模块后都使用下采样层来降低特征的空间分辨率，整个网络使用16倍的下采样步长，即编码模块的特征输出尺寸为原始图像的1/16；主级人像分割网络的右半部分为解码模块，其中每个卷积模块后都使用上采样层来增加特征的空间分辨率，同时与编码模块中的特征进行融合来达到更好的分割效果；最后用sigmoid激活函数对主级人像分割网络的特征进行激活，输入图像I₁经过主级人像分割网络后得到尺寸为512*512*1的人像概率输出P₁。sigmoid激活函数如下所示：

其中x表示未激活前的特征值，y(x)表示激活后的特征值。

(4)构建次级人像分割网络：其目的是在不显著增加模型大小的情况下优化人像边缘细节，由可分离卷积模块、下采样层和上采样层组成，可分离卷积模块由可分离卷积层、归一化层和激活层组成，相比于主级人像分割网络中的卷积模块，其计算量更小，更适合轻量化的模型设计；构建次级人像分割网络具体操作方法为：由编码模块和解码模块组成，按照主级人像分割网络的编码模块构建方式，构建次级人像分割网络的编码模块，但由于边缘细节主要存在于网络的浅层特征中，因此在次级人像分割网络的编码模块中仅采用4倍的下采样步长来保留边缘细节；并按照主级人像分割网络的解码模块构建方式，构建次级人像分割网络的解码模块；最后用步骤(3)中的sigmoid激活函数对次级人像分割网络的输出特征进行激活。

(5)将步骤(2)中RGB输入图像I₁、RGB输入图像I₂和RGB输入图像I₃分别与不同等级的特征进行通道上的合并后输入到次级人像分割网络的不同阶段；经过次级人像分割网络后，得到最终的优化人像概率输出P₂；如图2所示，RGB输入图像I₁和主级人像分割网络的输出P₁进行通道上的合并后输入到次级人像分割网络的第一级编码模块；RGB输入图像I₂和次级人像分割网络的第一级下采样特征进行通道上的合并后输入到次级人像分割网络的第二级编码模块；RGB输入图像I₃和次级人像分割网络的第二级下采样特征进行通道上的合并后输入到次级人像分割网络的第三级编码模块。

(6)构建整个网络的损失函数：将人像概率输出P₁、人像概率输出P₂与人像掩膜I_y进行交叉熵损失函数运算，得到loss₁和loss₂，将loss₁和loss₂按不同权重相加作为整个网络的损失函数loss；得到loss₁和loss₂的计算公式如下：

整个网络的损失函数loss的计算公式如下：

loss＝loss₁+λloss₂

其中λ表示loss₂的权重，这里设置为1.5。

(7)根据权重loss对整个网络进行反向传播更新权重，获得训练好的人像分割模型。测试阶段，只需要将测试图片输入到训练好的分割模型即可得到精确的人像分割掩膜。

Claims

1.一种基于级联卷积神经网络的人像分割方法，其特征是，具体包括如下步骤：

（1）搜集大量的人像数据，对数据进行人工标注，得到与原始图像一致的二值化人像标注掩膜；

（2）构建多尺度的图像输入：对原始输入图像进行预处理，得到RGB输入图像I ₁，对相应的二值化人像标注掩膜做同样的预处理操作得到人像掩膜I _y，对RGB输入图像I ₁进行两次缩放操作，分别得到RGB输入图像I ₂和RGB输入图像I ₃；构建多尺度的图像输入的具体操作方法为：首先对原始输入图像进行预处理，得到尺寸为512*512*3的RGB输入图像I ₁；然后对相应的二值化人像标注掩膜做同样的预处理操作得到尺寸为512*512*1的人像掩膜I _y；最后对RGB输入图像I ₁进行两次缩放操作，分别得到尺寸为256*256*3的RGB输入图像I ₂和尺寸为128*128*3的RGB输入图像I ₃；

（3）构建主级人像分割网络：由卷积模块、下采样层和上采样层组成，卷积模块由若干特征提取单元组成，每个特征提取单元包括卷积层、归一化层以及激活层，RGB输入图像I ₁经过主级人像分割网络后得到人像概率输出P ₁；构建主级人像分割网络的具体操作方法为：由编码模块和解码模块组成，主级人像分割网络的左半部分为编码模块，其中每个卷积模块后都使用下采样层来降低特征的空间分辨率，整个网络使用16倍的下采样步长，即编码模块的特征输出尺寸为原始图像的1/16；主级人像分割网络的右半部分为解码模块，其中每个卷积模块后都使用上采样层来增加特征的空间分辨率，同时与编码模块中的特征进行融合来达到更好的分割效果；最后用sigmoid激活函数对主级人像分割网络的特征进行激活，输入图像I ₁经过主级人像分割网络后得到尺寸为512*512*1的人像概率输出P ₁；

（4）构建次级人像分割网络：由可分离卷积模块、下采样层和上采样层组成，可分离卷积模块由可分离卷积层、归一化层和激活层组成；构建次级人像分割网络具体操作方法为：由编码模块和解码模块组成，按照主级人像分割网络的编码模块构建方式，构建次级人像分割网络的编码模块，但在次级人像分割网络的编码模块中仅采用4倍的下采样步长来保留边缘细节；并按照主级人像分割网络的解码模块构建方式，构建次级人像分割网络的解码模块；最后用sigmoid激活函数对次级人像分割网络的输出特征进行激活；

（5）构建次级人像分割网络的输入：将步骤（2）中RGB输入图像I ₁、RGB输入图像I ₂和RGB输入图像I ₃分别与不同等级的特征进行通道上的合并后输入到次级人像分割网络的不同阶段；经过次级人像分割网络后，得到最终的优化人像概率输出P ₂；RGB输入图像I ₁和主级人像分割网络的输出P ₁进行通道上的合并后输入到次级人像分割网络的第一级编码模块；RGB输入图像I ₂和次级人像分割网络的第一级下采样特征进行通道上的合并后输入到次级人像分割网络的第二级编码模块；RGB输入图像I ₃和次级人像分割网络的第二级下采样特征进行通道上的合并后输入到次级人像分割网络的第三级编码模块；

（6）构建整个网络的损失函数：将人像概率输出P ₁、人像概率输出P ₂与人像掩膜I _y进行交叉熵损失函数运算，得到loss ₁和loss ₂，将loss ₁和loss ₂按不同权重相加作为整个网络的损失函数loss；

（7）根据权重loss对整个网络进行反向传播更新权重，获得训练好的人像分割模型。

2.根据权利要求1所述的一种基于级联卷积神经网络的人像分割方法，其特征是，在步骤（1）中，具体操作方法为：从各种渠道搜集若干人像数据，并使用photoshop软件对数据进行人工标注，背景区域标记为0，人像区域标记为1，得到与原始图像一致的二值化人像标注掩膜。

3.根据权利要求1所述的一种基于级联卷积神经网络的人像分割方法，其特征是，sigmoid激活函数如下所示：

其中x表示未激活前的特征值，y(x)表示激活后的特征值。

4.根据权利要求1所述的一种基于级联卷积神经网络的人像分割方法，其特征是，在步骤（6）中，得到loss ₁和loss ₂的计算公式如下：

整个网络的损失函数loss的计算公式如下：

loss＝loss₁+λloss₂

其中λ表示loss ₂的权重。