CN112396598B

CN112396598B - 一种基于单阶段多任务协同学习的人像抠图方法及系统

Info

Publication number: CN112396598B
Application number: CN202011393907.0A
Authority: CN
Inventors: 赖贤城; 谢晓华; 赖剑煌
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-08-15
Anticipated expiration: 2040-12-03
Also published as: CN112396598A

Abstract

本发明公开了一种基于单阶段多任务协同学习的人像抠图方法及系统，该方法包括：获取数据集并对数据集进行预处理，得到训练人像图、对应的透明度图和对应的三元图；将训练人像图输入到预构建抠图模型，生成训练的三元图和训练的透明度图；损失计算并更新预构建抠图模型的参数，得到训练完成的抠图模型；获取待测图像并输入到训练完成的抠图模型，得到人像前景图。该系统包括：数据预处理模块、训练模块、参数更新模块和预测模块。通过使用本发明，解决现有技术中抠图阶段容易由三元图阶段的错误导致抠图阶段的预测错误。本发明作为一种基于单阶段多任务协同学习的人像抠图方法及系统，可广泛应用于图像抠图领域。

Description

一种基于单阶段多任务协同学习的人像抠图方法及系统

技术领域

本发明属于图像抠图领域，尤其涉及一种基于单阶段多任务协同学习的人像抠图方法及系统。

背景技术

图像抠图，是指在一张给定的图像中准确地抠出指定的前景物体，使得抠出的前景能够很自然地与其他背景图像进行合成。目前的抠图技术主要为蓝屏抠图技术，然而，蓝屏抠图需要前景目标在特定颜色的背景当中，限制严格且成本较高，这就限制了其只能应用于小部分的领域。近年来的深度学习结合传统方法的半自动抠图太依赖于模型的假设且无法关注到语义层面的匹配。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于单阶段多任务协同学习的人像抠图方法及系统，解决现有技术中抠图阶段容易由三元图阶段的错误导致抠图阶段的预测错误。

本发明所采用的第一技术方案是：一种基于单阶段多任务协同学习的人像抠图方法，包括以下步骤：

获取数据集并对数据集进行预处理，得到训练人像图、对应的透明度图和对应的三元图；

将训练人像图输入到预构建抠图模型，生成训练的三元图和训练的透明度图；

将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数，得到训练完成的抠图模型；

获取待测图像并输入到训练完成的抠图模型，得到人像前景图。

进一步，所述获取数据集并对数据集进行预处理，得到训练人像图、对应的透明度图和对应的三元图这一步骤，其具体包括：

获取人像抠图数据集，所述人像抠图数据集包括人像图和对应的透明度图；

对人像图进行数据增强和放缩，得到训练人像图；

对透明度图进行二值化处理、形态学的腐蚀和膨胀处理，得到腐蚀参数和膨胀参数；

根据腐蚀参数和膨胀参数生成对应的三元图。

进一步，所述对人像图进行数据增强和放缩，得到训练人像图这一步骤，其具体包括：

以0.3概率对人像图进行随机边缘填充；

以0.5概率对人像图进行水平方向翻转；

对人像图进行伽马变换；

对人像图加入高斯噪声；

将经过边缘填充、水平翻转、伽马变换和加入高思噪声的人像图缩放为256*256的大小，得到训练人像图。

进一步，所述抠图模型包括三元图支路、主体粗抠支路和边缘精抠支路，所述训练的透明度图包括训练的主体透明度图、训练的边缘透明度图和训练的最终透明度图。

进一步，所述将训练人像图输入到预构建抠图模型，生成训练的三元图和训练的透明度图这一步骤，其具体包括：

将训练人像图输入到预构建抠图模型，经过三元图支路中的深层特征提取器生成特征图；

将特征图经过三元图支路中的解码器生成训练的三元图；

将特征图经过主体粗抠支路生成训练的主体透明度图；

将训练人像图经过边缘精抠支路的无下采样的浅层编码器得到编码图；

将特征图输入到边缘精抠支路并与编码图拼接，经过无下采样的解码器后生成训练的边缘透明度图；

根据训练的主体透明度图和训练的边缘透明度图生成训练的最终透明度图。

进一步，所述将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数，得到训练完成的抠图模型这一步骤，其具体包括：

将训练的三元图与数据集中该训练人像图对应的三元图逐像素计算交叉熵损失，得到三元图损失；

将训练的主体透明度图与数据集中该训练人像图对应的透明度图计算均方误差，得到主体透明度图均方误差；

将训练的边缘透明度图与数据集中该训练人像图对应的透明度图计算均方误差，得到边缘透明度图均方误差；

将训练的最终透明度图与数据集中该训练人像图对应的透明度图计算均方误差，得到最终透明度图均方误差；

根据三元图损失、主体透明度图均方误差、边缘透明度图均方误差和最终透明度图均方误差，得到总损失函数；

根据总损失函数对预构建扣图模型参数进行迭代更新，得到训练完成的抠图模型。

进一步，所述三元图损失的计算公式如下：

上式中，y_k表示该像素属于类别k的概率，p_k表示该像素预测得到的属于类别k的概率。

进一步，所述获取待测图像并输入到训练完成的抠图模型，得到人像前景图这一步骤，其具体包括：

将待测图像缩放至256*256的大小并输入到训练完成的抠图模型，得到预测的三元图、预测的主体透明度图、预测的边缘透明度图和预测的最终透明度图；

将预测的最终透明度缩放至待测图像原图大小后与待测图像原图进行逐通道相乘，得到人像前景图。

本发明所采用的第二技术方案是：一种基于单阶段多任务协同学习的人像抠图系统，包括以下模块：

数据预处理模块，用于获取数据集并对数据集进行预处理，得到训练人像图、对应的透明度图和对应的三元图；

训练模块，用于将训练人像图输入到预构建抠图模型，生成训练的三元图和训练的透明度图；

参数更新模块，用于将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数，得到训练完成的抠图模型；

预测模块，用于获取待测图像并输入到训练完成的抠图模型，得到人像前景图。

本发明方法及系统的有益效果是：本发明在抠图阶段不直接输入三元图，而是输入三元图阶段的特征图，从而减少三元图阶段的错误导致抠图阶段的预测错误，此外，通过模型的三条支路结构，实现增大感受野的同时保留位置信息，使得抠图结果更加锐利。

附图说明

图1是本发明具体实施例一种基于单阶段多任务协同学习的人像抠图方法的步骤流程图；

图2是本发明具体实施例一种基于单阶段多任务协同学习的人像抠图系统的结构框图；

图3是本发明具体实施例预构建抠图模型的数据处理流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明提供了一种基于单阶段多任务协同学习的人像抠图方法，该方法包括以下步骤：

S1、获取数据集并对数据集进行预处理，得到训练人像图、对应的透明度图和对应的三元图；

S2、将训练人像图输入到预构建抠图模型，生成训练的三元图和训练的透明度图；

S3、将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数，得到训练完成的抠图模型；

S4、获取待测图像并输入到训练完成的抠图模型，得到人像前景图。

进一步作为本方法的优选实施例，所述获取数据集并对数据集进行预处理，得到训练人像图、对应的透明度图和对应的三元图这一步骤，其具体包括：

对人像图进行数据增强和放缩，得到训练人像图；

具体地，对于数据集中的每张透明度图alpha，先通过以下公式进行二值化：

将二值化后的透明度图进行形态学的腐蚀和膨胀操作，分别得到erode和dilate，腐蚀和膨胀的结构元半径为透明度图宽度的5％。

根据腐蚀参数和膨胀参数生成对应的三元图。

具体地，对应的三元图由以下公式计算得到：

进一步作为本方法优选实施例，所述对人像图进行数据增强和放缩，得到训练人像图这一步骤，其具体包括：

以0.3概率对人像图进行随机边缘填充；

以0.5概率对人像图进行水平方向翻转；

对人像图进行伽马变换；

对人像图加入高斯噪声；

进一步作为本发明的优选实施例，所述抠图模型包括三元图支路、主体粗抠支路和边缘精抠支路，所述训练的透明度图包括训练的主体透明度图、训练的边缘透明度图和训练的最终透明度图。

具体地，参照图3，在三元图支路中，输入图像经过深层特征提取器后提取到深层特征图，然后将特征图经过解码器解码后得到预测的的三元图；在主体粗抠支路中，将三元图阶段的特征图，经过解码器解码后得到主体透明度图；在边缘精抠支路中，首先将输入图像经过一个浅层的且没有下采样的编码器后得到浅层编码图，将三元图阶段的深层特征图和浅层编码图进行拼接，输入到解码器中进行解码得到预测的边缘透明度图。

进一步作为本发明优选实施例，所述将训练人像图输入到预构建抠图模型，生成训练的三元图和训练的透明度图这一步骤，其具体包括：

将特征图经过三元图支路中的解码器生成训练的三元图；

具体地，在三元图支路中，训练人像图经过一个可替代的深层网络，在本发明中选用的是deeplabv3+这一网络架构，经过深层网络后提取到大小为64*64的深层特征图，然后将特征图经过解码器解码后得到预测的大小为64*64的三元图，通过双线性插值算法将其放大为256*256大小的三元图。

其中解码器为三层的卷积层网络，前两层卷积层之后会依次经过批归一化层、ReLU激活层，概率为0.1的Dropout层。

将特征图经过主体粗抠支路生成训练的主体透明度图；

具体地，在主体粗抠支路中，将三元图阶段的特征图，经过解码器解码后得到预测的大小为64*64的主体透明度图α_contorr，通过双线性插值算法将其放大为256*256大小。

具体地，在边缘精抠支路中，首先将输入图像经过一个如附图2所示的浅层且没有下采样的编码器后得到256*256的浅层编码图，将三元图阶段的深层特征图经过转置卷积后变为256*256，之后和浅层编码图进行拼接，输入到解码器中进行解码得到预测的大小为256*256的边缘透明度图α_edge。

具体地，将训练的边缘透明度图和训练的主体透明度图通过下述公式进行合成，得到训练的最终透明度图预测结果：

上式中，表示边缘透明度图中第i个像素的透明度值，类似的，/>表示最终透明度图中第i个像素的透明度值，/>表示主体透明度图中第i个像素的透明度值。

进一步作为本方法的优选实施例，所述将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数，得到训练完成的抠图模型这一步骤，其具体包括：

具体地，将训练的主体透明度图与数据集中的透明度图计算均方误差，但是只计算三元图中为前景和背景的区域，计算公式如下：

上式中，m表示像素的总数，表示数据集的透明度图中第i个像素的透明度值，表示主体透明度图中第i个像素的透明度值，trimap_i表示三元图中第i个像素的值。

具体地，将训练的边缘透明度图与数据集中的透明度图计算均方误差，但是只计算三元图中为“不确定”的区域，如下述公式：

具体地，将训练的最终透明度图与数据集中的透明度图计算均方误差：

具体地，最后总的损失函数为以上损失的加和：

L＝L_cross+L_contour+L_edge+L_final

具体地，将损失函数梯度传播回网络的每个参数后，使用adam优化器进行参数迭代，初始学习率为0.0001。

进一步作为本方法的优选实施例，所述三元图损失的计算公式如下：

另外，边缘精抠支路使用无下采样的编码器避免了下采样过程中的位置信息丢失，从而使得结果更加锐利。编码器的输入包括浅层编码图和三元图支路的深层特征图，一是能弥补无下采样导致的感受野过小的问题，二也提供了更多的高层约束信息，相比直接输入三元图的方法，本发明的结果更具有鲁棒性。三元图支路和两个抠图支路共享了同一个深层特征提取器，因为三元图预测和抠图两个任务本就是高度相关的任务，使用同一个深层特征提取器能相互促进，加快模型收敛。

如图2所示，一种基于单阶段多任务协同学习的人像抠图系统，包括以下模块：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于单阶段多任务协同学习的人像抠图方法，其特征在于，包括以下步骤：

获取待测图像并输入到训练完成的抠图模型，得到人像前景图；

所述将训练人像图输入到预构建抠图模型，生成训练的三元图和训练的透明度图这一步骤，其具体包括：

将特征图经过三元图支路中的解码器生成训练的三元图；

将特征图经过主体粗抠支路生成训练的主体透明度图；

根据训练的主体透明度图和训练的边缘透明度图生成训练的最终透明度图；

所述将训练的三元图和训练的透明度图与数据集该训练人像图对应的三元图和对应的透明度图进行损失计算并更新预构建抠图模型的参数，得到训练完成的抠图模型这一步骤，其具体包括：

2.根据权利要求1所述一种基于单阶段多任务协同学习的人像抠图方法，其特征在于，所述获取数据集并对数据集进行预处理，得到训练人像图、对应的透明度图和对应的三元图这一步骤，其具体包括：

对人像图进行数据增强和放缩，得到训练人像图；

根据腐蚀参数和膨胀参数生成对应的三元图。

3.根据权利要求2所述一种基于单阶段多任务协同学习的人像抠图方法，其特征在于，所述对人像图进行数据增强和放缩，得到训练人像图这一步骤，其具体包括：

以0.3概率对人像图进行随机边缘填充；

以0.5概率对人像图进行水平方向翻转；

对人像图进行伽马变换；

对人像图加入高斯噪声；

4.根据权利要求1所述一种基于单阶段多任务协同学习的人像抠图方法，其特征在于，所述抠图模型包括三元图支路、主体粗抠支路和边缘精抠支路，所述训练的透明度图包括训练的主体透明度图、训练的边缘透明度图和训练的最终透明度图。

5.根据权利要求1所述一种基于单阶段多任务协同学习的人像抠图方法，其特征在于，所述三元图损失的计算公式如下：

6.根据权利要求5所述一种基于单阶段多任务协同学习的人像抠图方法，其特征在于，所述获取待测图像并输入到训练完成的抠图模型，得到人像前景图这一步骤，其具体包括：

7.一种基于单阶段多任务协同学习的人像抠图系统，其特征在于，应用于如权利要求1所述的人像抠图方法，包括以下模块：