CN112884776B

CN112884776B - 一种基于合成数据集增广的深度学习抠图方法

Info

Publication number: CN112884776B
Application number: CN202110089679.6A
Authority: CN
Inventors: 高新宇; 金小刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-05-31
Anticipated expiration: 2041-01-22
Also published as: CN112884776A

Abstract

本发明公开了一种基于合成数据集增广的深度学习抠图方法，包括以下步骤：利用DAZ3D软件对adobe数据集进行数据增广，并合成深度学习所需的数据集；对数据集中的alpha遮罩进行腐蚀和膨胀的形态学操作，得到训练所需的三分图；在VGG16网络结构的基础上构建适合抠图使用的网络结构，利用VGG16网络的编解码结构对由图像和三分图拼接而成的4通道输入进行卷积，输出粗略抠图结果；构建用于精细抠图的网络结构，将得到的粗略抠图结果和源图像拼接经过卷积后得到边界清晰的预测结果，结合粗略抠图训练形成一个整体网络，重复训练所述整体网络，对整体网络的权重进行更新；将得到的整体网络的权重保存为预训练网络模型，用于后续批量抠图的需求。本发明实现了自然背景的图像毛发级别精度的抠图。

Description

一种基于合成数据集增广的深度学习抠图方法

技术领域

本发明涉及计算机图像处理领域，特别是涉及一种基于合成数据集增广的深度学习抠图方法。

背景技术

图像的抠图是一个有广泛应用背景的领域，从修图软件到影视特效制作都会涉及背景抠图的问题。抠图与图像分割属于一大类问题，图像分割的目标是“像素级”精度，而抠图的目标是“半像素”级精度，即需要求解前景物体在图像中对应的透明度，两者具有很高的相似度。虽然图像分割的问题已经研究的较为成熟，但如遇到前景边缘存在毛发等软边缘的细节、或者前景物体具有半透明和折射等特点，使用抠图操作仍有其特有的优势，故抠图问题具有区别于图像分割的独有的研究价值。

抠图在早些年的研究主要以传统的计算机视觉算法为主，抠图的图像背景也多为绿屏、蓝屏等这类纯色背景。近几年出现了针对自然背景的抠图需求，故其对抠图算法提出了更高的要求，同时深度学习的不断发展为抠图提供了崭新的解决思路和方案。

现阶段抠图(包括抠图的线性组合方程)的主要问题为无法从单个像素求解出前景背景和包括透明度在内的7个未知数，故在输入的原始图片上要辅助提供额外的信息。不论是传统的算法(例如：passion image matting)还是现有的深度学习的方法都要求以三分图、大致形状分割或者用户涂鸦标记等方法提供辅助信息来帮助抠图，在此基础上抠图还是存在很大的难点，主要体现在：

1、对于毛发细节的保留是否完整，是否会出现毛发细节缺失，毛发分离断裂的结果。

2、对于半透明物体而言，是否能避免透射的背景带来的结构上的影响，是否能较为清晰地抠出大片连续平滑的半透明部分。

3、对于背景较为复杂的图像，方法是否足够鲁棒，是否能避免或者极大的减少复杂背景带来的干扰。

在这几年提出的关于深度学习的方法中又涉及到高质量数据集获取的问题，这也给研究抠图问题造成了很大了困难。

公开号为CN111161277A的说明书公开了一种基于深度学习的自然图像抠图方法，包括以下步骤：获取抠图数据集，并进行数据增强；搭建具有编码器-解码器结构的自然图像抠图模型，为保留细节信息，设计编码器使其下采样倍数为4，为弥补下采样倍数下降带来的感受野变小，引入空洞卷积扩大感受野，保存最大池化操作中最大像素位置，以便为上采样阶段提供位置信息；为解决多尺度问题，在编码器顶部连接一个空洞空间金字塔模块；在解码器中设计全局语境模块，用于融合所述编码器与解码器对应的高层特征；最后训练并测试。该发明主要针对自然图像进行抠图方法设计，采用了全局语境模块，但对于毛发等软边缘细节并没有涉及。

公开号为CN109035253A的说明书公开了了一种语义分割信息指导的深度学习自动图像抠图方法，包括步骤：S1：采集待抠图图像数据集；S2：构建用于自动图像抠图的深度学习模型；S3：利用采集的数据集对深度学习模型进行训练，得到训练完成的深度学习模型；S4：对于待抠图的图像，直接将其输入训练完成的深度学习模型，即可快速得到前景目标图像。该发明采用了语义分割信息指导对抠图方法进行了设计，但该模型的精细度并没有达到毛发级别精度的抠图。

发明内容

本发明的目的在于提供了一种基于合成数据集增广的深度学习抠图方法，在数据集的构建上提出了利用3D软件进行数据增广，对自然背景的图像进行毛发级别精度的抠图。

一种基于合成数据集增广的深度学习抠图方法，包括以下步骤：

(1)利用DAZ 3D软件对adobe数据集进行数据增广，并合成深度学习所需的数据集；

(2)对数据集中的alpha遮罩进行腐蚀和膨胀的形态学操作，得到每个训练图片对应的三分图；

(3)在VGG16网络结构的基础上构建适合抠图使用的网络结构，利用VGG16网络的编解码结构对由图像和三分图拼接而成的4通道输入进行卷积，粗略抠图训练阶段收敛后，输出粗略抠图结果；

(4)构建用于进一步精细抠图的网络结构，将步骤(3)中得到的粗略抠图结果和源图像拼接为4通道RGBA的输入，经过4层卷积后得到边界清晰的预测结果，精细抠图训练阶段收敛后，结合步骤(3)的粗略抠图训练形成一个整体网络，重复训练所述整体网络，对整体网络的权重进行更新；

(5)将步骤(4)得到的整体网络的权重保存为预训练网络模型，用于后续批量抠图的需求。

优选地，所述Adobe数据集为现有数据集，从adobe数据集包含的具有精细alpha遮罩的图像中提取前景，选取MSCOCO-2017-Train-Dataset和PASCAL-VOC-2012数据集中的图片作为背景。

步骤(1)中，利用如下线性公式合成深度学习所需的数据集，

I＝F*alpha+B*(1-alpha)。

其中I表示合成后的图片，F，B表示前景图和背景图；

所述DAZ3D利用图形学渲染的方法生成高质量的图片为现有数据集的前景图片提供数据增广，具体步骤如下：

1.在软件的虚拟环境中构建模型的光照场景。尽量还原现实中的光照条件，并注意模型毛发细节等摆放问题。

2.对整个场景进行分级渲染，得到单张图片和其对应的alpha遮罩。

3.更换多个模型和场景背景，进行批量操作得到由DAZ3D软件生成的数据集。

4.将得到的数据集与之前合成的数据集进行合并，形成最终的数据集。

使用DAZ 3D软件搭建虚拟环境，对整个模型场景进行光照和烘焙。渲染出接近真实环境的光照条件和精细的alpha通道。

所述步骤(2)中对数据集中的alpha遮罩进行腐蚀和膨胀的形态学操作的步骤包括：对alpha遮罩进行二值化操作；对二值化的结果进行多次的腐蚀和膨胀的图像形态学操作以消除边缘的毛发等细节区域；膨胀后的背景作为三分图的黑色区域，腐蚀后的前景作为三分图的白色区域，其他区域作为三分图的灰色区域，生成训练所用三分图并储存。

优选地，所述腐蚀和膨胀的形态学操作中的卷积核大小从2-5中随机产生，迭代次数从5-15中随机产生。

所述步骤(3)中，利用VGG16网络的编解码结构对输入图像通道进行卷积，具体步骤包括：在编码阶段具有14个卷积层和5个最大池化层，在解码阶段具有6个步长为分数的卷积层和5个反池化层，通过ADAM优化器对网络模型进行训练，最终得到单通道的、与输入图像等大的alpha图像输出结果。

所述步骤(3)中，粗略抠图训练阶段的损失函数为：

其中，

是alpha预测的单独损失，

是利用预测结果合成后RGB三通道的损失，

为预测值，

为真实值，w_l为权值，

为使用

计算的单像素RGB向量；

为真实图片对应单像素RGB向量；∈²为防止梯度不稳定的极小的常量。

所述步骤(4)中，所述4层卷积中前3层卷积采用relu激活函数。

所述步骤(4)中，精细抠图训练阶段使用的损失函数为精细抠图的alpha预测的单独损失，所述整体网络训练的损失函数为粗略抠图训练阶段的损失函数与精细抠图训练阶段的损失函数相加。

本发明与现有技术相比，主要优点包括：

本发明不论自然背景还是纯色背景的抠图测试中均表现优秀；

本发明对毛发等软边缘细节保留较好，具备对大块半透明区域的抠图能力。

附图说明

图1为本发明实施例基于合成数据集增广的深度学习抠图方法的流程示意图。

图2为adobe数据集中的自然图像(原图为彩色照片)。

图3为图2在adobe数据集中对应的alpha遮罩。

图4为daz3D软件合成的图像(原图为彩色照片)。

图5为图4在daz3D软件合成数据集中对应的alpha遮罩。

具体实施方式

如图1所示，基于合成数据集增广的深度学习抠图方法，包括以下步骤：

S1利用DAZ 3D软件对adobe数据集进行数据增广，并合成深度学习所需的数据集；

S2对数据集中的alpha遮罩进行腐蚀和膨胀的形态学操作，得到每个训练图片对应的三分图；

S3在VGG16网络结构的基础上构建适合抠图使用的网络结构，利用VGG16网络的编解码结构对由图像和三分图拼接而成的4通道输入进行卷积，粗略抠图训练阶段收敛后，输出粗略抠图结果；

S4构建用于进一步精细抠图的网络结构，将S3中得到的粗略抠图结果和源图像拼接为4通道RGBA的输入，经过4层卷积后得到边界清晰的预测结果，精细抠图训练阶段收敛后，结合步骤(3)的粗略抠图训练形成一个整体网络，重复训练所述整体网络，对整体网络的权重进行更新；

S5将S4得到的整体网络的权重保存为预训练网络模型，用于后续批量抠图的需求。

下面以图2和图4为例，进行说明：

进行步骤S1，从adobe数据集包含的具有精细alpha遮罩的图像中提取前景，如图3，选取MSCOCO-2017-Train-Dataset和PASCAL-VOC-2012数据集中众多的图片作为背景，利用如下线性公式进行合成：

I＝F*alpha+B*(1-alpha)。

其中I表示合成后的图片，F，B表示前景图和背景图。

DAZ3D利用图形学渲染的方法生成高质量的图片为现有数据集的前景图片提供数据增广，具体步骤如下：

2.对整个场景进行分级渲染，得到单张图片如图4所示，及其对应的alpha遮罩，如图5所示。

进行步骤S2，对alpha遮罩进行二值化操作；对二值化的结果进行多次的腐蚀和膨胀的图像形态学操作以消除边缘的毛发等细节区域，腐蚀和膨胀的形态学操作中的卷积核大小从2-5中随机产生，迭代次数从5-15中随机产生。

膨胀后的背景作为三分图的黑色区域，腐蚀后的前景作为三分图的白色区域，其他区域作为三分图的灰色区域，生成训练所用三分图并储存。

进行步骤S3，利用VGG16网络的编解码结构对输入图像通道进行卷积，具体步骤包括：在编码阶段具有14个卷积层和5个最大池化层，在解码阶段具有6个步长为分数的卷积层和5个反池化层，通过ADAM优化器对网络模型进行训练，最终得到单通道的、与输入图像等大的alpha图像输出结果。

粗略训练阶段的损失函数为：

其中，

是alpha预测的单独损失，

是利用预测结果合成后RGB三通道的损失，

为预测值，

为真实值，w_l为权值，

为使用

计算的单像素RGB向量；

进行步骤S4，构建用于进一步精细抠图的网络结构，将步骤(3)中得到的粗略抠图结果和源图像拼接为4通道RGBA的输入。经过4层卷积后得到边界清晰的预测结果，其中前3层卷积使用relu激活函数，得到边界更为清晰的预测结果。精细抠图训练阶段使用的损失函数为精细抠图的alpha预测的单独损失。

精细抠图训练阶段收敛后，结合S3的训练形成一个整体网络，重复训练所述整体网络，对整体网络的权重进行更新，整体网络训练的损失函数为粗略抠图训练阶段的损失函数与精细抠图训练阶段的损失函数相加。

进行步骤S5，将训练好的网络权重保存为预训练网络模型，用于后续多次调用方法时对网络进行初始化。

利用本实施例对自然背景和纯色背景的抠图进行测试，得出本实施例对毛发等软边缘细节保留较好，具备对大块半透明区域的抠图能力。在抠图标准测试中，梯度误差和连接性误差均保持在2×10^-3左右，故本发明可用于用户抠图或产品抠图等app中。

Claims

1.一种基于合成数据集增广的深度学习抠图方法，其特征在于，包括以下步骤：

(1)利用DAZ 3D软件对adobe数据集进行数据增广，并合成深度学习所需的初步数据集；

(2)对数据集中的alpha遮罩进行腐蚀和膨胀的形态学操作，得到每个图片对应的三分图训练数据；

2.根据权利要求1所述的基于合成数据集增广的深度学习抠图方法，其特征在于，步骤(1)中，所述Adobe数据集为现有数据集，从adobe数据集包含的具有精细alpha遮罩的图像中提取前景，选取MSCOCO-2017-Train-Dataset和PASCAL-VOC-2012数据集中的图片作为背景。

3.根据权利要求1所述的基于合成数据集增广的深度学习抠图方法，其特征在于，步骤(1)中，利用如下线性公式合成深度学习所需的数据集，

I＝F*alpha+B*(1-alpha)

其中I表示合成后的图片，F，B表示前景图和背景图。

4.根据权利要求1所述的基于合成数据集增广的深度学习抠图方法，其特征在于，步骤(1)中，所述DAZ3D利用图形学渲染的方法为现有数据集的前景图片提供数据增广，具体步骤如下，

1.1在软件的虚拟环境中构建模型的光照场景；

1.2对整个场景进行分级渲染，得到单张图片和其对应的alpha遮罩；

1.3更换多个模型和场景背景，进行批量操作得到由DAZ3D软件生成的数据集；

1.4将得到的数据集与之前合成的数据集进行合并，形成增广后的数据集。

5.根据权利要求1所述的基于合成数据集增广的深度学习抠图方法，其特征在于，所述步骤(2)中对alpha遮罩进行腐蚀和膨胀的形态学操作的步骤包括：对alpha遮罩进行二值化操作；对二值化的结果分别进行多次的腐蚀和膨胀的图像形态学操作以消除边缘的毛发细节区域；膨胀后的背景作为三分图的黑色区域，腐蚀后的前景作为三分图的白色区域，其他区域作为三分图的灰色区域，生成训练所用三分图并储存。

6.根据权利要求5所述的基于合成数据集增广的深度学习抠图方法，其特征在于，所述腐蚀和膨胀的形态学操作中的卷积核大小从2-5中随机产生，迭代次数从5-15中随机产生。

7.根据权利要求1所述的基于合成数据集增广的深度学习抠图方法，其特征在于，所述步骤(3)中，利用VGG16网络的编解码结构对由图像和三分图拼接而成的RGBA4通道输入进行卷积，具体步骤包括：编码阶段具有14个卷积层和5个最大池化层，解码阶段具有6个步长为分数的卷积层和5个反池化层，通过ADAM优化器对网络模型进行训练，得到单通道的与输入图像等大的alpha图像输出结果。

8.根据权利要求7所述的基于合成数据集增广的深度学习抠图方法，其特征在于，所述步骤(3)中，粗略抠图训练阶段的损失函数为：