CN114022493A

CN114022493A - 一种自动生成三分图的人像图抠图方法与系统

Info

Publication number: CN114022493A
Application number: CN202111302939.XA
Authority: CN
Inventors: 曾坤; 郭韵婷; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-08

Abstract

本发明公开了一种自动生成三分图的人像图抠图方法与系统。首先训练用于得到人像图语义四分类的Parsing‑Net网络、用于得到初步的抠图结果的Mask‑Net网络、用于得到最终的抠图结果的Trimap‑Net网络；之后输入待处理的人像图到Parsing‑Net中得到人像图语义四分类，对人像图语义四分类进行处理得到AOI，并结合待处理的人像图原图与对应的mask输入到Mask‑Net中得到初步的抠图结果，对结果进行处理生成三分图trimap，将待处理的人像图与三分图trimap输入到Trimap‑Net中得到最终的抠图结果。本发明使用人体解析的方法利用语义信息解决了自动生成trimap的问题，利用自动生成trimap实现了镂空头发的正确处理，可以更有针对性的对头发和边缘部分进行抠图，从而使人像抠图更准确。

Description

一种自动生成三分图的人像图抠图方法与系统

技术领域

本发明涉及计算机视觉、图像处理技术领域，具体涉及一种自动生成三分图的人像图抠图方法与系统。

背景技术

抠图是指准确估计图像或者视频序列中的前景物体不透明度的问题，被广泛应用在电影制作和数字图像编辑领域。抠图算法可以细分成多个类别，例如动物抠图，透明物体抠图，人像抠图等。对于人像抠图，特点是人像占图像中的大部分，无需考虑透明的物体，需要抠的物体还包括一些人们的配饰或者随身物品，难度主要在于头发丝部分。因为头发这一类别的特征非常复杂，在颜色相近或者不同的光照情况下，网络在头发部分学习到的特征与背景会很相似，难以分离出头发丝得到精细的分割结果。另外目前没有精细标注的专门用于人像抠图的数据集，更增加了解决抠图问题的难度。

抠图模型可以把图像看作是前景和背景的线性组合问题，也就是给定一张图片，需要预测出前景和背景以及前背景交界区域的不透明度，绝对前景输出1，绝对背景输出0，过渡的区域输出前景的在背景中的不透明度，值在0到1之间。根据输入原图的同时是否输入三分图trimap，可以将目前解决抠图问题的方法分为两大类。

目前的现有技术之一为需要trimap的抠图方法，这类型方法有DIM方法和GCA方法。具体为，对于RGB表示的彩色图像，已知输入图片RGB三个值求七个未知数：前景Fg的rgb、背景Bg的rgb、α，这是一个病态问题。在输入RGB图像的同时输入三分图trimap作为提示，能够减少病态问题的解空间。三分图trimap将图片分为确定的前景Fg，确定的背景Bg和unknown未知区域。在已知更多的前景和背景特征信息后，在抠图任务中只需要估计出在unknown区域内前景的不透明度，减少了问题的解空间，能够得到精细准确的抠图结果。此类技术的缺点是需要用户自己提供一张标记精确的三分图trimap。但手动做三分图trimap是一件非常耗费精力和时间的事情，因此使用这类方法要先解决自动化生成准确的trimap的问题。

目前生成trimap的方法可以分为三类。第一类使用专用的设备进行拍摄得到trimap。在“Automatic Natural Video Matting with Depth”、“Automatic TrimapGeneration and Consistent Matting for Light-Field Images”、“Image matting withcolor and depth information”等论文中中，作者提出了使用专门的摄像机获取照片的深度信息生成trimap。但由于平时生活中的照片大多数不是使用这种专门的摄像机进行摄影，因此普适性不强。第二类对图片中某个部分进行膨胀和腐蚀相减得到unknown部分。在论文“Automatic trimap generation for digital image matting”中，使用图像分割的结果膨胀腐蚀生成trimap；在论文“Automatic trimap generation for image matting”中，作者对分类出显著性超像素前景，再对前景部分进行膨胀和腐蚀得到trimap。这类方法没有区分出难度大的头发区域和难度小的衣服身体区域，仅仅对分割结果进行膨胀和腐蚀，膨胀的太多，会导致将前景和背景过度分割到unknown区域，膨胀的太少，会导致头发丝部分没有被包括进unknown区域当中。第三类是使用机器学习的方法，在论文“Deepautomatic portrait matting”、“Salient Image Matting”中使用卷积神经网络对图片进行三分类直接得到trimap，trimap中的unknown区域是前背景的混合，不同图片背景变化大，很难学习到这个类内的共同的特征，另外目前也没有对人像数据标注三分图trimap的数据集，因此三分类很难实现并且得到好的效果。

目前的现有技术之二为无需trimap的抠图方法。由于trimap没有实现自动生成，目前已经有一些无需trimap进行抠图的方法。根据输入原图同时输入的不同提示大致可以分为三类：输入背景，直接输入图片，输入语义分割。第一类使用背景作为提示的有Background matting，输入原图，背景，软分割提示，以及用于视频分割的动作提示。第二类输入单张图片进行抠图，有SHM，MODNet。SHM首先对图片进行三分类生成trimap，然后对trimap中unknown区域进行精细分割。MODNET首先预测人像位置得到人像分割结果，然后由另一个子模块对边缘头发丝部分进行修复。第三类使用语义分割结果mask作为提示的有在MGMatting，输入原图以及图像的分割结果mask，经过编码器和解码器输出matting结果。解码器在图像特征大小为1/8，1/4的尺度上增加侧输出，通过PRM(Progressive RefinementModule逐步改进模块)将上一层的输出作为当前层的指导信息从而引导当前层输出更准确的matting结果。此类技术的缺点是：第一类使用背景作为额外的输入，在实际的应用会很有限，首先是需要另外拍一张没有前景的背景图，因此不能应用于实时抠图，另外这个算法对拍摄环境要求很严格，背景图与原图的灯光，相机位置，相机参数等都要保证尽可能完全一致，这在实际应用中是很难保证的。第二类与第三类方法，都先通过机器学习先对图片进行一次处理，生成下一步需要的提示，生成三分图trimap或语义分割mask。另外使用mask作为提示的方法，没有减少问题的解空间，不能够针对头发部分进行精细的抠图，导致最后对于头发的预测效果不够精确。

发明内容

本发明的目的是克服现有方法的不足，提出了一种自动生成三分图的人像图抠图方法与系统。本发明解决的主要问题，是如何实现自动化生成三分图，从而实现只需要输入原图就能够得到精度高的抠图结果。

为了解决上述问题，本发明提出了一种自动生成三分图的人像图抠图方法，所述方法包括：

收集包括人像图与对应alpha图在内的人像图数据集，并以此构建人像图语义四分类数据集；

利用所述人像图数据集与所述人像图语义四分类数据集对改进的Self-Human-Parsing网络进行训练，得到人像图语义四分类网络Parsing-Net，Parsing-Net的输入为人像图，输出为相应的人像图语义四分类结果；

对所述人像图语义四分类数据集中的每个图进行处理得到包括原图、非头发与非边缘的内部区域AOI、人像语义分割mask在内的AOI数据集，用于训练Mask-NET，之后利用所述AOI数据集输入训练完成的Mask-NET得到初步的人像抠图结果数据集；

对所述初步的人像抠图结果数据集里的每个图进行处理得到包括原图、三分图trimap、alpha图在内的trimap数据集；

利用所述trimap数据集，对以原图与三分图作为输入的抠图网络DIM进行重新训练，使之适用于所述trimap数据集，训练完成的网络命名为Trimap-Net；

输入待处理的人像图到所述Parsing-Net中得到人像图语义四分类；

对所述人像图语义四分类进行处理得到AOI，并结合待处理的人像图原图与对应的mask输入到Mask-Net中得到初步的抠图结果，对结果进行处理生成三分图trimap；

将所述待处理的人像图与所述三分图trimap输入到所述Trimap-Net中得到最终的抠图结果。

优选地，所述收集包括人像图与对应alpha图在内的人像图数据集，并以此构建人像图语义四分类数据集，具体为：

将收集到的包括人像图与对应alpha图在内的人像图数据集输入到已有的人体解析模型与人脸解析模型中分别得到人体解析图与人脸解析图，根据需要，将人脸解析五官和脖子合并到同一类，将人体解析的衣服和身体合并到同一类，得到人像语义四分类图。

优选地，所述对所述人像图语义四分类数据集中的每个图进行处理得到包括原图、非头发与非边缘的内部区域AOI、人像语义分割mask在内的AOI数据集，具体为：

对于所述人像图语义四分类数据集中的每个图，对头发皮肤和衣服区域进行合并得到人像语义分割mask，头发与边缘部分结合得到AOE，AOE与人像语义四分类相减得到非头发与非边缘的内部区域AOI，所述人像图数据集中的所有人像图原图及对应的mask与AOI共同形成AOI数据集。

优选地，所述训练Mask-NET，具体为：

Mask-Net基于MGMatting网络进行改进，在解码器的第一次的输出中结合所述内部区域AOI的语义信息，使得网络在更新时保证内部区域的预测正确性，并且缩小损失函数的计算范围，减少解空间；

Mask-Net的损失函数L_final如下：

其中l表示第l层输出，L_l表示第l层输出的损失函数，ω_l表示权重第一第二和第三层的输出权重分别是1：2：3，目的是给第三层包含更多细节的部分更大的权重，

是第l层输出的预测值，α是最终输出的真实值，g_l表示预测值更新以及损失函数计算的区域，指上一层预测值在0到1之间，相当于三分图trimap的未知区域部分。

优选地，所述对所述初步的人像抠图结果数据集里的每个图进行处理得到包括原图、三分图trimap、alpha图在内的trimap数据集，具体为：

对于所述初步的人像抠图结果数据集里的每个图，将预测值为1的部分设置为三分图trimap中的前景部分，预测值为0的设置为三分图trimap中的背景部分，预测值介于0和1之间的作为三分图trimap的未知区域，得到最终的三分图trimap，所述人像图数据集中的所有人像图原图及对应的三分图trimap与alpha图共同形成trimap数据集。

相应地，本发明还提供了一种自动生成三分图的人像图抠图系统，包括：

人像图数据集构建单元，用于收集包括人像图与对应alpha图在内的人像图数据集，并以此构建人像图语义四分类数据集；

Parsing-Net网络训练单元，用于利用所述人像图数据集与所述人像图语义四分类数据集对改进的Self-Human-Parsing网络进行训练，得到人像图语义四分类网络Parsing-Net，Parsing-Net的输入为人像图，输出为相应的人像图语义四分类结果；

trimap数据集构建单元，用于对所述人像图语义四分类数据集中的每个图进行处理得到包括原图、非头发与非边缘的内部区域AOI、人像语义分割mask在内的AOI数据集，用于训练Mask-NET，之后利用所述AOI数据集输入训练完成的Mask-NET得到初步的人像抠图结果数据集，之后对初步的人像抠图结果数据集里的每个图进行处理得到包括原图、三分图trimap、alpha图在内的trimap数据集；

Trimap-Net网络训练单元，用于利用所述trimap数据集，对以原图与三分图作为输入的抠图网络DIM进行重新训练，使之适用于所述trimap数据集，训练完成的网络命名为Trimap-Net；

人像图抠图单元，用于输入待处理的人像图到所述Parsing-Net中得到人像图语义四分类，之后对人像图语义四分类进行处理得到AOI，并结合待处理的人像图原图与对应的mask输入到Mask-Net中得到初步的抠图结果，对结果进行处理生成三分图trimap，将待处理的人像图与三分图trimap输入到所述Trimap-Net中得到最终的抠图结果。

实施本发明，具有如下有益效果：

本发明使用人体解析的方法利用语义信息解决了自动生成trimap的问题，利用自动生成trimap实现了镂空头发的正确处理，可以更有针对性的对头发和边缘部分进行抠图，从而使人像抠图更准确。

附图说明

图1是本发明实施例的自动生成三分图的人像图抠图方法的总体流程图；

图2是本发明实施例的人像语义四分类示意图；

图3是本发明实施例的AOI生成示意图；

图4是本发明实施例的Mask-Net示意图；

图5是本发明实施例的三分图trimap生成示意图；

图6是本发明实施例的自动生成三分图的人像图抠图系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种自动生成三分图的人像图抠图方法的总体流程图，如图1所示，该方法包括：

S1，收集包括人像图与对应alpha图在内的人像图数据集，并以此构建人像图语义四分类数据集；

S2，利用所述人像图数据集与所述人像图语义四分类数据集对改进的Self-Human-Parsing网络进行训练，得到人像图语义四分类网络Parsing-Net，Parsing-Net的输入为人像图，输出为相应的人像图语义四分类结果；

S3，对所述人像图语义四分类数据集中的每个图进行处理得到包括原图、非头发与非边缘的内部区域AOI、人像语义分割mask在内的AOI数据集，用于训练Mask-NET，之后利用所述AOI数据集输入训练完成的Mask-NET得到初步的人像抠图结果数据集；

S4，对所述初步的人像抠图结果数据集里的每个图进行处理得到包括原图、三分图trimap、alpha图在内的trimap数据集；

S5，利用所述trimap数据集，对以原图与三分图作为输入的抠图网络DIM进行重新训练，使之适用于所述trimap数据集，训练完成的网络命名为Trimap-Net；

S6，输入待处理的人像图到所述Parsing-Net中得到人像图语义四分类；

S7，对所述人像图语义四分类进行处理得到AOI，并结合待处理的人像图原图与对应的mask输入到Mask-Net中得到初步的抠图结果，对结果进行处理生成三分图trimap；

S8，将所述待处理的人像图与所述三分图trimap输入到所述Trimap-Net中得到最终的抠图结果。

步骤S1，具体如下：

针对人像抠图的语义需要，重点是要将难抠的头发部分和非头发部分区分开，将人像图像分割为以下四个区域：头发、皮肤、衣服和背景这四类区域，如图2所示。

人体解析是指将图像中的人分割成多个语义上一致的区域，例如手臂、腿、人脸、头发、衣服等。人脸解析是将图像中人脸的五官，头发，以及脖子区域进行分割。

将收集到的包括300张人像图与对应alpha图在内的人像图数据集输入到已有的人体解析模型(论文“Self-Correction for Human Parsing”)与人脸解析模型(github:Using modified BiSeNet for face parsing in PyTorch)中分别得到人体解析图与人脸解析图，根据需要，将人脸解析五官和脖子合并到同一类，将人体解析的衣服和身体合并到同一类，得到人像语义四分类图；

步骤S2，具体如下：

得到人像图语义四分类数据集后，本实施例在Self-Human-Parsing网络基础上修改网络参数进行训练，原网络是根据LIP中19个类别的数据集进行的训练，因此要适应新的应用需要根据本发明的四分类数据集重新进行训练得到人像图语义四分类网络Parsing-Net，实现了输入一张图片能够输出相应的人像图语义四分类结果。

步骤S3，具体如下：

对于人像图语义四分类数据集中的每个图，对头发皮肤和衣服区域进行合并得到人像语义分割mask，头发与边缘部分结合得到AOE(area of external)，AOE与人像语义四分类相减得到非头发与非边缘的内部区域AOI(area of inner)。AOI生成过程如图3所示。人像图数据集中的所有人像图原图及对应的mask与AOI共同形成AOI数据集。

之后是利用AOI数据集训练Mask-NET：

Mask-Net基于MGMatting网络进行改进，如图4所示。在对MGMatting的模型结果进行测试时发现，MGMatting对于一些人像图片，内部预测会有缺失。对其网络结构进行分析发现，MGMatting的解码器中根据上一层的输出计算出一个区域g_l。g_l的其中一个作用在于使用当前层输出更新上一层输出中g_l区域的预测值，另一个作用是监督信息loss的计算区域。而内部预测有所缺失的问题在于，如果在第一层输出α₀将前景(应该为1值)错误地预测成背景(0值)，或者将背景(应该为0值)预测成前景(1值)，在后续的损失计算以及预测的更新都会被忽略不计，将错误传递到最后的预测结果。因此，针对MGMatting网络的不足，对其进行改进，在解码器的第一次的输出中结合所述内部区域AOI的语义信息，使得网络在更新时保证内部区域的预测正确性，并且缩小损失函数的计算范围，减少解空间；

Mask-Net的损失函数L_final如下：

步骤S4，具体如下：

如图5所示，对于初步的人像抠图结果数据集里的每个图，将预测值为1的部分设置为三分图trimap中的前景部分，预测值为0的设置为三分图trimap中的背景部分，预测值介于0和1之间的作为三分图trimap的未知区域，得到最终的三分图trimap，人像图数据集中的所有人像图原图及对应的三分图trimap与alpha图共同形成trimap数据集。

步骤S5，具体如下：

本实施例中使用的以原图与三分图作为输入的抠图网络是DIM网络，这个网络原先使用的训练数据三分图是直接使用alpha标签生成的(也就是不确定区域只包括头发和边缘区域)，因此训练出来的网络是只针对头发丝部分，不适用于本方法的三分图trimap数据。因此针对本方法的生成的三分图trimap，对DIM网络进行重新训练，以适应本方法整个人像抠图的过程，能够更好的针对本方法的三分图trimap数据中不确定区域进行预测。

相应地，本发明还提供了一种自动生成三分图的人像图抠图系统，如图6所示，包括：

人像图数据集构建单元1，用于收集包括人像图与对应alpha图在内的人像图数据集，并以此构建人像图语义四分类数据集；

Parsing-Net网络训练单元2，用于利用所述人像图数据集与所述人像图语义四分类数据集对改进的Self-Human-Parsing网络进行训练，得到人像图语义四分类网络Parsing-Net，Parsing-Net的输入为人像图，输出为相应的人像图语义四分类结果；

trimap数据集构建单元3，用于对所述人像图语义四分类数据集中的每个图进行处理得到包括原图、非头发与非边缘的内部区域AOI、人像语义分割mask在内的AOI数据集，用于训练Mask-NET，之后利用所述AOI数据集输入训练完成的Mask-NET得到初步的人像抠图结果数据集，之后对初步的人像抠图结果数据集里的每个图进行处理得到包括原图、三分图trimap、alpha图在内的trimap数据集；

Trimap-Net网络训练单元4，用于利用所述trimap数据集，对以原图与三分图作为输入的抠图网络DIM进行重新训练，使之适用于所述trimap数据集，训练完成的网络命名为Trimap-Net；

人像图抠图单元5，用于输入待处理的人像图到所述Parsing-Net中得到人像图语义四分类，之后对人像图语义四分类进行处理得到AOI，并结合待处理的人像图原图与对应的mask输入到Mask-Net中得到初步的抠图结果，对结果进行处理生成三分图trimap，将待处理的人像图与三分图trimap输入到所述Trimap-Net中得到最终的抠图结果。

因此，本发明使用人体解析的方法利用语义信息解决了自动生成trimap的问题，利用自动生成trimap实现了镂空头发的正确处理，可以更有针对性的对头发和边缘部分进行抠图，从而使人像抠图更准确。

以上对本发明实施例所提供的一种自动生成三分图的人像图抠图方法与系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自动生成三分图的人像图抠图方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种自动生成三分图的人像图抠图方法，其特征在于，所述收集包括人像图与对应alpha图在内的人像图数据集，并以此构建人像图语义四分类数据集，具体为：

3.如权利要求1所述的一种自动生成三分图的人像图抠图方法，其特征在于，所述对所述人像图语义四分类数据集中的每个图进行处理得到包括原图、非头发与非边缘的内部区域AOI、人像语义分割mask在内的AOI数据集，具体为：

4.如权利要求1所述的一种自动生成三分图的人像图抠图方法，其特征在于，所述训练Mask-NET，具体为：

Mask-Net的损失函数L_final如下：

5.如权利要求1所述的一种自动生成三分图的人像图抠图方法，其特征在于，所述对所述初步的人像抠图结果数据集里的每个图进行处理得到包括原图、三分图trimap、alpha图在内的trimap数据集，具体为：

6.一种自动生成三分图的人像图抠图系统，其特征在于，所述系统包括：