CN113034517A

CN113034517A - 基于生成对抗模型的全自动抠图方法及装置、介质和设备

Info

Publication number: CN113034517A
Application number: CN202110346470.3A
Authority: CN
Inventors: 周泽洋; 韩国强
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-25
Anticipated expiration: 2041-03-31
Also published as: CN113034517B

Abstract

本发明公开了一种基于生成对抗模型的全自动抠图方法及装置、介质和设备，方法首先计算初始的待抠图输入图片所对应的隐空间编码，由生成对抗模型的生成器将隐空间编码转换成输入图片的替代图片；然后将该替代图片输入至分割网络中，得到三元分割图和置信度，计算熵最小化损失来迭代优化隐空间编码；将三元分割图和替代图片一起输入到抠图模块，得到图片的主体区域；输入图片、主体区域和任意一张背景图片再合成新图片，并输入至生成对抗模型的判别器，根据熵最小化损失和对抗损失迭代优化隐空间编码。优化后的隐空间编码能更好地适应分割网络和抠图模块，最终得到的主体区域即是抠图结果。本发明优化了抠出的主体区域，可实现全自动抠图。

Description

基于生成对抗模型的全自动抠图方法及装置、介质和设备

技术领域

本发明涉及图像抠图技术领域，特别是一种基于生成对抗模型的全自动抠图方法及装置、介质和设备。

背景技术

图像抠图一直是影视后期制作里一个非常繁重的任务，其目的是框选出图像中主体(通常是人物)的区域，再结合其他背景图像，来替换主体所处的场景。传统图像抠图采用人工的方式，将主体从图像中框选出来，这种方法速度慢，效果差，难以处理毛发等细小的区域。现代影视产业通常采用绿幕抠图技术，将拍摄场景局限在一块绿色幕布前，抠图时将绿色区域之外的其他区域设置为主体区域，达到框选出主体的目的。这种方法速度快，效果好，但由于需要在绿幕前拍摄，同时需要专业的设备予以辅助，对于小型企业来说门槛较高。

近些年来深度学习技术日渐火热，大量基于深度学习技术的新方法在人脸识别，图像生成，文本翻译，图像分割等领域里上达到远超传统方法的效果。深度学习技术从大量的数据中学习他们共同的特征，同时拟合数据中的分布，从高级语义信息层面里对输入的内容作出判断，因此深度学习技术十分依赖于目标任务相关的数据集。

如何使用深度学习技术来对图像进行抠图，这个问题受到了学术界和工业界广泛的关注。随着Adobe公司于2017年公开了可用于深度学习技术的图像抠图数据集后，大量基于深度学习技术来解决图像抠图任务的方法涌现了出来，这些方法往往能达到和绿幕抠图一样的准确度，而且不需要在绿幕前进行拍摄，因此，基于深度学习技术的方法大大解放了拍摄环境，不需要专业的设备，也能快速的从拍摄图像中框选出主体区域，实现背景替换等影视后期特效。

目前基于深度学习技术来对图像进行抠图的方法，尽管摆脱了在绿色幕布前拍摄的要求，但仍然需要专业人员输入辅助信息，即三元分割图。三元分割图标志了输入图像的前景部分(主体部分)，背景部分，和混合部分(不确定部分)。利用深度学习技术来训练一个分割模型，对图像进行自动分割，也是一个受到学术界和工业界广泛关注的问题。然而，目前分割模型产生的用于图像抠图任务所需的三元分割图往往不准，因此需要专业人员手动标注。对于视频而言，专业人员需要对每一帧图像都手工标注三元分割图，大大降低了抠图的处理速度。因此，研究如何更好的完善这些基于深度学习技术的方法，使得图像抠图无需专业人员参与，对于学术界和工业界都具有十分重要的意义。

发明内容

本发明的第一目的在于解决现有技术的不足，提出一种基于生成对抗模型的全自动抠图方法，可精确获取到三元分割图，实现全自动抠图。

本发明的第二目的在于提出一种基于生成对抗模型的全自动抠图装置。

本发明的第三目的在于提出一种计算机可读存储介质。

本发明的第四目的在于提出一种计算设备。

本发明的第一目的通过下述技术方案实现：一种基于生成对抗模型的全自动抠图方法，包括：

第一阶段：

1-1)随机产生一段高斯噪声作为隐空间编码；

1-2)将隐空间编码输入到生成对抗模型的生成器中，生成器输出该隐空间编码对应的一张图片；

1-3)计算生成器输出图片和待抠图的输入图片的均方误差损失和感知损失，并根据均方误差损失和感知损失对隐空间编码进行更新，经过多次迭代更新后，得到优化的隐空间编码，并将优化的隐空间编码作为初始的待抠图输入图片所对应的隐空间编码；

第二阶段：

2-1)将初始的输入图片所对应的隐空间编码输入到生成对抗模型的生成器中，生成器输出一张图片，该图片为输入图片的替代图片；

2-2)将该替代图片输入至分割网络中，分割网络产生三元分割图和三元分割图的置信度，并根据三元分割图的置信度计算熵最小化损失；

2-3)将三元分割图和替代图片均输入到抠图模块中，得到图片的主体区域；

2-4)主体区域再结合输入图片和任意一张背景图片，得到一张新图片，将该新图片输入至生成对抗模型的判别器中，计算对抗损失，根据熵最小化损失和对抗损失对隐空间编码进行更新，经过多次迭代更新后，得到最终待抠图的输入图片所对应的隐空间编码；

2-5)重复步骤2-1)～2-3)，得到图片的主体区域，该主体区域即是最终的抠图结果。

优选的，生成对抗模型采用StyleGan2模型，分割网络采用Deeplab模型，抠图模块采用DeepImageMatting模型。

优选的，在步骤1-1)中，生成一段服从高斯分布的随机变量作为生成对抗模型的隐空间编码，这段随机变量为一个512维的向量，均值为0，方差为1。

优选的，在步骤1-3)中，均方误差损失Loss_mse的计算公式如下：

感知损失Loss_percept的计算公式如下：

其中，i表示像素位置，n表示图像的像素总个数，I_in表示输入图像，I₀表示步骤1-2)中生成器输出的图像，Φ(·)代表在ImageNet上训练好的VGG-16网络的计算；

之后计算隐空间编码处对应均方误差损失和感知损失的梯度，根据得到的均方误差损失和感知损失，沿梯度减小的方向更新隐空间编码，直至达到预设的迭代次数，使得1-2)中生成器输出的图片与输入图片在视觉上一致。

优选的，在步骤2-2)中，熵最小化损失Loss_entropy的计算公式为：

其中，i表示像素位置，n表示图像的像素总个数，P表示该像素分割结果的置信度。

优选的，在步骤2-4)中，对抗损失Loss_D的计算公式为：

Loss_D＝-log(1-D(I_in))

其中，D(·)代表判别器的计算，I_in代表输入到判别器的图像；

之后计算隐空间编码处对应熵最小化损失和对抗损失的梯度，根据熵最小化损失和对抗损失，沿梯度减小的方向更新隐空间编码，直至达到预设的迭代次数，得到最终的输入图片所对应的隐空间编码。

本发明的第二目的通过下述技术方案实现：一种基于生成对抗模型的全自动抠图装置，包括生成对抗网络模块、图像逆转换模块、分割模块、抠图模块和图像合成模块，生成对抗网络模块进一步分为生成器模块和判别器模块；

其中，生成器模块用于以随机产生一段高斯噪声作为隐空间编码，将隐空间编码转换成对应的一张图片，以及用于将待抠图的输入图片所对应的隐空间编码转换成待抠图输入图片的替代图片；

图像逆转换模块连接生成器模块，用于计算生成器模块输出图片和待抠图的输入图片的均方误差损失和感知损失，并根据均方误差损失和感知损失对隐空间编码进行更新，经过多次迭代更新后，得到优化的隐空间编码，并将优化的隐空间编码作为初始的待抠图输入图片所对应的隐空间编码；

图像逆转换模块连接分割模块和判别器模块，用于根据分割模块输出的熵最小化损失和判别器模块输出的对抗损失对隐空间编码进行更新，经过多次迭代更新后，得到最终的输入图片所对应的隐空间编码；

分割模块连接生成器模块，用于根据替代图片产生三元分割图和三元分割图的置信度，并根据三元分割图的置信度计算熵最小化损失；

抠图模块连接分割模块，用于以三元分割图和替代图片作为输入，得出图片的主体区域，当替代图片由最终的输入图片所对应的隐空间编码转换而成时，抠图模块所得到的图片的主体区域即是最终的抠图结果；

图像合成模块连接抠图模块，用于结合输入图片、抠图模块输出的图片的主体区域与任意一张背景图片，得到一张新图片；

判别器模块连接图像合成模块，用于以新图片作为输入，计算出对抗损失。

本发明的第三目的通过下述技术方案实现：一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现本发明第一目的所述的基于生成对抗模型的全自动抠图方法。

本发明的第四目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的基于生成对抗模型的全自动抠图方法。

本发明相对于现有技术具有如下的优点及效果：

本发明提供一种基于生成对抗模型的全自动抠图方法，解决了基于深度学习技术的分割模型产生的三元分割图不准确的问题。该方法从输入图像入手，改变输入图像，来显著提高三元分割图的准确度，使得三元分割图不再依赖于专业人员的手工标注，实现了全自动抠图，且在大大降低工作量的同时，也保证了抠图的质量。本发明弥补了该领域中的研究空白，对学术界，工业界都有重大意义。

附图说明

图1为本发明基于生成对抗模型的全自动抠图方法的流程图。

图2为本发明实施例1中第一阶段的流程图。

图3为本发明实施例1中第二阶段的流程图。

图4为本发明实施例1中生成对抗模型的结构示意图。

图5为本发明实施例1中分割网络的结构示意图。

图6为本发明实施例1中抠图模块的结构示意图。

图7为原图和主体区域的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例提供了一种基于生成对抗模型的全自动抠图方法，可参见图1。该方法可分为第一阶段和第二阶段，第一阶段即图像逆转换处理阶段，用于得到待抠图的输入图像(即原图)所对应的隐空间编码；第二阶段即全自动抠图阶段，用于得到抠图结果(输入图像的主体区域)。

第一阶段：

1-1)如图2所示，随机生成一段高斯噪声作为生成对抗模型的隐空间编码，在本实施例中，这段高斯噪声为一个512维的服从高斯分布的向量，均值为0，方差为1。

1-2)将隐空间编码输入到生成对抗模型的生成器中，生成器输出该隐空间编码对应的一张图片。在本实施例中，生成对抗模型可采用StyleGan2模型，可参见图4。

1-3)图片逆转换过程：

先计算生成器输出图片和待抠图输入图片的均方误差损失和感知损失，均方误差损失Loss_mse的计算公式如下：

感知损失Loss_percept的计算公式如下：

式中，i表示像素位置，n表示图像的像素总个数，I_in表示输入图像，I₀表示步骤1-2)中生成器输出的图像，Φ(·)代表在ImageNet上训练好的VGG-16网络的计算。

然后根据均方误差损失和感知损失对隐空间编码进行更新，经过多次迭代更新后，得到优化的隐空间编码，即图1中的(w，n)。具体来说，先计算隐空间编码处对应均方误差损失和感知损失的梯度，再根据得到的均方误差损失和感知损失，沿梯度减小的方向更新隐空间编码，直至达到预设的迭代次数(如本实施例为5000次)，使得1-2)中生成器输出的图片与输入图片在视觉上一致。优化的隐空间编码即作为初始的待抠图输入图片所对应的隐空间编码。

第二阶段：

2-1)如图3所示，将初始的输入图片所对应的隐空间编码输入到生成对抗模型的生成器中，生成器输出一张图片，该图片为输入图片的替代图片。

2-2)将该替代图片输入至分割网络中，分割网络产生三元分割图，然后根据三元分割图的置信度计算熵最小化损失。

这里，分割网络可采用如图5所示的Deeplab模型。

熵最小化损失Loss_entropy的计算公式为：

2-3)将三元分割图和替代图片均输入到抠图模块中，得到图片的主体区域。抠图模块可采用如图6所示的DeepImageMatting模型。

2-4)主体区域再结合输入图片和任意一张背景图片，得到一张新图片。

具体来说，如图7所示，图7左边小图为输入图像，即原图；右边小图为抠图模型输出结果，可以认为白色部分是1，黑色部分是0，中间的灰色部分是0～1之间的数字，白色部分即表示主体的区域(前景)，黑色部分即表示背景。主体区域结合输入图片和任意一张背景图片时，具体是：将右边小图乘上左边小图来得到没有背景的人物图片；把1-右边小图(减完后白色部分是0，黑色部分是1)乘上任意一张背景图片来得到只有背景的图片；然后把没有背景的人物图片和只有背景的图片这两张图结合起来，得到替换了背景的新图片。

将该新图片输入至生成对抗模型的判别器中，判断该图片是否真实，计算出对抗损失。

其中，对抗损失Loss_D的计算公式为：

Loss_D＝-log(1-D(I_in))

式中，D(·)代表判别器的计算，I_in代表输入到判别器的图像；

然后，根据熵最小化损失和对抗损失对隐空间编码进行更新，经过多次迭代更新后，得到最终待抠图的输入图片所对应的隐空间编码，即图1中的(w*，n*)。更新过程具体为：先计算隐空间编码处对应熵最小化损失和对抗损失的梯度，再根据熵最小化损失和对抗损失，沿梯度减小的方向更新隐空间编码，直至达到预设的迭代次数(如本实施例为500次)。最终的隐空间编码所对应的图片与待抠图的输入图片在视觉上一致的同时，产生的三元分割图置信度更高，更准确，更有利于全自动抠图。

2-5)重复步骤2-1)～2-3)，将步骤2-3)得到的图片的主体区域作为最终的抠图结果。

另外，本实施例还与IndexNet，GCA，DIM这些主流抠图方法进行抠图结果对比，如表1所示。

表1

从表1可以看出，本实施例抠图结果的绝对误差和SAD，均方误差MSE的数值都最小，这说明本实施例在不需要专业人员手动标注三元分割图的前提下，产生的抠图结果优于其他方法，抠图准确度最高。

实施例2

本实施例提供了一种基于生成对抗模型的全自动抠图装置，可实现实施例1所述的基于生成对抗模型的全自动抠图方法。装置具体包括生成对抗网络模块、图像逆转换模块、分割模块、抠图模块和图像合成模块，生成对抗网络模块进一步分为生成器模块和判别器模块。

其中，生成器模块用于以随机产生一段高斯噪声作为隐空间编码，将隐空间编码转换成对应的一张图片，以及用于将待抠图的输入图片所对应的隐空间编码转换成待抠图输入图片的替代图片。

图像逆转换模块连接生成器模块，用于计算生成器模块输出图片和待抠图的输入图片的均方误差损失和感知损失，并根据均方误差损失和感知损失对隐空间编码进行更新，经过多次迭代更新后，得到优化的隐空间编码，并将优化的隐空间编码作为初始的待抠图输入图片所对应的隐空间编码。

图像逆转换模块连接分割模块和判别器模块，用于根据分割模块输出的熵最小化损失和判别器模块输出的对抗损失对隐空间编码进行更新，经过多次迭代更新后，得到最终的输入图片所对应的隐空间编码。

分割模块连接生成器模块，用于根据替代图片产生三元分割图，然后根据三元分割图的置信度计算熵最小化损失。

抠图模块连接分割模块，用于以三元分割图和替代图片作为输入，得出图片的主体区域，当替代图片由最终的输入图片所对应的隐空间编码转换而成时，抠图模块所得到的图片的主体区域即是最终的抠图结果。

图像合成模块连接抠图模块，用于结合输入图片、抠图模块输出的图片的主体区域与任意一张背景图片，得到一张新图片。

这里，因为图像逆转换模块的输入为生成器的输出，图像逆转换模块的输出为均方误差损失和感知损失。图像逆转换模块是通过链式求导法则计算输入生成器模块的隐空间编码相对于图像逆转换模块输出的均方误差损失和感知损失的偏导。基于此，不断迭代改变隐空间编码，减小均方误差和感知损失，可以改变图像逆转换模块的输入图片，可以进一步反过来改变隐空间编码，使得最终的隐空间编码对应的图片可以和原始的待抠图输入图片一样。

而分割模块的输入为生成对抗网络模块生成器的输出，分割模块的输出包括三元分割图和三元分割图的像素置信度两部分，分割模块通过链式求导法则计算生成器的输出相对于分割模块输出的像素置信度的偏导，进而可以求得生成对抗网络的输入隐空间编码相对于分割模块输出的三元分割图的置信度的偏导。基于此，不断迭代改变隐空间编码，可以使三元分割图的置信度增大，从而产生更准确，置信度更高的三元分割图，更有利于实现精确地全自动抠图。

判别器模块的输入为图像合成模块的输出，图像合成模块的输入为随机的背景图像和抠图模块的输出，抠图模块的输入为原始输入图片的替代图片和分割模块的输出。由于分割模块的输出相对于隐空间编码的偏导可以在分割模块中先求得，判别器模块则可以通过链式求导法则计算出其输出与隐空间编码的偏导。通过不断迭代调整隐空间编码，增大判别器模块的输出，让判别器认为合成的图片是真实拍摄的图片，从而可以让抠图模块产生更准确的主体区域。

在此需要说明的是，本实施例的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3

本实施例提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的基于生成对抗模型的全自动抠图方法，具体为：

第一阶段：

1-1)随机产生一段高斯噪声作为隐空间编码；

第二阶段：

2-2)将该替代图片输入至分割网络中，分割网络产生三元分割图，然后根据三元分割图的置信度计算熵最小化损失；

本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例提供了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的基于生成对抗模型的全自动抠图方法，具体为：

第一阶段：

1-1)随机产生一段高斯噪声作为隐空间编码；

第二阶段：

本实施例中所述的计算设备可以是台式电脑、笔记本电脑或其他具有处理器功能的终端设备。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于生成对抗模型的全自动抠图方法，其特征在于，包括：

第一阶段：

1-1)随机产生一段高斯噪声作为隐空间编码；

第二阶段：

2.根据权利要求1所述的全自动抠图方法，其特征在于，生成对抗模型采用StyleGan2模型，分割网络采用Deeplab模型，抠图模块采用DeepImageMatting模型。

3.根据权利要求1所述的全自动抠图方法，其特征在于，在步骤1-1)中，生成一段服从高斯分布的随机变量作为生成对抗模型的隐空间编码，这段随机变量为一个512维的向量，均值为0，方差为1。

4.根据权利要求1所述的全自动抠图方法，其特征在于，在步骤1-3)中，均方误差损失Loss_mse的计算公式如下：

感知损失Loss_percept的计算公式如下：

5.根据权利要求1所述的全自动抠图方法，其特征在于，在步骤2-2)中，熵最小化损失Loss_entropy的计算公式为：

6.根据权利要求1所述的全自动抠图方法，其特征在于，在步骤2-4)中，对抗损失Loss_D的计算公式为：

Loss_D＝-log(1-D(I_in))

7.一种基于生成对抗模型的全自动抠图装置，其特征在于，包括生成对抗网络模块、图像逆转换模块、分割模块、抠图模块和图像合成模块，生成对抗网络模块进一步分为生成器模块和判别器模块；

8.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1至6中任一项所述的基于生成对抗模型的全自动抠图方法。

9.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至6中任一项所述的基于生成对抗模型的全自动抠图方法。