CN109712145B

CN109712145B - 一种图像抠图方法及系统

Info

Publication number: CN109712145B
Application number: CN201811435384.4A
Authority: CN
Inventors: 郑元杰; 王钰; 连剑; 赵艳娜; 闫芳
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2021-01-08
Anticipated expiration: 2038-11-28
Also published as: CN109712145A

Abstract

本公开提供了一种图像抠图方法及系统。其中，图像抠图方法，包括步骤1：利用图像训练集训练图像抠图模型；图像训练集中的样本包括原始图像及与其对应的三分图、金标准遮罩和金标准组合遮罩；所述图像抠图模型包括深度特征提取模块，用于学习原始图像的语义特征和细节信息特征；相似度学习模块，用于融合后的语义特征和细节信息特征，得到像素点的相似度关系；遮罩传播模块，用于根据三分图和像素点的相似度关系，通过传播算法求得每一个像素点的遮罩值，输出原始图像对应的阿尔法遮罩图；步骤2：将待抠图的原始图像以及与其相对应的三分图输入至训练完成的图像抠图模型，输出待抠图的原始图像对应的阿尔法遮罩图。

Description

一种图像抠图方法及系统

技术领域

本公开属于数字图像处理领域，尤其涉及一种图像抠图方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

抠图技术指把任意形状的前景物体从原始图像中提取出来的一项技术，是现代影视制作中不可或缺的技术手段，广泛应用于杂志设计、平面艺术、广告、影视后期制作等领域。图像抠图技术是把图像或影像中的某一部分从原始图像或影像中分离出来，现今已成为视觉特效制作中的一项关键技术。总体来说，对自然图像前景、后景的提取与合成，随着视频制作、基于图像的建模和绘制、视频压缩等应用领域的开拓而变得更加迫切。

抠图问题提出至今几十年的时间，1984年学者Porter和Duff首次从数学上定义了抠图问题，对于一幅原始图像I可以分解完一幅前景图像F和一幅后景图像B，在α遮罩下的线性组合I＝αF+(1-α)B(如图2所示)，其中α取值范围是[0,1]，当α＝0或1时，图像中α所对应的像素分别属于绝对前景或后景。自然图像中绝大部分区域属于绝对前景或后景，对于介于两者之间的边缘区域，如毛发等，像素颜色往往出现混合，此时的α值介于0到1之间的实数。该技术的难点是：对于彩色图像，合成公式是有I、F、B三个通道合成的公式组成的线性方程组，因此彩色图像的抠图问题是已知3个变量的严重欠约束问题，因此使得求得精确的α值变得非常困难。

针对图像抠图已经提出了很多方法，发明人发现没有一种抠图方法能在精度和速度方面都达到理想效果。如基于采样的方法、基于传播的方法、将采样和传播结合的方法的抠图方法，此类方法依赖于人工设计的简单特征，如颜色等信息，该类方法求解的准确性受假设条件限制，将此类方法应用于实际自然图像抠图时往往存在一定的局限性，实用性不高；随着近年来深度学习技术风靡各个领域，出现了一些基于深度学习网络模型的图像抠图技术，此类方法通常直接逐像素求解遮罩，随着图像尺寸的增大，计算复杂度与参数复杂度成指数级上升。另一方面，当抠图的前景与后景具有相似色调时，现有抠图技术难以准确的区分相似色调的像素点属于前景还是后景。

发明内容

根据本公开的一个或多个实施例的一个方面，提供一种图像抠图方法，其尤其适用于前后景相似色调的图像，能够保证抠图结果的准确率和精度。

本公开的一种图像抠图方法，包括：

步骤1：利用图像训练集训练图像抠图模型；其中，图像训练集中的样本包括原始图像及与其对应的三分图、金标准遮罩、金标准组合遮罩；

所述图像抠图模型包括深度特征提取模块，其用于学习原始图像的语义特征和细节信息特征；相似度学习模块，其用于融合后的语义特征和细节信息特征，得到像素点的相似度关系；遮罩传播模块，其用于根据三分图和像素点的相似度关系，通过传播算法求得每一个像素点的遮罩值，输出原始图像对应的阿尔法遮罩图；

步骤2：将待抠图的原始图像以及与其相对应的三分图输入至训练完成的图像抠图模型，输出待抠图的原始图像对应的阿尔法遮罩图。

其中，三分图为人工标注绝对背景、绝对后景和未知区域的图像，与原始图像等大小，其中绝对前景像素点值标记为1，绝对后景像素点值标记为0，未知区域的值标记为0.5；

金标准遮罩是指该原始图像对应的标准分割阿尔法遮罩图，与原始图像等大小，每一个像素点位置表示原图像该位置像素属于前景的概率；

金标准组合遮罩是指原始图像提取出的标准前景图组合新的后景图后得到的标准图像，可用于其他方法提取到前景图后组合同一后景图后逐像素比较结果。

在一个或多个实施例中，所述步骤1中，利用图像训练集训练图像抠图模型的过程，包括：

步骤1.1：将图像训练集中的样本输入至深度特征提取模块中，学习得到语义特征和细节特征信息；

步骤1.2：将任一像素点的语义特征和细节特征信息首尾连接进行融合，通过相似度学习模块求得任意两个像素之间的相似度矩阵；

步骤1.3：根据三分图和相似度矩阵，在遮罩传播模块中通过传播算法求得未知区域的阿尔法遮罩值；

步骤1.4：计算总损失并应用于整个图像抠图模型的反向传播；总损失包括两部分损失，其中，一部分是阿尔法遮罩与金标准遮罩之间的损失，另一部分是阿尔法遮罩组合图像与金标准组合图之间的损失。

在一个或多个实施例中，在所述步骤1.1中，所述深度特征提取模块为深度学习网络。

在一个或多个实施例中，所述深度学习网络包括语义特征提取分支和细节特征提取分支；所述语义特征提取分支采用Segnet网络结构，用来提取图像的语义特征信息；所述细节特征提取分支包括3个卷积层，用来提取边缘及棱角细节信息。

在一个或多个实施例中，所述相似度学习模块包括1个卷积层和1个指数层。

本公开还提供了一种图像抠图系统，其尤其适用于前后景相似色调的图像，能够保证抠图结果的准确率和精度。

本公开的一种图像抠图系统，包括：

图像抠图模型训练模块，其用于利用图像训练集训练图像抠图模型；其中，图像训练集中的样本包括原始图像及与其对应的三分图，所述三分图为人工标注绝对背景、绝对后景和未知区域的图像；

阿尔法遮罩图输出模块，其用于将待抠图的原始图像以及与其相对应的三分图输入至训练完成的图像抠图模型，输出待抠图的原始图像对应的阿尔法遮罩图。

在一个或多个实施例中，所述遮罩传播模块，还用于计算总损失并应用于整个图像抠图模型的反向传播；总损失包括两部分损失，其中，一部分是阿尔法遮罩与金标准遮罩之间的损失，另一部分是阿尔法遮罩组合图像与金标准组合图之间的损失。

与现有技术相比，本公开的有益效果是：

(1)在处理效果上，本公开提出了一种基于深度网络模型融合传播算法的抠图框架，该框架将相似度学习模块和遮罩传播模块融入到深度学习网络中。该模型能够自动完成对自然图像的抠图，尤其对于前景与后景具有相似色调的图像中，能够得到较高的抠图精度。

(2)在适用性和扩展性上，本公开建立的模型，证明了传播算法具有可导性，可以融入到深度网络模型中去。同时本公开的抠图方法具有一定的可扩展性，传播算法不仅可以应用于抠图技术，还可以应用于其他图像处理任务，如图像着色、图像分割，在这些领域本公开提出的网络模型与证明过程均有一定的借鉴意义。

(3)在运算速度上，因本公开仅对未知区域的阿尔法遮罩值进行预测，而不需要估计每一像素点的阿尔法遮罩值，网络模型训练复杂度低，因此计算速度较快。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开的图像抠图方法流程图；

图2是抠图技术的原始图像I、前景图像F与后景图像B线性关系公式；

图3是本公开提出抠图深度网络模型框架示意图；

图4是本模型深度特征提取模块网络结构示意图；

图5是本模型相似度学习模块网络结构示意图；

图6是本模型遮罩传播模块结构示意图；

图7是本模型有关Loss计算模块示意图；

图8是本模型方法在手工数据集上与其他方法抠图方法均方误差比较；

图9是本模型方法在手工数据集上与其他方法抠图方法绝对误差和比较；

图10是展示利用本公开以及其他抠图方法的抠图可视化结果图比较。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

三分图为人工标注绝对背景、绝对后景和未知区域的图像，与原始图像等大小，其中绝对前景像素点值标记为1，绝对后景像素点值标记为0，未知区域的值标记为0.5；

图1是本公开的一种图像抠图方法流程图。

如图1所示，本公开的一种图像抠图方法，包括：

步骤1：利用图像训练集训练图像抠图模型；其中，图像训练集中的样本包括原始图像及与其对应的三分图、金标准遮罩和金标准组合遮罩，所述三分图为人工标注绝对背景、绝对后景和未知区域的图像；

所述图像抠图模型包括深度特征提取模块，其用于学习原始图像的语义特征和细节信息特征；相似度学习模块，其用于融合后的语义特征和细节信息特征，得到像素点的相似度关系；遮罩传播模块，其用于根据三分图和像素点的相似度关系，通过传播算法求得每一个像素点的遮罩值，输出原始图像对应的阿尔法遮罩图。

图像训练集中的样本来自Alphamatting.com网站上的数据集和自定义的数据集，Alphamatting数据集包含27张训练图像和8张测试图像，自定义的数据集包含46张图像，这些图像均有抠图后前景和后景的金标准结果图。然后，将这些图像的前景图与500张室内场景图像与500张室外场景图像进行组合，通过组合后进行三个角度的不同旋转，这样能够得到24.3千张图像，其中15万张图像作为训练集，9.3万张图像作为测试集。

同时对于每一张图像都配有与其对应的三分图，所谓三分图，即是通过人工标注的部分绝对前景、绝对后景和未知区域，对于绝对前景，在三分图中表示为白色，取值为1；对于绝对后景在三分图中表示为具体地，所述步骤1中，利用图像训练集训练图像抠图模型的过程，包括：

黑色，取值为0；对于未知区域在三分图中表示为灰色，取值为0.5。

深度学习模型分为两个分支，包括语义特征提取分支和细节特征提取分支，如图4所示。语义特征提取分支采用的是Segnet网络结构，主要用来提取图像的语义特征信息，包括26个卷积层和5个池化层、5个上池化层。其中前13个卷积层采用的是VGG16的前13个卷积层，卷积核大小为3×3，池化层的核大小为2×2，步长为2，后13个卷积层才用与其分别对应的卷积层。细节特征提取分支包括3个卷积层，用来提取边缘、棱角等细节信息。提取到语义特征的维度用T_s表示，提取到细节信息的特征维度用T_l表示。

具体地，输入为所有训练集图像，包括与其对应的三分图，如图4所示。对于每一张图像，将其三分图作为一个第四通道附加于图像中，输入后进入深度特征提取模块进行特征提取。在语义特征提取分支，首先经过编码阶段的卷积池化操作，然后经过与其对应的解码过程中的卷积上池化操作，最后每一个像素点得到T_s维的语义特征向量；在细节特征提取分支，经过三个卷积层进行卷积，最后每一个像素点得到T_l维的细节特征向量。

相似度学习模块主要包括1个卷积层和1个指数层。将提取得到的每一个像素的语义特征和细节特征首尾相连在一起构成T_s+T_l维度的特征向量，对于任意一对像素将其特征再次首尾相连在一起构成2(T_s+T_l)维度的特征向量。这里为了减少计算复杂度，同时考虑位置因素，本方法对于某像素点，只计算该像素点周围4个像素点的相似度信息，构成N_n×2(T_s+T_l)维度的特征。最后输出是一个(N_rN_c)×(N_rN_c)维度的相似度矩阵W，W是一个对称矩阵，由于每个像素只计算与周围邻域内像素点的相似性，因此W具有稀疏性。

具体地，相似度学习模块输入是语义特征信息和细节特征信息融合后的图像总特征，对于每一个像素具有语义特征维度为T_s，细节特征维度为T_l。将每一个像素的语义特征和细节特征首尾相连在一起构成T_s+T_l维度的特征向量，对于任意一对像素将其特征再次首尾相连在一起构成2(T_s+T_l)维度的特征向量。在这里为减少复杂度，只计算每一个像素与其周围像素计算相似度，这里相似度的计算通过一个卷积层和一个指数层实现，如图5所示，卷积层的卷积核大小为1×1，共有2个卷积核。所有的相似度值通过一个对称的稀疏矩阵W表示，W的维度为(N_rN_c)×(n_rN_c)，只有在每个像素点与其领域内像素有值，其他位置的值均为0。

传播算法是Levin在2008年提出的一种方法，其目标函数如下：

其中，α表示一个矩阵，用于存储预测得到的阿尔法遮罩里的所有像素点位置的遮罩值；T表示相应矩阵的转置；α^*表示该原始图像的金标准遮罩；L是相似度矩阵W的拉普拉斯矩阵，维度为(N_rN_c)×(N_rN_c)，满足于L＝D-W，其中矩阵D表示相似度矩阵W的度，即D中每一个对角线元素等于W中相对应行元素的和。C是一个(N_rN_c)×(N_rN_c)大小的对角线矩阵，表示任意两个像素之间的关系，绝对前景或绝对后景中像素点到未知区域中像素点的像素关系值为0，其余都设定为0.8。

然后，针对上述目标函数一种常用的解决方法如下：

α＝(L+C)^-1Cα^*

＝(D-W+C)^-1Cα^*

通过公式推导，将α对W_ij中的每一个元素求偏导，得到如下公式，可以有效的证明遮罩传播模块具有可导性，可以融入到网络模型的反向传播过程中：

其中，J_ij是一个非零即一的矩阵，只有第i行第j列元素为1，其余元素全为0。

具体地，采用Levin提出的一种新的闭合形式方案用于从自然图像中提取阿尔法遮罩的抠图方式，如图6所示。首先从前景和后景颜色F和B上的局部平滑中得到一个代价函数，从结果的表达式来看，可以消除F和B，生成一个α的二次代价函数。这种方法生成的阿尔法遮罩是这个代价函数的全局最优，可以通过解稀疏线性方程组得到。既然，只需要直接计算α，而不需要估计F和B，也就仅需要根据三分图即可求得遮罩，足以提取高质量的抠图。然后，闭合形式公式可以通过检验稀疏矩阵的特征向量理解和预测方案的特征，和光谱图像分割中的矩阵非常相近。

首先，计算预测得到的阿尔法遮罩与金标准遮罩之间的误差，其中

表示本方法计算得到的阿尔法遮罩，α^*表示该原始图像的金标准遮罩，∈是一个非常小的数，本方法取∈＝10^-12：

其次，将预测得到的阿尔法遮罩组合新的后景图像后，与金标准组合图之间计算Loss，公式如下：

其中，

表示本方法根据预测得到的阿尔法遮罩求得前景图后，组合新的后景图得到的组合图，c^*表示根据金标准遮罩求得的金标准前景图组合对应的后景图后得到的金标准组合图。

用于反向传播的总的Loss为上述两部分的和：

L＝L₁+L₂

最终得到的抠图结果如图10所示，其中，Image表示原始待抠图图像，Trimap表示与其对应的三分图，GT表示金标准遮罩图，DeepMattePropNet是本方法的结果图，最后四列展示了其他方法的结果图。本方法与其他方法的抠图结果相比，在毛发等细节明显看出本方法具有明显的精度方面的提高，其中图8、图9可以明显看出基于深度学习网路的抠图技术明显优于传统抠图方法，而本公开方法明显优于其他两种基于深度学习网络的抠图方法，证明了本方法的优越性。

本公开的技术方案有效提高了具有相似色调前后景图像的抠图精确度，提出的网络模型适用于所有自然图像，并且针对传播算法可导性的有效证明有助于该算法再深度网络中的应用于发展。

本公开的一种图像抠图系统，包括：

(1)图像抠图模型训练模块，其用于利用图像训练集训练图像抠图模型；其中，图像训练集中的样本包括原始图像及与其对应的三分图、金标准遮罩和金标准组合遮罩，所述三分图为人工标注绝对背景、绝对后景和未知区域的图像；

所述图像抠图模型包括深度特征提取模块，其用于学习原始图像的语义特征和细节信息特征；

相似度学习模块，其用于融合后的语义特征和细节信息特征，得到像素点的相似度关系；

遮罩传播模块，其用于根据三分图和像素点的相似度关系，通过传播算法求得每一个像素点的遮罩值，输出原始图像对应的阿尔法遮罩图；

(2)阿尔法遮罩图输出模块，其用于将待抠图的原始图像以及与其相对应的三分图输入至训练完成的图像抠图模型，输出待抠图的原始图像对应的阿尔法遮罩图。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种图像抠图方法，其特征在于，包括：

所述图像抠图模型包括深度特征提取模块，其用于学习原始图像的语义特征和细节信息特征；相似度学习模块，其用于融合后的语义特征和细节信息特征，得到像素点的相似度关系；遮罩传播模块，其用于根据三分图和像素点的相似度关系，通过传播算法求得未知区域的每一个像素点的遮罩值，输出原始图像对应的阿尔法遮罩图；

2.如权利要求1所述的一种图像抠图方法，其特征在于，所述步骤1中，利用图像训练集训练图像抠图模型的过程，包括：

3.如权利要求2所述的一种图像抠图方法，其特征在于，在所述步骤1.1中，所述深度特征提取模块为深度学习网络。

4.如权利要求3所述的一种图像抠图方法，其特征在于，所述深度学习网络包括语义特征提取分支和细节特征提取分支；所述语义特征提取分支采用Segnet网络结构，用来提取图像的语义特征信息；所述细节特征提取分支包括3个卷积层，用来提取边缘及棱角细节信息。

5.如权利要求1或2所述的一种图像抠图方法，其特征在于，所述相似度学习模块包括1个卷积层和1个指数层。

6.一种图像抠图系统，其特征在于，包括：

图像抠图模型训练模块，其用于利用图像训练集训练图像抠图模型；其中，图像训练集中的样本包括原始图像及与其对应的三分图、金标准遮罩和金标准组合遮罩，所述三分图为人工标注绝对背景、绝对后景和未知区域的图像；

7.如权利要求6所述的一种图像抠图系统，其特征在于，所述遮罩传播模块，还用于计算总损失并应用于整个图像抠图模型的反向传播；总损失包括两部分损失，其中，一部分是阿尔法遮罩与金标准遮罩之间的损失，另一部分是阿尔法遮罩组合图像与金标准组合图之间的损失。

8.如权利要求7所述的一种图像抠图系统，其特征在于，所述深度特征提取模块为深度学习网络。

9.如权利要求8所述的一种图像抠图系统，其特征在于，所述深度学习网络包括语义特征提取分支和细节特征提取分支；所述语义特征提取分支采用Segnet网络结构，用来提取图像的语义特征信息；所述细节特征提取分支包括3个卷积层，用来提取边缘及棱角细节信息。

10.如权利要求6或7所述的一种图像抠图系统，其特征在于，所述相似度学习模块包括1个卷积层和1个指数层。