CN116167922B

CN116167922B - 一种抠图方法、装置、存储介质及计算机设备

Info

Publication number: CN116167922B
Application number: CN202310443499.2A
Authority: CN
Inventors: 张顺四; 朱辉; 张强
Original assignee: Guangzhou Quwan Network Technology Co Ltd
Current assignee: Guangzhou Quwan Network Technology Co Ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-18
Anticipated expiration: 2043-04-24
Also published as: CN116167922A

Abstract

本申请提供的一种抠图方法、装置、存储介质及计算机设备，在对待抠图图像进行抠图时，可以获取目标抠图模型，由于该目标抠图模型是以样本抠图图像为训练样本，以样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，因此，将待抠图图像输入至目标抠图模型后，目标抠图模型可以直接输出与该待抠图图像尺寸相同的预测四通道抠图结果，相较于现有技术中分别获取alpha通道和前景图而言，本申请不仅可以实现对待抠图图像的快速抠图，还可以直接将预测四通道抠图结果与新的背景进行融合，从而有效节省图像合成时间，提高图像合成效率。

Description

一种抠图方法、装置、存储介质及计算机设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种抠图方法、装置、存储介质及计算机设备。

背景技术

图像抠图是把图像或影像中的某一部分从原始图像或影像中分离出来的技术，已被广泛应用于图像合成和影视特效等场景。例如，在2D人像风格化产品中，若需要替换风格化后的图像背景，则首先需要把风格化后的图像中的前景，即人像部分抠出来，再和新的背景进行融合。

目前在抠图过程中，主要使用Rembg类方案，该类方案主要是先将图像粗分割成前景和背景区域，然后再计算前景与背景区域之间的过渡区域的透明度，即alpha通道，最后组合alpha通道和前景图即可得到抠图结果，该过程无法对过渡区域的边缘细节进行区分，如过渡区域的飘逸头发无法覆盖全面，导致抠图结果不够准确，且计算过程较为复杂，耗时较大，单张图像耗时可达几百毫秒不等。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中无法对过渡区域的边缘细节进行区分，导致抠图结果不够准确，且计算过程较为复杂，耗时较大，单张图像耗时可达几百毫秒不等的技术缺陷。

本申请提供了一种抠图方法，所述方法包括：

获取待抠图图像，所述待抠图图像为三通道RGB图像；

确定目标抠图模型，所述目标抠图模型是以样本抠图图像为训练样本，以所述样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，所述目标损失函数是由所述样本抠图图像中的透明度通道对应的单通道损失函数，以及所述透明度通道与所述样本抠图图像中的前景图融合后的融合损失函数结合而成的；

将所述待抠图图像输入至所述目标抠图模型中，得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果。

可选地，所述确定目标抠图模型，包括：

将预先获取的样本抠图图像输入至预设的初始抠图模型中，得到所述初始抠图模型输出的预测四通道抠图结果；

以所述预测四通道抠图结果趋近于所述样本抠图图像的真实四通道抠图结果为目标，并利用目标损失函数对所述初始抠图模型进行训练；

当所述初始抠图模型满足预设的训练条件时，将训练完成的初始抠图模型作为目标抠图模型。

可选地，所述利用目标损失函数对预设的初始抠图模型进行训练，包括：

确定目标损失函数；

利用所述目标损失函数计算预设的初始抠图模型输出的预测四通道抠图结果与所述样本抠图图像的真实四通道抠图结果之间的抠图损失值；

基于所述抠图损失值更新所述初始抠图模型中的参数，以对所述初始抠图模型进行训练。

可选地，所述目标损失函数的计算公式，包括：

L=L1(gt_alpha，pred_alpha) + L1(gt_alpha * gt_fore，pred_alpha * pred_fore)

其中，L1（*）表示L1损失函数，L1(gt_alpha，pred_alpha)表示单通道损失函数，L1(gt_alpha * gt_fore，pred_alpha * pred_fore)表示融合损失函数；

gt_alpha表示真实四通道抠图结果中的真实alpha通道值，pred_alpha表示预测四通道抠图结果中的预测alpha通道值，gt_fore表示真实四通道抠图结果中的真实前景图对应的RGB三通道值，pred_fore表示预测四通道抠图结果中的预测前景图对应的RGB三通道值；

所述真实前景图中的纯背景区域的透明度为0。

可选地，所述目标抠图模型包括下采样层和上采样层，所述下采样层包括多个不同尺度的池化层，所述上采样层包括与各个池化层对应的上采样拼接层；

所述将所述待抠图图像输入至所述目标抠图模型中，得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果，包括：

通过各个不同尺度的池化层逐层对所述待抠图图像进行多尺度特征提取，得到各个池化层输出的不同尺寸的第一特征图；

利用其中一个上采样拼接层从最小尺寸的第一特征图开始进行上采样，并将上采样后的第二特征图与同尺寸的第一特征图进行拼接后继续输入至下一上采样拼接层进行上采样和拼接操作，直到最后一个上采样拼接层输出与所述待抠图图像尺寸相同的预测四通道抠图结果。

可选地，所述将所述待抠图图像输入至所述目标抠图模型之前，还包括：

将所述待抠图图像的像素值压缩到特定范围内。

可选地，所述目标抠图模型还包括激活层；

所述得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果之后，还包括：

通过所述激活层将所述预测四通道抠图结果对应的像素值压缩到所述特定范围内；

其中，所述激活层采用tanh激活函数。

本申请还提供了一种抠图装置，包括：

图像获取模块，用于获取待抠图图像，所述待抠图图像为三通道RGB图像；

模型确定模块，用于确定目标抠图模型，所述目标抠图模型是以样本抠图图像为训练样本，以所述样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，所述目标损失函数是由所述样本抠图图像中的透明度通道对应的单通道损失函数，以及所述透明度通道与所述样本抠图图像中的前景图融合后的融合损失函数结合而成的；

抠图模块，用于将所述待抠图图像输入至所述目标抠图模型中，得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果。

本申请还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述抠图方法的步骤。

本申请还提供了一种计算机设备，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如上述实施例中任一项所述抠图方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供的一种抠图方法、装置、存储介质及计算机设备，在对待抠图图像进行抠图时，可以获取目标抠图模型，由于该目标抠图模型是以样本抠图图像为训练样本，以样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，因此，将待抠图图像输入至目标抠图模型后，目标抠图模型可以直接输出与该待抠图图像尺寸相同的预测四通道抠图结果，相较于现有技术中分别获取alpha通道和前景图而言，本申请不仅可以实现对待抠图图像的快速抠图，例如在V100 GPU上运行本申请的抠图方法，单张512x512图片仅需80ms即可得到最终抠图结果，还可以直接将预测四通道抠图结果与新的背景进行融合，从而有效节省图像合成时间，提高图像合成效率；另外，本申请的目标损失函数是由样本抠图图像中的透明度通道对应的单通道损失函数，以及透明度通道与样本抠图图像中的前景图融合后的融合损失函数结合而成的，这样在利用该目标损失函数对初始抠图模型进行训练时，该初始抠图模型可以在单通道损失函数和融合损失函数的双重约束下更加准确地学习到样本标签的内容，以使本申请后续通过目标抠图模型对待抠图图像进行抠图时，可以将待抠图图像的边缘部分较为精细的表现出来，并达到发丝级抠图效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种抠图方法的流程示意图；

图2为本申请实施例提供的目标抠图模型的结构示意图；

图3为本申请实施例提供的原图，抠出的alpha通道，以及融合前景图的展示图；

图4为本申请实施例提供的一种抠图装置的结构示意图；

图5为本申请实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前在抠图过程中，主要使用Rembg类方案，该类方案主要是先将图像粗分割成前景和背景区域，然后再计算前景与背景区域之间的过渡区域的透明度，即alpha通道，最后组合alpha通道和前景图即可得到抠图结果，该过程无法对过渡区域的边缘细节进行区分，如过渡区域的飘逸头发无法覆盖全面，导致抠图结果不够准确，且计算过程较为复杂，耗时较大，单张图像耗时可达几百毫秒不等。基于此，本申请提出如下技术方案，具体参见下文：

在一个实施例中，如图1所示，图1为本申请实施例提供的一种抠图方法的流程示意图；本申请提供了一种抠图方法，所述方法可以包括：

S110：获取待抠图图像。

本步骤中，在进行抠图操作时，可以先获取待抠图图像，接着再对该待抠图图像进行相关抠图操作。

其中，本申请的待抠图图像为任意类型的包含目标抠图对象的三通道RGB图像，该目标抠图对象可以是图像中的人物，也可以是图像中的实物等。如待抠图图像为自动驾驶过程中获取的道路图像时，该道路图像中的目标抠图对象可以是汽车、行人、红绿灯以及道路等；当待抠图图像为2D人像风格化产品中的某一片段时，该片段中的目标抠图对象可以是2D人像，也可以是2D房屋等等，具体的目标抠图对象的确定过程可以根据实际情况进行选择，在此不做限制。

可以理解的是，本申请的三通道RGB图像表示具有红、绿、蓝三个颜色通道的彩色图像。在计算机中，每个像素都由一个RGB三元组表示，其中每个通道的取值范围是0-255。在图像处理中，不仅可以通过增强或减弱某个通道的值来实现一些特定的效果，或者使用RGB三通道来分离出特定的对象或特征，还可以通过语义分割等方式来判断图像中每个像素点的类别，并进行精确分割，如本申请中的抠图方法等。

进一步地，在获取到待抠图图像后，本申请还可以对待抠图图像进行预处理操作，该预处理操作包括但不限于归一化处理、锐化处理、去噪处理等。其中，归一化处理指的是将数据向量每个维度的数据映射到(0，1)或(-1，1)之间的区间，或者将数据向量的某个范数映射为1。可以理解的是，本申请中的待抠图图像的像素值为0~255范围内的整数，虽然可以直接将原图像的像素数据直接作为神经网络模型的训练数据，但可能给模型的训练过程带来一些问题，例如导致模型训练速度变慢、迭代次数过多导致收敛变慢等。因此，本申请可以通过归一化处理的方式来提升模型训练效率。

这里的锐化处理是指补偿图像的轮廓，增强图像的边缘及灰度跳变的部分，使图像变得清晰，其可分为空间域处理和频域处理两类。通过突出图像上地物的边缘、轮廓，或某些线性目标要素的特征，以提高地物边缘与周围像元之间的反差。去噪处理是指减少数字图像中噪声的过程，一般的，在图像进行数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，即接收获得到的图像信息中一般包括有噪声，而这些噪声将成为图像干扰的重要原因，通过对图像进行去噪处理，以使图像中的噪声被去除，进一步提高得到的图像的真实性和准确性。

上述通过对获取的待抠图图像进行预处理操作，可以使得待抠图图像被缩放到合适尺寸，并有效提升图像本身的清晰度，便于后续对待抠图图像进行处理。

S120：确定目标抠图模型。

本步骤中，通过S110获取待抠图图像后，接着本申请可以确定目标抠图模型，并通过该目标抠图模型来对待抠图图像进行抠图，以得到相应的抠图结果。

其中，本申请的目标抠图模型指的是对输入的三通道RGB图像中的目标抠图对象进行抠图并得到四通道抠图结果的模型，该目标抠图模型在进行模型训练时，可以将不同类型的样本抠图图像作为训练样本，并对每一训练样本标注样本标签，即对应的真实四通道抠图结果。当所有的训练样本标注完成后，便可以将带有样本标签的训练样本输入至预设的初始抠图模型中进行前向传播以训练该模型，并在模型的反向传播过程中使用预设的目标损失函数对模型进行参数调优，当模型满足一定的训练条件或者参数的收敛条件时，如迭代次数达到设定值，视为训练完成，此时可以将训练完成的模型作为最终的目标抠图模型。

进一步地，本申请在利用目标损失函数对初始抠图模型进行训练时，可以将目标损失函数设计为由样本抠图图像中的透明度通道对应的单通道损失函数，以及透明度通道与样本抠图图像中的前景图融合后的融合损失函数结合而成的，这样在使用目标损失函数对初始抠图模型进行参数调优后，不仅可以降低真实的透明度通道与预测的透明度通道之间的损失，还可以降低真实的前景图和透明度通道融合后，以及预测的前景图与透明度通道融合后两者之间的损失，从而使得模型生成的预测四通道抠图结果更快、更准确地往真实四通道抠图结果的方向靠拢，这样后续通过目标抠图模型对待抠图图像进行抠图时，可以将待抠图图像的边缘部分较为精细的表现出来，达到发丝级抠图效果。

此外，本申请还可以将训练完成的目标抠图模型进行存储，以便后续在进行抠图时，可以直接调用预先存储的目标抠图模型来对待抠图图像进行抠图操作。此外，本申请中的目标抠图模型可以选择语义分割模型作为预设的模型进行改进和训练，该语义分割模型可以是Segnet，Mask RCNN，DeepLabv3+等网络，也可以是Unet、U2net或类似结构的神经网络，在此不做限制。

S130：将待抠图图像输入至目标抠图模型中，得到目标抠图模型输出的与待抠图图像尺寸相同的预测四通道抠图结果。

上述步骤中，通过S120确定目标抠图模型后，本申请可以将待抠图图像输入至目标抠图模型中，并通过目标抠图模型来对待抠图图像进行抠图，由于该目标抠图模型是以样本抠图图像为训练样本，以样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，因此，将待抠图图像输入到目标抠图模型中，便可以得到目标抠图模型输出的预测四通道抠图结果。

在一种具体的实现方式中，本申请为了得到与待抠图图像尺寸相同的预测四通道抠图结果，可以选择使用输入图像与输出图像尺寸相同的神经网络进行训练，例如，Unet、U2net或类似结构的神经网络等。示意性地，如图2所示，图2为本申请实施例提供的目标抠图模型的结构示意图；本申请的目标抠图模型可以选择U2Net，当用户输入待抠图图像至U2Net后，U2Net可以输出与待抠图图像尺寸相同的预测四通道抠图结果。

举例来说，如图3所示，图3为本申请实施例提供的原图，抠出的alpha通道，以及融合前景图的展示图；由图3可知，使用本申请的抠图方法对原图进行抠图后，可以抠出对应的Alpha通道以及融合前景图，由该图可见，本申请可以将原图中的头发边缘部分精细的抠取出来，从而有效提升抠图精确度。

上述实施例中，在对待抠图图像进行抠图时，可以获取目标抠图模型，由于该目标抠图模型是以样本抠图图像为训练样本，以样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，因此，将待抠图图像输入至目标抠图模型后，目标抠图模型可以直接输出与该待抠图图像尺寸相同的预测四通道抠图结果，相较于现有技术中分别获取alpha通道和前景图而言，本申请不仅可以实现对待抠图图像的快速抠图，例如在V100 GPU上运行本申请的抠图方法，单张512x512图片仅需80ms即可得到最终抠图结果，还可以直接将预测四通道抠图结果与新的背景进行融合，从而有效节省图像合成时间，提高图像合成效率；另外，本申请的目标损失函数是由样本抠图图像中的透明度通道对应的单通道损失函数，以及透明度通道与样本抠图图像中的前景图融合后的融合损失函数结合而成的，这样在利用该目标损失函数对初始抠图模型进行训练时，该初始抠图模型可以在单通道损失函数和融合损失函数的双重约束下更加准确地学习到样本标签的内容，以使本申请后续通过目标抠图模型对待抠图图像进行抠图时，可以将待抠图图像的边缘部分较为精细的表现出来，达到发丝级抠图效果。

在一个实施例中，S120中确定目标抠图模型，可以包括：

S121：将预先获取的样本抠图图像输入至预设的初始抠图模型中，得到所述初始抠图模型输出的预测四通道抠图结果。

S122：以所述预测四通道抠图结果趋近于所述样本抠图图像的真实四通道抠图结果为目标，并利用目标损失函数对所述初始抠图模型进行训练。

S123：当所述初始抠图模型满足预设的训练条件时，将训练完成的初始抠图模型作为目标抠图模型。

本实施例中，在确定目标抠图模型时，可以先选择相应的语义分割模型作为预设的初始抠图模型进行改进和训练，如Unet、U2net或类似结构的神经网络等。在训练过程中，可以先获取样本抠图图像，该样本抠图图像中标注有对应的该样本标签，该样本标签为该样本抠图图像的真实四通道抠图结果，如待抠取的前景区域，这样将该样本抠图图像输入至预设的初始抠图模型后，可以得到初始抠图模型输出的预测四通道抠图结果，接着，本申请可以以预测四通道抠图结果趋近于样本抠图图像的真实四通道抠图结果为目标，并利用目标损失函数对初始抠图模型进行训练，在初始抠图模型满足预设的训练条件时，将训练完成的初始抠图模型作为目标抠图模型，以此来确定目标抠图模型。

当然，本申请在将样本抠图图像输入至预设的初始抠图模型之前，也可以对该样本抠图图像进行预处理，如进行归一化处理、锐化处理、去噪处理等操作，以使该样本抠图图像被缩放到合适尺寸，并有效提升图像本身的清晰度，便于提升模型训练效率。

在一个实施例中，S120或S122中利用目标损失函数对所述初始抠图模型进行训练，可以包括：

S1221：确定目标损失函数。

S1222：利用所述目标损失函数计算初始抠图模型输出的预测四通道抠图结果与所述样本抠图图像的真实四通道抠图结果之间的抠图损失值。

S1223：基于所述抠图损失值更新所述初始抠图模型中的参数，以对所述初始抠图模型进行训练。

本实施例中，在对初始抠图模型进行训练时，可以以每一次迭代过程中初始抠图模型输出的预测四通道抠图结果趋近于对应的真实四通道抠图结果为目标来对初始抠图模型进行训练，以得到最终的目标抠图模型。

具体地，本申请在对初始抠图模型进行训练时，可以先确定目标损失函数，然后随机初始化该初始抠图模型中的参数，这里的参数包括但不限于目标损失函数的参数、网络结构参数等，当初始化模型参数后，可以将标注有真实四通道抠图结果的样本抠图图像输入至初始抠图模型中，并利用目标损失函数计算预测四通道抠图结果与真实四通道抠图结果之间的抠图损失值，接着本申请可以对该抠图损失值进行求导后得到梯度，并通过链式计算法进行反向传播，以得到初始抠图模型更新后的参数，接着本申请可以将下一样本抠图图像输入至初始抠图模型中，并重复执行利用目标损失函数计算预测四通道抠图结果与真实四通道抠图结果之间的抠图损失值等后续操作，从而不断对初始抠图模型进行迭代训练，直到抠图损失值不再下降，且收敛为止，此时更新最终的参数，并通过最终的参数来完成对初始抠图模型的参数更新，以对初始抠图模型进行训练。

在一个实施例中，所述目标损失函数的计算公式，可以包括：

L=L1(gt_alpha，pred_alpha) + L1(gt_alpha * gt_fore，pred_alpha * pred_fore)

其中，L1（*）表示L1损失函数，L1(gt_alpha，pred_alpha)表示单通道损失函数，L1(gt_alpha * gt_fore，pred_alpha * pred_fore)表示融合损失函数。

gt_alpha表示真实四通道抠图结果中的真实alpha通道值，pred_alpha表示预测四通道抠图结果中的预测alpha通道值，gt_fore表示真实四通道抠图结果中的真实前景图对应的RGB三通道值，pred_fore表示预测四通道抠图结果中的预测前景图对应的RGB三通道值。

所述真实前景图中的纯背景区域的透明度为0。

本实施例中，在确定本申请的目标损失函数时，可以确定样本抠图图像中的透明度通道，即Alpha通道对应的单通道损失函数，以及透明度通道和样本抠图图像中前景图融合后的融合损失函数，这样将两个损失函数相加后，即可得到目标损失函数。

举例来说，本申请在对初始抠图模型进行网络训练时的loss函数可以采用alpha通道的单通道损失函数加上alpha通道和前景图融合后的融合损失函数，具体公式可以表示如下：

L=L1(gt_alpha，pred_alpha) + L1(gt_alpha * gt_fore，pred_alpha * pred_fore)

由上述公式可见，本申请的目标损失函数的设计可以完全描述抠图任务，并且，本申请在设计损失函数时，为了排除前景图中纯背景区域对网络拟合的干扰（此区域一般占前景图的大部分区域，若loss函数设计不合理，其会让网络拟合此无意义区域），本申请可以将前景图中的纯背景区域的透明度设置为0，这样无论前景图中该区域有无内容，相乘后结果均为0，网络只需要学习到此区域的透明度为0即可，不需要学习相应的前景图内容，从而有效提升模型的训练效率的同时，还能够提升模型预测准确度。

进一步地，本申请的单通道损失函数可以使用L1损失函数，也可以使用

SmoothL1损失函数，并且，使用SmoothL1损失函数会使训练得到的网络在细微处的效果更稳定。

在一个实施例中，所述目标抠图模型可以包括下采样层和上采样层，所述下采样层可以包括多个不同尺度的池化层，所述上采样层可以包括与各个池化层对应的上采样拼接层。

S130中将所述待抠图图像输入至所述目标抠图模型中，得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果，可以包括：

S131：通过各个不同尺度的池化层逐层对所述待抠图图像进行多尺度特征提取，得到各个池化层输出的不同尺寸的第一特征图。

S132：利用其中一个上采样拼接层从最小尺寸的第一特征图开始进行上采样，并将上采样后的第二特征图与同尺寸的第一特征图进行拼接后继续输入至下一上采样拼接层进行上采样和拼接操作，直到最后一个上采样拼接层输出与所述待抠图图像尺寸相同的预测四通道抠图结果。

本实施例中，目标抠图模型可以包括下采样层和上采样层，如同编码器-解码器结构。其中，下采样层可以包括多个卷积层和池化层，并通过多个卷积层和池化层来提取待抠图图像中不同尺度的图像特征，以使模型更关注于待抠图图像中与纹理相关等局部特征；上采样层可以由卷积层和特征拼接层或者上采样拼接层等构成，用以恢复特征图的原始分辨率，上采样常用转置卷积和插值两种方式实现，在插值实现方式中，双线性插值（bilinear）的综合表现较好也较为常见。

展开来说，本申请在确定目标抠图模型后，可以将待抠图图像输入至目标抠图模型中，并通过目标抠图模型中各个不同尺度的池化层逐层对待抠图图像进行多尺度特征提取，得到各个池化层输出的不同尺寸的第一特征图，接着，本申请可以通过目标抠图模型中的上采样拼接层从最小尺寸的第一特征图开始进行上采样，并将上采样后的第二特征图与与同尺寸的第一特征图进行拼接后继续输入至下一上采样拼接层进行上采样和拼接操作，直到最后一个上采样拼接层输出与待抠图图像尺寸相同的四通道抠图结果。

在一种具体的实现方式中，假设本申请的待抠图图像的尺寸为224x224，目标抠图模型为U2Net，在对待抠图图像进行抠图时，可以先对图片进行卷积和池化，将待抠图图像变成112x112，56x56，28x28，14x14四个不同尺寸的第一特征图，然后通过上采样层对14x14的特征图做上采样或者反卷积，得到28x28的第二特征图，这个28x28的第二特征图与之前下采样时得到的28x28的第一特征图进行通道上的拼接融合，然后再对拼接之后的特征图做卷积和上采样，得到56x56的第二特征图，再与之前的56x56的第一特征图拼接、卷积、再上采样，经过四次上采样后便可以得到一个与输入图像尺寸相同的224x224的四通道抠图结果，该四通道抠图结果中包含R、G、B、Alpha四个通道的数据，通过这四个通道的数据即可构建一个RGBA四通道图像。

可以理解的是，本申请在不断的下采样过程中不断的降低分辨率以获得不同尺度的图像信息，图像的信息由底层信息中的点、线、梯度等信息逐渐向高程信息中的轮廓以及更抽象的信息过度，整个网路完成了“由细到粗”特征的提取与组合，从而使目标抠图模型得到的信息更加全面。而本申请在上采样过程中，通过将上采样后的第二特征图与同尺寸的第一特征图进行拼接，实现边缘特征的找回，此操作将同层高度的下采样层中更精准的梯度、点、线等信息直接拼接到同层的上采样中，相当于在判断目标大体区域内添加细节信息，这种操作可以使目标抠图模型获得更准确的分割结果。

在一个实施例中，S130中将所述待抠图图像输入至所述目标抠图模型之前，还可以包括：将所述待抠图图像的像素值压缩到特定范围内。

本实施例中，在对待抠图图像进行抠图之前，本申请可以对待抠图图像进行归一化处理，具体可以将待抠图图像的像素值压缩到特定范围内，该特定范围可以是[-1，1]范围，这样不仅可以便于后续的模型预测，还可以保证程序运行时收敛加快。

在一个实施例中，所述目标抠图模型可以包括激活层。

所述S140中得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果之后，还可以包括：通过所述激活层将所述预测四通道抠图结果对应的像素值压缩到所述特定范围内，其中，所述激活层采用tanh激活函数。

本实施例中，目标抠图模型可以包括激活层，该激活层可以将目标抠图模型中的前层网络输出的预测四通道抠图结果对应的像素值压缩到特定范围内，为了与预处理操作保持一致，该特定范围可以是[-1，1]范围。

举例来说，本申请在通过下采样层和上采样层对待抠图图像进行多尺度特征提取，并得到不同尺寸的第一特征图，并通过上采样层从最小尺寸的第一特征图开始进行上采样，以及将上采样后的第二特征图与与同尺寸的第一特征图进行拼接后继续进行上采样，直到得到与待抠图图像尺寸相同的预测四通道抠图结果后，本申请还可以通过目标抠图模型的激活层来将预测四通道抠图结果对应的像素值压缩到所述特定范围内，如，本申请的激活层可以使用tanh激活函数，将输出压缩到[-1，1]范围，以便和输入保持一致。

下面对本申请实施例提供的抠图装置进行描述，下文描述的抠图装置与上文描述的抠图方法可相互对应参照。

在一个实施例中，如图4所示，图4为本申请实施例提供的一种抠图装置的结构示意图；本申请还提供了一种抠图装置，可以包括图像获取模块210、模型确定模块220、抠图模块230，具体包括如下：

图像获取模块210，用于获取待抠图图像，所述待抠图图像为三通道RGB图像。

模型确定模块220，用于确定目标抠图模型，所述目标抠图模型是以样本抠图图像为训练样本，以所述样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，所述目标损失函数是由所述样本抠图图像中的透明度通道对应的单通道损失函数，以及所述透明度通道与所述样本抠图图像中的前景图融合后的融合损失函数结合而成的。

抠图模块230，用于将所述待抠图图像输入至所述目标抠图模型中，得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果。

在一个实施例中，本申请还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述抠图方法的步骤。

在一个实施例中，本申请还提供了一种计算机设备，包括：一个或多个处理器，以及存储器。

示意性地，如图5所示，图5为本申请实施例提供的一种计算机设备的内部结构示意图，该计算机设备300可以被提供为一服务器。参照图5，计算机设备300包括处理组件302，其进一步包括一个或多个处理器，以及由存储器301所代表的存储器资源，用于存储可由处理组件302的执行的指令，例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件302被配置为执行指令，以执行上述任意实施例的抠图方法。

计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理，一个有线或无线网络接口304被配置为将计算机设备300连接到网络，和一个输入输出（I/O）接口305。计算机设备300可以操作基于存储在存储器301的操作系统，例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种抠图方法，其特征在于，所述方法包括：

获取待抠图图像，所述待抠图图像为三通道RGB图像；

确定目标抠图模型，所述目标抠图模型是以样本抠图图像为训练样本，以所述样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，所述目标损失函数是由所述样本抠图图像中的透明度通道对应的单通道损失函数，以及所述透明度通道与所述样本抠图图像中的前景图融合后的融合损失函数结合而成的；所述目标抠图模型包括下采样层和上采样层，所述下采样层包括多个不同尺度的池化层，所述上采样层包括与各个池化层对应的上采样拼接层；

将所述待抠图图像输入至所述目标抠图模型中，得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果，包括：

利用其中一个上采样拼接层从最小尺寸的第一特征图开始进行上采样，并将上采样后的第二特征图与同尺寸的第一特征图进行拼接后继续输入至下一上采样拼接层进行上采样和拼接操作，直到最后一个上采样拼接层输出与所述待抠图图像尺寸相同的预测四通道抠图结果；

所述目标损失函数的计算公式，包括：

L=L1(gt_alpha，pred_alpha) + L1(gt_alpha * gt_fore，pred_alpha * pred_fore)

所述真实前景图中的纯背景区域的透明度为0。

2.根据权利要求1所述的抠图方法，其特征在于，所述确定目标抠图模型，包括：

3.根据权利要求1或2所述的抠图方法，其特征在于，所述利用目标损失函数对预设的初始抠图模型进行训练，包括：

确定目标损失函数；

4.根据权利要求1或2所述的抠图方法，其特征在于，所述将所述待抠图图像输入至所述目标抠图模型之前，还包括：

将所述待抠图图像的像素值压缩到[-1，1]范围内。

5.根据权利要求4所述的抠图方法，其特征在于，所述目标抠图模型还包括激活层；

通过所述激活层将所述预测四通道抠图结果对应的像素值压缩到所述[-1，1]范围内；

其中，所述激活层采用tanh激活函数。

6.一种抠图装置，其特征在于，包括：

模型确定模块，用于确定目标抠图模型，所述目标抠图模型是以样本抠图图像为训练样本，以所述样本抠图图像中标注的真实四通道抠图结果为样本标签，并利用目标损失函数对预设的初始抠图模型进行训练后得到的，所述目标损失函数是由所述样本抠图图像中的透明度通道对应的单通道损失函数，以及所述透明度通道与所述样本抠图图像中的前景图融合后的融合损失函数结合而成的；所述目标抠图模型包括下采样层和上采样层，所述下采样层包括多个不同尺度的池化层，所述上采样层包括与各个池化层对应的上采样拼接层；

抠图模块，用于将所述待抠图图像输入至所述目标抠图模型中，得到所述目标抠图模型输出的与所述待抠图图像尺寸相同的预测四通道抠图结果，包括：

所述目标损失函数的计算公式，包括：

L=L1(gt_alpha，pred_alpha) + L1(gt_alpha * gt_fore，pred_alpha * pred_fore)

所述真实前景图中的纯背景区域的透明度为0。

7.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项所述抠图方法的步骤。

8.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1至5中任一项所述抠图方法的步骤。