CN114038006A

CN114038006A - 一种抠图网络训练方法及抠图方法

Info

Publication number: CN114038006A
Application number: CN202110910316.4A
Authority: CN
Inventors: 李淼; 杨飞宇; 钱贝贝
Original assignee: Orbbec Inc
Current assignee: Orbbec Inc
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2022-02-11
Also published as: US20240029272A1; WO2023015755A1

Abstract

本申请涉及计算机视觉技术领域，尤其涉及一种抠图网络训练方法及抠图方法。该方法包括：获取训练样本集合和初始网络；训练样本集合包括多个训练样本，每个训练样本包括输入图像样本，输入图像样本包括具备前景的待抠图图像样本、背景图像样本以及前景的软分割样本，软分割样本利用待抠图图像样本对应的深度图像减去背景图像样本对应的深度图像生成；初始网络包括至少一个阶段网络；阶段网络包括串联的环境组合模块、主干区块和预测模块；利用训练样本集合，训练初始网络得到抠图网络。本申请实施例采用轻量化的模型，实现了高精度的前景分割。

Description

一种抠图网络训练方法及抠图方法

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种抠图网络训练方法及抠图方法。

背景技术

在计算机视觉技术领域，抠图是一种常用的处理手段。

传统抠图方法中广泛使用静态图像抠图算法(trimap)来引导颜色特征提取。利用前景和背景的颜色特征来约束过渡区域，从而确定前景的分割。根据颜色特征的使用方式，传统抠图方法可以分为两类：基于采样的方法和基于相似性的方法。基于采样的方法用一对前景或背景像素表示过渡区域像素，来得到前景分割。基于相似性的方法通过某些标签和过渡区域之间的相邻像素的相似性来确定前景边界。这两种抠图方法都不涉及语义信息，且计算量较大，而且当前景和背景具有相似的颜色特征时，这两种抠图方法的预测效果都会恶化。

随着深度学习的发展，极大地促进了抠图算法的发展。在基于深度学习的抠图算法中，基于trimap的方法受到了广泛的研究。虽然基于trimap的方法有着较高的精度，但其需要对给定图像进行人工标注以增加抠图问题的额外约束。这种人工标注方式对用户十分不友好，因而实用性较差；此外，计算量较大。

近年来，无trimap的抠图方法受到了更多的关注。近两年主流方案为采用单个RGB图像直接预测前进分割的方案。然而，这类方案计算量较大，在精度上并没有超过基于trimap的方法，此外，也对场景比较敏感，泛化性仍需提升，尤其是当输入包含未知物体或多个前景时，网络的性能会恶化。

为了平衡基于trimap的方法和无trimap的方法的优缺点，目前出现了采用一个背景图像和一个人像的前景软分割替换trimap作为背景分割算法的先验。这种方法计算量大，速度较慢，并且处理持有物品的人或非人的场景时效果会恶化。

发明内容

有鉴于此，本申请实施例提供了一种抠图网络训练方法及抠图方法，可以解决相关技术中的至少一个技术问题。

第一方面，本申请一实施例提供了一种抠图网络训练方法，包括：

获取训练样本集合和初始网络；所述训练样本集合包括多个训练样本，每个所述训练样本包括输入图像样本，所述输入图像样本包括具备前景的待抠图图像样本、背景图像样本以及所述前景的软分割样本，所述软分割样本利用所述待抠图图像样本对应的深度图像减去所述背景图像样本对应的深度图像生成；所述初始网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述输入图像样本输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出预测前景分割；

利用所述训练样本集合，训练所述初始网络得到抠图网络。

本实施例利用包括前景的软分割作为先验进行模型训练，由于采用软分割先验，背景抠图变成一个对语义依赖较少但对结构信息依赖较多的任务，因此网络不必太深，利于实现网络的轻量化，能部署在小算力的芯片上；主干区块可以实现更好的高层特征融合，环境组合模块比其对应的残差网络更轻量化，有效的交换输入的环境特征，有利于上下文信息的融合过程，这两个模块都在一定程度上提高了精度，实现更可靠的前景分割预测。

作为第一方面一实现方式，所述训练样本集合包括多个带标注的训练样本，每个带标注的所述训练样本包括所述输入图像样本及其标注；

利用所述训练样本集合，训练所述初始网络得到抠图网络，包括：

在所述训练样本集合上对所述初始网络进行有监督的训练得到抠图网络。

本实现方式中，进行有监督的训练，利于实现精度更高的抠图网络。

作为第一方面一实现方式，所述训练样本集合包括多个带标注的训练样本和多个无标注的训练样本，每个带标注的所述训练样本包括所述输入图像样本及其标注；每个无标注的所述训练样本包括所述输入图像样本；

利用多个带标注的训练样本，对所述初始网络进行有监督的训练后，再利用多个无标注的训练样本进行无监督的知识蒸馏，得到抠图网络。

本实现方式中，结合有监督的训练和蒸馏学习，可以弥补合成数据集和真实数据之间的差异，利于进一步提高抠图网络的分割精度，提供泛化性好的网络。

作为第一方面一实现方式，所述初始网络包括多个串联的阶段网络；所述输入图像样本作为第一个阶段网络的输入，所述待抠图图像样本、所述背景图像样本和上一个阶段网络输出的预测前景分割作为下一个阶段网络的输入。

本实现方式中，初始网络包括多个串联的阶段网络，可以预测更加精细的结构细节，从而进一步提高前景分割预测的精度。

作为第一方面一实现方式，所述阶段网络包括3次下采样。

本实现方式中，只需对输入进行3次下采样，便可保留了丰富的结构线索，并得益于背景信息的融入，可更好地平衡了速度和精度。

作为第一方面一实现方式，主干区块包括基于注意力机制的特征融合模块。

作为第一方面一实现方式，训练采用混合损失函数，所述混合损失函数包括均方误差损失、结构相似性损失和交并比损失。

本实现方式中，由于使用了混合损失函数，能够更精确的检测出前景和边界，从而进一步提高前景分割预测的精度。

第二方面，本申请一实施例提供一种抠图方法，包括：

获取包括前景的待抠图图像、背景图像以及所述前景的软分割；

将所述待抠图图像、所述背景图像以及所述软分割输入采用如第一方面或第一方面任一实现方式所述的抠图网络训练方法得到的抠图网络，输出所述待抠图图像的前景分割；所述抠图网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述待抠图图像、所述背景图像以及所述前景的软分割输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出前景分割。

第三方面，本申请一实施例提供一种抠图网络训练装置，包括：

获取模块，用于获取训练样本集合和初始网络；所述训练样本集合包括多个训练样本，每个所述训练样本包括输入图像样本，所述输入图像样本包括具备前景的待抠图图像样本、背景图像样本以及所述前景的软分割样本，所述软分割样本利用所述待抠图图像样本对应的深度图像减去所述背景图像样本对应的深度图像生成；所述初始网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述输入图像样本输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出预测前景分割；

训练模块，用于利用所述训练样本集合，训练所述初始网络得到抠图网络。

第四方面，本申请一实施例提供一种抠图装置，包括：

获取模块，用于获取包括前景的待抠图图像、背景图像以及所述前景的软分割；

抠图模块，包括抠图网络，所述抠图模块用于将所述待抠图图像、所述背景图像以及所述软分割输入所述抠图网络，输出所述待抠图图像的前景分割；所述抠图网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述待抠图图像、所述背景图像以及所述前景的软分割输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出前景分割。

第五方面，本申请一实施例提供一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面任一实现方式所述的抠图网络训练方法；或实现如第二方面所述的抠图方法。

第六方面，本申请一实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一实现方式所述的抠图网络训练方法；或实现如第二方面所述的抠图方法。

第七方面，本申请一实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如第一方面或第一方面任一实现方式所述的抠图网络训练方法，或执行如第二方面所述的抠图方法。

应理解，第二方面至第七方面的有益效果可以参见第一方面及第一方面的实现方式的相关描述，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种抠图网络训练方法的实现流程示意图；

图2是本申请一实施例提供的一种抠图模型的结构示意图；

图3是本申请一实施例提供的来自F_H层的单通道热图；

图4是本申请一实施例提供的一种真实世界图像集的示意图；

图5是不同模型在Composition-1k数据集上的速度和精度水平的比较结果；

图6是在Composite-1k测试集上不同方法之间的定性比较结果示意图。

图7是本申请一实施例提供的方法与BM方法在真实世界图像上的比较结果示意图；

图8是本申请一实施例提供的一种抠图网络训练装置的结构示意图；

图9是本申请一实施例提供的一种抠图装置的结构示意图；

图10是本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本申请说明书中描述的“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

此外，在本申请的描述中，“多个”的含义是两个或两个以上。术语“第一”和“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

图1是本申请一实施例提供的一种抠图网络训练方法的实现流程示意图，本实施例中的抠图网络训练方法可由电子设备执行。电子设备包括但不限于计算机、平板电脑、服务器、手机、相机或可穿戴设备等。其中，服务器包括但不限于独立服务器或云服务器等。如图1所示，抠图网络训练方法可以包括步骤S110至步骤S120。

S110，获取训练样本集合和初始网络。

S120，利用训练样本集合，训练初始网络得到抠图网络。

初始网络预先存储在电子设备中，作为待训练的网络模型。初始网络包含一组待学习的网络参数。初始网络经训练后得到抠图网络，抠图网络可以具备与初始网络相同的网络结构，也可以具备比初始网络简单的网络结构，两者网络参数不一样。

初始网络(或抠图网络)可以包括基于深度学习的神经网络模型。例如 ResNet或VGG等主干网络。

需要说明的是，当前的背景抠图网络都具有较大的冗余性，因为通常采用像ResNet或VGG等主干网络，这些网络最初是为高度依赖语义的图像分类任务而设计的，因此这些网络普遍会下采样5次来提取强语义特征。然而，本申请实施例由于有软分割充当抠图的先验特征，背景抠图问题成为一个语义依赖性较小而结构依赖性较高的任务，因此这些网络在一定程度上有较大冗余。

在一个实施例中，初始网络(或抠图网络)采用轻量的逐级精细化网络(Lightweight Refinement Network，LRN)。初始网络(或抠图网络)包括一个阶段网络(stage)或多个串联的阶段网络(stage)。该初始网络使用了包括前景的RGB图像I、RGB背景图像B和前景的软分割S作为先验，可以用深度图像生成软分割，并通过具体的网络设计实现轻量化。模型输出经过多次逐级精细化，可以实现更可靠的前景分割预测。

作为一实现方式，初始网络可以定义为

包含三个输入图像： RGB图像I，RGB背景图像B以及前景的软分割S，

表示在训练中要确定的网络参数。初始网络的网络结构如图2所示，包括一个阶段网络(stage)或多个串联的阶段网络(stage)，一个stage包括环境组合模块(Context Combining Module，CCM)、主干区块stem和预测模块predictor。3个输入图像输入CCM 模块，CCM模块用于经过特征交换后输出低阶特征和高阶特征；主干区块stem 优选包括特征融合模块(Feature Fusion Module，FFM)，用于基于注意力机制融合低阶特征和高阶特征得到融合特征，预测模块用于根据融合特征输出预测前景分割。

具体地，利用CCM模块对上述三个输入图像进行特征交换产生两个输出特征，一个低阶特征F_L和一个高阶特征F_H。并对每个输入图像对应的低阶特征单独编码为特征F_1I＝E_1I(I)，F_1B＝E_1B(B)和F_1S＝E_1S(S)，然后将它们拼接以产生一个整体的低阶特征F_L＝Cat(F_1I,F_1B,F_1S)，其中Cat表示串联操作。在另一分支中，每个低阶特征被进一步下采样到单个高阶特征 F_2I＝E_2I(F_1I),F_2B＝E_2B(F_1B)和F_2S＝E_2S(F_1S)。通过将图像特征与其余2个特征融合，得到F_IS＝C_Is(Cat(F_2I,F_2S))和F_IB＝C_IB(Cat(F_2I，F_2B))。并用 F_H＝C_ISB(Cat(F_IB,F_IS))得到整体的高阶特征。在网络的主干区块stem，先由编码器E₃对高阶特征F_H进行下采样，再由解码器D₃进行上采样，然后用特征融合模块对其进行融合，得到特征F₂＝FFM(F_H，D₃(E₃(F_H)))。进一步将低阶特征 F_L合并到主干区块中，得到融合特征F₁＝Cat(F_L，D₂(F₂))。最后，用α＝D₁(F₁)得到预测的前景分割，以便后续利用前景分割与预设的背景图像进行图像合成。

上述过程称为一个stage。为了预测更精细的结构细节，在本申请一些实施例中可以采用另一个stage对前一个stage的输出做进一步的精细化，用上一个 stage的预测前景分割作为下一个stage的先验软分割，而上一个stage输入的 RGB图像I、RGB背景图像B继续作为下一个stage的先验。这个过程可以重复多次，形成串联的网络结构。为了清晰地表示网络体系结构，用C、B和S 来表示卷积层中的通道(channel)数、一个残差块中的卷积区块(block)数和阶段(stage)数，进一步将网络表示为LRN-C-B-S。例如，LRN-16-4-3代表由 16通道卷积层、4个区块和3个阶段构建的LRN，LRN的优点是可以很容易地通过调整C、B和S来平衡精度和速度。

需要说明的是，图2提供了一个更轻量的主干，即stage，仅需进行3次下采样。输入了一个简单的前景软分割，它是一个通过前景深度图像(例如RGB 图像I对应的深度图像)减去背景深度图像(例如RGB背景图像B对应的深度图像)得到的二值图像。软分割作为一个简单的现成特征，同时提供了被抠取对象的注意力机制，因此使用较少的权重就能实现特征的提取。此外，阶段网络采用CCM模块来交换图像+软分割、图像+背景和图像+软分割+背景的上下文信息，充分提取边界特征。由于对于图像和trimap的后融合(late fusion)比早融合(early fusion)对于抠图网络的特征提取更加有效，本示例拓展到3个输入，CCM模块对单个输入图像进行两两后融合后，再对融合后的特征做进一步的后融合，使得不同输入的特征信息实现更加有效的匹配和学习。另外， CCM模块利用较少的卷积层来提取单个输入的特征，然后将它们拼接起来。通过这样的设计，CCM模块比对应的ResNet块模块更轻量化，因为在串联之前引入了更少的卷积通道。

此外，使用负责特征融合的FFM模块，以取代传统的拼接操作。FFM模块利用注意力机制来实现更好的编码器特征和解码器特征的融合。在编码其中结构特征经过层层提取形成高阶的语义特征，语义特征有利于模型利用更广阔的感受野(receptive field)范围来判断分割边缘的位置。比如当前景和背景颜色相近时(如黑色人体头部和黑色背景)，直接根据局部的结构信息很难判断边界(头部和黑色背景的边界)，但是利用高阶的语义信息可以通过图像识别的经验信息(如人的头部通常时圆形)来辅助分割位置的确定。FFM模块将编码器的高阶语义特征转化为空间注意力蒙版，用于指导解码器中结构信息的还原。由于只有高阶的语义特征才能提供准确的空间注意力，因此来自编码器的低阶特征并不适合采用FFM模块。所以在网络设计时仅将FFM模块应用于内部的跳跃连接(inner skipconnection)，而并不应用于外部跳跃连接(outer skip connection)。

由此可见，该网络从三个方面进行了轻量化设计。一是网络深度较浅。与 ResNet和GoogleNet等传统的主干网络不同，它们对输入进行5次下采样以提取丰富的语义线索，由于采用软分割先验，背景抠图变成一个对语义依赖较少但对结构信息依赖较多的任务，因此网络不必太深。只对输入进行3次下采样，得到的语义信息就已经足够，并保留了丰富的结构线索。二是通道较少。因为背景抠图是并不是一个分类任务，因此一个通道可以为多个对象服务。例如，图3给出了来自F_H层的单通道热图。可以注意到，该通道不加区别地捕获不同类别的前景。此外，输入的软分割提供了现成的特征，因此信息提取所需的通道更少。第三，CCM模块比其对应的残差网络更轻量化。经过比对试验证明，若将每个特征串联并利用残差模块提取高阶特征F_H，这种方法与使用CCM模块相比，产生了1.8G FLOPs的额外运算和0.3M的额外参数，并且模型性能变得比使用CCM模块更差。

在一些实施例中，训练样本集合包括多个训练样本，每个训练样本包括输入图像样本及其标注(ground truth)，输入图像样本包括3个，即具备前景的待抠图图像样本I、背景图像样本B以及前景的软分割样本S。标注α^*可以为人工标注的ground truth前景分割，例如，标注包括待抠图图像样本对应的标准透明度蒙版。在这些实施例中，使用的是带标注的训练样本，因而步骤S120 包括：在训练样本集合上对初始网络进行有监督的训练得到抠图网络。

作为这些实施例的一实现方式，利用包含493个前景对象的Adobe数据集训练初始网络，并且创建一个合成数据集。待抠图图像样本可以从Adobe数据集中选择非透明对象(比如剔除玻璃制品等)，或者，进一步的，还可以对其采用裁剪、旋转、翻转和添加高斯噪声等方法中的一种或多种的组合进行随机扩充。背景图像样本可以从MS COCO数据集中随机抽取，并通过伽马校正和添加高斯噪声等方法中的一种或多种的组合进行扩充，以避免对背景的固定值产生较强的依赖性。前景的软分割样本可以利用待抠图图像样本对应的深度图像减去背景图像样本对应的深度图像生成，例如，待抠图图像样本对应的深度图像减去背景图像样本对应的深度图像所获得的二值图像。或者，输入的前景的软分割样本可以由ground truth前景分割进行腐蚀、膨胀和模糊等操作中的一种或多种的组合来模拟有缺陷的现实世界分割。

在合成数据集(Synthetic Dataset)上的监督训练任务可以定义为更新网络参数

来降低损失函数L：

在一个实施例中，利用包含多种不同损失函数，例如包含均方误差(MSE) 损失、结构相似性(SSIM)损失和交并比(IoU)损失的混合损失函数来训练网络。MSE损失函数是用于分割监督的常规像素回归损失。SSIM损失函数对均值和标准差施加约束，来更好的预测结构一致性。在图像分割任务中通常使用的IoU损失函数更注重全局结构的优化。SSIM损失函数用于预测更精细的边界，而IoU损失函数用于预测更完整的前景。由于使用了混合损失函数，能够更精确的检测出前景和边界。在一个实施例中，采用三个不同的损失函数的加权作为混合损失函数，或称为联合损失函数，其定义为：

L＝λ₁L_MSE+λ₂L_SSIM+λ₃L_IoU。

其中，λ₁，λ₂，λ₃为三个不同损失函数各自的权重系数。在一个实施例中，三个损失函数的权重系数可以分配为λ₁＝2,λ₂＝2，λ₃＝5。L_MSE为MSE损失，L_MSE定义为：

其中，H，W分别表示图像高度和宽度；α_i,j和

表示预测的和先验的前景分割。L_SSIM为SSIM损失，L_SSIM定义为：

其中，μ，σ和μ^*，σ^*是α_i,j和

的均值和偏差。常数c₁＝0.01²和c₂＝0.03²用于避免被零除。L_IoU为IoU损失，L_IoU定义为：

其中，参数γ可以设为5，θ_i,j为像素(i,j)的难度指数，可通过下式确定：

其中，A_i，j表示像素(i，j)的相邻像素。

为了弥补合成数据与真实数据之间的差异，在本申请其他一些实施例中，除了利用带标注的合成图像进行有监督的训练，还可以利用未标注的真实图像进行无监督的知识蒸馏。

此时，训练样本集合包括多个带标注的训练样本和多个无标注的训练样本，每个带标注的训练样本包括输入图像样本及其标注；每个无标注的训练样本包括输入图像样本。需要说明的是，在这些实施例中输入图像样本也包括3个，即具备前景的待抠图图像样本I、背景图像样本B以及前景的软分割样本S。在这些实施例中，使用的是带标注和无标注的训练样本，即混合数据集，因而步骤S120包括：利用多个带标注的训练样本，对初始网络进行有监督的训练后，再利用多个无标注的训练样本进行无监督的知识蒸馏，得到抠图网络。

作为这些实施例的一实现方式，创建一个真实世界的人持物数据集，包括 1259幅标记图像作为测试集，11255幅未标记图像作为知识蒸馏训练集。所有的图像都是用深度相机录制。如图4所示为背景和前景的RGB图像和深度图像，为真实世界图像数据集，从左上到右下分别是深度背景，深度图像，软分割，彩色背景，彩色图像，ground truth前景分割。其中，软分割是通过从图像深度中减去背景深度得到的二值图像。1259张被标注的图片来自11个场景，平均每个场景包含2.5个人，每个人用1至3个姿势展示30多件商品，该数据集使得能够在真实世界的数据集上定性地评估算法。

利用包含10000张带标注的合成图像和11255张未标记的真实世界图像的混合数据集。在混合数据集上同时进行有监督的训练和无监督的知识蒸馏。在合成数据集上训练的网络被用作教师模型，该网络可为ResNet或VGG等复杂的网络模型，对于带标签的数据，用

来进行训练；而对于未标记的数据，即，用

来进行蒸馏学习。其中，

表示在合成数据集上训练的教师网络，

表示学生网络，学生网络可为本申请的轻量级抠图网络，L为混合损失函数或联合损失函数。

本申请另一实施例提供了一种抠图方法。抠图方法可以应用于电子设备，电子设备提前部署有抠图网络。在一些实施例中，抠图网络可以采用未经训练的初始网络。在其他一些实施例中，为了提高抠图的精度，抠图网络可以是初始网络，抠图网络亦可以采用前述实施例的方法进行训练得到。抠图网络包括至少一个阶段网络；所述阶段网络包括串联的CCM模块、主干区块stem和预测模块predictor。在使用抠图网络对待抠图图像进行背景抠图时，先获取待输入的三个图像，三个图像包括：包括前景的待抠图图像、背景图像和前景的软分割；将三个图像输入抠图网络输出待抠图图像的前景分割。具体地，三个图像输入CCM模块，CCM模块用于经过特征交换后输出低阶特征和高阶特征，主干区块用于基于注意力机制融合低阶特征和高阶特征得到融合特征，预测模块用于根据融合特征输出前景分割。

应理解，采用抠图网络进行背景抠图的过程可以参照前述抠图网络训练过程的相关描述，此处不再赘述。

本申请实施例提出一个轻量化实时背景抠图网络。对网络进行了较浅的结构设计，同时提出了两个网络模块，FFM模块可以实现更好的高层特征融合， CCM模块相比对应的传统的残差模块更加轻量化，有利于上下文信息的融合过程。这两个模块都在一定程度上提高了精度。为了实现更好的边界预测和前景预测，引入了一种混合损失函数，该函数综合了MSE、SSIM和IoU损失的优点。创建了包含1259幅标记图像和11255幅未标记图像的真实世界数据集，用于定量评估和知识蒸馏。在合成数据集和真实数据集上的实验表明，该方法在 PC(111FPS)和Amlogic A311D芯片(45FPS)上均取得了实时的性能表现。

基于本申请实施例提供的方法进行实验，使用学习率为10^-3的Adam优化器，用26900幅合成图像训练LRN-32-4-4模型。之所以选择LRN-32-4-4，是因为它可以很好地平衡精度和速度。在4个RTX2080ti GPU上，采用 batchsize＝16和512×512的输入分辨率对模型进行了100轮的训练。采用一个由1000个合成图像组成的测试数据集(Adobe的测试集，也称为Composite-1k) 评估模型性能。在合成数据集上对LRN-32-4-4模型进行监督训练之后，再将训练好的LRN-32-4-4模型进行蒸馏学习，获得一个更轻量级的LRN-16-4-3模型，蒸馏学习的参数设置与监督学习相同。

在实验中使用了4个指标MSE_t、SAD_t、MSE_e和SAD_e来评估模型精度。 MSE和SAD分别代表均方误差和绝对加和误差。下标“t”和“e”表示在trimap 区域和整个图像中的评估误差。之前的研究仅使用MSE_t和SAD_t指标，这对基于trimap的方法是足够的，因为前景区域是已知的。然而，对于无trimap的方法需要同时预测前景和未知区域，引入MSE_e和SAD_e指标来得到一个更完善的评估。在Composition-1k数据集上，将本申请实施例的方法与其他4种基于学习的模型进行了比较，包括基于trimap的CAM和DIM，以及无trimap的LFM 和BM。在真实数据集上，还将本申请实施例提供的模型与CAM、DIM和BM 模型进行了对比。需要说明的是，排除了与传统方法进行比较，因为它们已经被证明远不如基于学习的方法精确。

具体地，实验时在Composite-1k测试集上评估了前景分割误差，FLOPs(基于288×288分辨率)和参数数量Param.。图5所示为不同模型在Composition-1k 数据集上的速度和精度水平的比较结果。在Composition-1k数据集上不同模型的误差和速度比较结果，如下表1所示，这里本申请实施例的模型ours采用LRN-32-4-4模型。在真实数据集上不同模型的误差和速度的比较结果，如下表 2所示，这里本申请实施例的模型ours采用LRN-16-4-3模型。由于CAM和 DIM是基于trimap的方法，因此只有SAD_t和MSE_t指标。从表1和图5可以看出，本申请实施例提供的模型(LRN-32-4-4)在所有4个指标上都优于其他方法，而且它明显更轻量化。例如，在288×288的输入分辨率下，本申请实施例的方法有13.0G的FLOPs和2.2M的参数，与BM方法相比，FLOPs降低了 89.9％，参数数量Param.降低了87.7％。在GTX1060tiGPU上实现了39FPS的模型推理，满足实时推理要求，实时是指推理速度大于30FPS。

表1

表2

图6所示为在Composite-1k测试集上不同方法之间的定性比较结果示意图。本申请实施例提供的方法对背景干扰具有较强的鲁棒性。例如，它显示出更好的前景和背景区分能力，能够检测被前景包围的小背景区域。图7所示为本申请一实施例提供的方法与BM方法在真实世界图像上的比较结果示意图。从图 7可以看出，BM方法难以检测与背景颜色相同的前景，例如，白墙前面的一个白盒子。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请一实施例还提供一种抠图网络训练装置。该抠图网络训练装置中未详细描述之处请详见前述抠图网络训练方法实施例中的描述。

参见图8，图8是本申请一实施例提供的一种抠图网络训练装置的示意框图。所述抠图网络训练装置包括：获取模块81和训练模块82。

其中，获取模块81，用于获取训练样本集合和初始网络；所述训练样本集合包括多个训练样本，每个所述训练样本包括输入图像样本，所述输入图像样本包括具备前景的待抠图图像样本、背景图像样本以及所述前景的软分割样本，所述软分割样本利用所述待抠图图像样本对应的深度图像减去所述背景图像样本对应的深度图像生成；所述初始网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述输入图像样本输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出预测前景分割；

训练模块82，用于利用所述训练样本集合，训练所述初始网络得到抠图网络。

在一些实施例中，所述训练样本集合包括多个带标注的训练样本，每个带标注的所述训练样本包括所述输入图像样本及其标注。

训练模块82，具体用于：

在一些实施例中，所述训练样本集合包括多个带标注的训练样本和多个无标注的训练样本，每个带标注的所述训练样本包括所述输入图像样本及其标注；每个无标注的所述训练样本包括所述输入图像样本。

训练模块82，具体用于：

在一些实施例中，所述初始网络包括多个串联的阶段网络；所述输入图像样本作为第一个阶段网络的输入，所述待抠图图像样本、所述背景图像样本和上一个阶段网络输出的预测前景分割作为下一个阶段网络的输入。

在一些实施例中，所述阶段网络包括3次下采样。

在一些实施例中，所述主干区块包括基于注意力机制的特征融合模块。

在一些实施例中，训练模块82采用混合损失函数，混合损失函数包括均方误差损失、结构相似性损失和交并比损失。

本申请一实施例还提供一种抠图装置。该抠图装置中未详细描述之处请详见前述抠图方法实施例中的描述。

参见图9，图9是本申请一实施例提供的一种抠图装置的示意框图。所述抠图装置包括：获取模块91和抠图模块92。

其中，获取模块91，用于获取包括前景的待抠图图像、背景图像以及所述前景的软分割；

抠图模块92，包括抠图网络，抠图模块92用于将所述待抠图图像、所述背景图像以及所述软分割输入抠图网络，输出所述待抠图图像的前景分割；所述抠图网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述待抠图图像、所述背景图像以及所述前景的软分割输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出前景分割。

本申请一实施例还提供了一种电子设备，如图10所示，电子设备可以包括一个或多个处理器100(图10中仅示出一个)，存储器101以及存储在存储器 101中并可在一个或多个处理器100上运行的计算机程序102，例如，抠图网络训练的程序和/或图像抠图的程序。一个或多个处理器100执行计算机程序102 时可以实现抠图网络训练方法和/或抠图方法实施例中的各个步骤。或者，一个或多个处理器100执行计算机程序102时可以实现抠图网络训练装置和/或抠图装置实施例中各模块/单元的功能，此处不作限制。

本领域技术人员可以理解，图10仅仅是电子设备的示例，并不构成对电子设备的限定。电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。

在一个实施例中，所称处理器100可以是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在一个实施例中，存储器101可以是电子设备的内部存储单元，例如电子设备的硬盘或内存。存储器101也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字 (secure digital，SD)卡，闪存卡(flash card)等。进一步地，存储器101还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器101用于存储计算机程序以及电子设备所需的其他程序和数据。存储器101还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现抠图网络训练方法和/或抠图方法实施例中的步骤。

本申请一实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备可实现抠图网络训练方法和/或抠图方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种抠图网络训练方法，其特征在于，包括：

获取训练样本集合和初始网络；

其中，所述训练样本集合包括多个训练样本，每个所述训练样本包括输入图像样本，所述输入图像样本包括具备前景的待抠图图像样本、背景图像样本以及所述前景的软分割样本，所述软分割样本利用所述待抠图图像样本对应的深度图像减去所述背景图像样本对应的深度图像生成；

所述初始网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述输入图像样本输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出预测前景分割；

利用所述训练样本集合，训练所述初始网络得到抠图网络。

2.如权利要求1所述的抠图网络训练方法，其特征在于，所述训练样本集合包括多个带标注的训练样本，每个带标注的所述训练样本包括所述输入图像样本及其标注；

3.如权利要求1所述的抠图网络训练方法，其特征在于，所述训练样本集合包括多个带标注的训练样本和多个无标注的训练样本，每个带标注的所述训练样本包括所述输入图像样本及其标注；每个无标注的所述训练样本包括所述输入图像样本；

4.如权利要求1至3任一项所述的抠图网络训练方法，其特征在于，所述初始网络包括多个串联的阶段网络；所述输入图像样本作为第一个阶段网络的输入，所述待抠图图像样本、所述背景图像样本和上一个阶段网络输出的预测前景分割作为下一个阶段网络的输入。

5.如权利要求1至3任一项所述的抠图网络训练方法，其特征在于，所述阶段网络包括3次下采样。

6.如权利要求1至3任一项所述的抠图网络训练方法，其特征在于，训练采用混合损失函数，所述混合损失函数包括均方误差损失、结构相似性损失和交并比损失。

7.一种抠图方法，其特征在于，包括：

将所述待抠图图像、所述背景图像以及所述软分割输入抠图网络，输出所述待抠图图像的前景分割；

其中，所述抠图网络包括至少一个阶段网络；所述阶段网络包括串联的环境组合模块、主干区块和预测模块，所述待抠图图像、所述背景图像以及所述前景的软分割输入所述环境组合模块，所述环境组合模块用于经过特征交换后输出低阶特征和高阶特征，所述主干区块用于基于注意力机制融合所述低阶特征和所述高阶特征得到融合特征，所述预测模块用于根据所述融合特征输出前景分割。

8.一种抠图网络训练装置，其特征在于，包括：

9.一种抠图装置，其特征在于，包括：

抠图模块，包括抠图网络，所述抠图模块用于将所述待抠图图像、所述背景图像以及所述软分割输入所述抠图网络，输出所述待抠图图像的前景分割；

10.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的抠图网络训练方法，或实现如权利要求7所述的抠图方法。

11.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的抠图网络训练方法，或实现如权利要求7所述的抠图方法。