CN117788509A

CN117788509A - 抠图方法、装置、电子设备及存储介质

Info

Publication number: CN117788509A
Application number: CN202311870648.XA
Authority: CN
Inventors: 陶晓天; 王建社; 许敏强; 方四安; 柳林
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-29

Abstract

本发明提供一种抠图方法、装置、电子设备及存储介质，其中方法包括：确定待抠图图像，以及确定所述待抠图图像的初始抠图结果；对所述待抠图图像进行语义分割，得到语义分割结果；基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。本发明提供的方法、装置、电子设备及存储介质，基于语义分割结果对初始抠图结果进行调整，相当于对初始抠图结果中的边缘模糊区域进行二次判定，从而解决在初始抠图结果中会出现前景物体边界模糊的问题，实现更好的边缘分割能力，进一步实现更精准的抠图效果。

Description

抠图方法、装置、电子设备及存储介质

技术领域

本发明涉及抠图技术领域，尤其涉及一种抠图方法、装置、电子设备及存储介质。

背景技术

抠图是计算机视觉领域重点的研究方向之一，是一种从图像中精准提取前景对象不透明信息的技术。

目前，抠图方法可分为传统方法和深度学习方法，传统的抠图方法主要基于低层次的像素对相似度，而且相似度仅仅基于颜色或人工的特征。然而深度学习方法可以提取到图像语义级别的像素间相似度，可以更好的实现图像抠图，因此基于深度卷积神经网络的抠图方法被广泛使用，逐渐替代了传统的数学方法，通过卷积核在输入图像滑动和计算内积来提取图像中的空间特征信息。

U2net为近些年来在图像抠图领域效果较好的模型，但是U2net在处理一些背景与显著性物体对比度和色彩度相似的图像时会出现前景物体边界模糊的问题。

发明内容

本发明提供一种抠图方法、装置、电子设备及存储介质，用以解决现有技术中U2net在处理一些背景与显著性物体对比度和色彩度相似的图像时会出现前景物体边界模糊的缺陷。

本发明提供一种抠图方法，包括：

确定待抠图图像，以及确定所述待抠图图像的初始抠图结果；

对所述待抠图图像进行语义分割，得到语义分割结果；

基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。

根据本发明提供的一种抠图方法，所述基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果，包括：

确定所述初始抠图结果中的待调整像素点；

基于所述待调整像素点在所述初始抠图结果中的灰度值，以及所述待调整像素点在所述语义分割结果中的分割概率，确定所述待调整像素点在所述目标抠图结果中的灰度值。

根据本发明提供的一种抠图方法，所述基于所述待调整像素点在所述初始抠图结果中的灰度值，以及所述待调整像素点在所述语义分割结果中的分割概率，确定所述待调整像素点在所述目标抠图结果中的灰度值，包括：

在所述待调整像素点在所述语义分割结果中的分割概率大于等于第一预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值小于第二预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为第一预设灰度值；

在所述待调整像素点在所述语义分割结果中的分割概率大于等于第三预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值大于所述第二预设阈值且小于第四预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为所述第一预设灰度值；

在所述待调整像素点在所述语义分割结果中的分割概率小于所述第三预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值大于所述第二预设阈值且小于所述第四预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为第二预设灰度值；

在所述待调整像素点在所述语义分割结果中的分割概率小于所述第一预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值小于所述第二预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为所述第二预设灰度值；

将所述待调整像素点在所述目标抠图结果中的灰度值为所述第二预设灰度值的图像区域设置为背景区域，并将所述待调整像素点在所述目标抠图结果中的灰度值为所述第一预设灰度值的图像区域设置为前景区域。

根据本发明提供的一种抠图方法，所述对所述待抠图图像进行语义分割，得到语义分割结果，包括：

基于至少两种语义分割模型，分别对所述待抠图图像进行语义分割，得到至少两种初始语义分割结果；

基于所述至少两种初始语义分割结果，确定所述语义分割结果。

根据本发明提供的一种抠图方法，所述至少两种语义分割模型的模型结构互不相同。

根据本发明提供的一种抠图方法，所述确定所述待抠图图像的初始抠图结果，包括：

基于目标抠图模型，确定所述待抠图图像的初始抠图结果；

所述目标抠图模型的训练步骤包括：

获取样本图像、所述样本图像的抠图标签，以及初始抠图模型，所述初始抠图模型包括多个串联的解码层；

基于所述初始抠图模型，对所述样本图像的图像特征进行逐层解码，得到各解码层输出的解码特征，并对所述各解码层输出的解码特征进行抠图分类，得到所述各解码层对应的预测抠图结果；

基于所述抠图标签与所述各解码层对应的预测抠图结果，对所述初始抠图模型进行参数迭代，得到所述目标抠图模型。

根据本发明提供的一种抠图方法，所述基于所述抠图标签与所述各解码层对应的预测抠图结果，对所述初始抠图模型进行参数迭代，得到所述目标抠图模型，包括：

基于所述初始抠图模型，对所述各解码层输出的解码特征进行融合，并对融合后的解码特征进行抠图分类，得到预测融合抠图结果；

基于所述抠图标签与所述各解码层对应的预测抠图结果，以及所述抠图标签和所述预测融合抠图结果，对所述初始抠图模型进行参数迭代，得到所述目标抠图模型。

本发明还提供一种抠图装置，包括：

确定单元，用于确定待抠图图像，以及确定所述待抠图图像的初始抠图结果；

语义分割单元，用于对所述待抠图图像进行语义分割，得到语义分割结果；

调整单元，用于基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述抠图方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述抠图方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述抠图方法。

本发明提供的抠图方法、装置、电子设备及存储介质，确定待抠图图像，以及确定待抠图图像的初始抠图结果，再对待抠图图像进行语义分割，得到语义分割结果，最后，基于语义分割结果对初始抠图结果进行调整，得到目标抠图结果。此过程基于语义分割结果对初始抠图结果进行调整，相当于对初始抠图结果中的边缘模糊区域进行二次判定，从而解决在初始抠图结果中会出现前景物体边界模糊的问题，实现更好的边缘分割能力，进一步实现更精准的抠图效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的抠图方法的流程示意图；

图2是本发明提供的抠图方法中步骤130的流程示意图；

图3是本发明提供的抠图方法中步骤132的流程示意图；

图4是本发明提供的抠图方法中步骤120的流程示意图；

图5是本发明提供的目标抠图模型的训练步骤的流程示意图；

图6是本发明提供的抠图方法中步骤530的流程示意图；

图7是本发明提供的抠图装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类。

相关技术中，随着图像处理技术的快速发展，如会议软件也支持在直播中实时将自己真实的背景替换为自己选择的背景，其中就应用到了抠图技术，抠图效果越好，真实感越高。还有图像处理软件中的抠图技术也被大众广泛使用，非专业人员也可以编辑制作出精美、高质量的图像。但是目前的抠图算法在处理一些背景与前景物体对比度，色彩度相似的图像时，抠图结果会出现前景物体边界模糊的问题。

对于图像中的前景提取，图像分割算法为图像中每个像素预测一个离散的语义标签，是一种硬分割。硬分割对于包含网状物体、半透明的物体、镂空物体、毛发细节信息丰富的图像，得到的结果往往视觉效果欠佳。而抠图作为一种软分割，可以很好的解决图像分割遇到的难题。相比于图像分割这种求解像索的分类问题，抠图所要求解的是逐像素的离散值，本质上是一个回归问题，也是一个极具有挑战的任务。

目前，抠图方法可分为传统方法和深度学习方法，传统的抠图方法大多数都是基于颜色采样或传播的方法，而这些方法都是基于图像的颜色、位置或者低层次的特征来预测最终的mask，具体可分为以下两种，一种是基于颜色采样的方法，该方法认为图像的局部区域是连续的，具有颜色相似的近邻像素，依据图像统计上的局部平滑假设，通过采样未知像素周围近邻的已知前景、背景像素来估计其Alpha matte。一种是基于α传播的方法。而基于α传播的方法避免了采样方法可能产生的不连续性，未知区域的α值将会由邻近的已知前景和背景区域的α值传播得到。这种原理决定了最终的mask具有局部平滑的特征。

传统的抠图方法主要基于低层次的像素对相似度，而且相似度仅仅基于颜色或人工的特征。然而深度学习方法可以提取到图像语义级别的像素间相似度，可以更好的实现图像抠图，因此基于深度卷积神经网络的抠图方法被广泛使用，逐渐替代了传统的数学方法，通过卷积核在输入图像滑动和计算内积来提取图像中的空间特征信息。U2net为近些年来在图像抠图领域效果较好的模型，但是U2net在处理一些背景与显著性物体对比度和色彩度相似的图像时会出现前景物体边界模糊的问题。

基于上述问题，本发明提供一种抠图方法，图1是本发明提供的抠图方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待抠图图像，以及确定所述待抠图图像的初始抠图结果。

具体地，可以确定待抠图图像，待抠图图像是指后续需要进行抠图的图像，待抠图图像可以是通过图像采集设备预先采集得到的，也可以是实时拍摄得到的，还可以是通过互联网下载或者扫描得到的，本发明实施例对此不作具体限定。

需要说明的是，本发明实施例中的待抠图图像可以为任意类型的包含目标抠图对象的三通道RGB图像，该目标抠图对象可以是图像中的人物，也可以是图像中的实物等。如待抠图图像为自动驾驶过程中获取的道路图像时，该道路图像中的目标抠图对象可以是汽车、行人、红绿灯以及道路等，具体的目标抠图对象的确定过程可以根据实际情况进行选择，本发明实施例对此不作具体限定。

可以理解的是，本发明实施例中的三通道RGB图像表示具有红、绿、蓝三个颜色通道的彩色图像。在计算机中，每个像素都由一个RGB三元组表示，其中每个通道的取值范围是0-255。在图像处理中，不仅可以通过增强或减弱某个通道的值来实现一些特定的效果，或者使用RGB三通道来分离出特定的对象或特征，还可以通过语义分割等方式来判断图像中每个像素点的类别，并进行精确分割，如本发明实施例中的抠图方法等。

进一步地，在获取到待抠图图像后，还可以对待抠图图像进行预处理操作，该预处理操作包括但不限于归一化处理、锐化处理、去噪处理等。其中，归一化处理指的是将数据向量每个维度的数据映射到(0，1)或(-1，1)之间的区间，或者将数据向量的某个范数映射为1。

可以理解的是，待抠图图像的像素值为0～255范围内的整数，虽然可以直接将原图像的像素数据直接作为神经网络模型的训练数据，但可能给模型的训练过程带来一些问题，例如导致模型训练速度变慢、迭代次数过多导致收敛变慢等。因此，还可以通过归一化处理的方式来提升模型训练效率。

这里的锐化处理是指补偿图像的轮廓，增强图像的边缘及灰度跳变的部分，使图像变得清晰，其可分为空间域处理和频域处理两类。通过突出图像上地物的边缘、轮廓，或某些线性目标要素的特征，以提高地物边缘与周围像元之间的反差。去噪处理是指减少数字图像中噪声的过程，一般的，在图像进行数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，即接收获得到的图像信息中一般包括有噪声，而这些噪声将成为图像干扰的重要原因，通过对图像进行去噪处理，以使图像中的噪声被去除，进一步提高得到的图像的真实性和准确性。

上述通过对确定的待抠图图像进行预处理操作，可以使得待抠图图像被缩放到合适尺寸，并有效提升图像本身的清晰度，便于后续对待抠图图像进行处理。

在确定待抠图图像之后，可以确定待抠图图像的初始抠图结果，此处，可以使用目标抠图模型确定待抠图图像的初始抠图结果，其中，目标抠图模型可以是U2net，也可以是Bayesian-based matting(贝叶斯抠图)，还可以是Laplacian-based matting(拉普拉斯抠图)、KNN matting(K最近邻抠图)、Poisson-matting(泊松抠图)和Closed-form matting(闭形式抠图)等，本发明实施例对此不作具体限定。

步骤120，对所述待抠图图像进行语义分割，得到语义分割结果。

具体地，可以对待抠图图像进行语义分割，得到语义分割结果，此处，可以基于多种语义分割模型，分别对待抠图图像进行语义分割，得到多种初始语义分割结果，并对多种初始语义分割结果进行融合，得到语义分割结果。

此处的多种语义分割模型的模型结构互不相同，即多种语义分割模型可以是同一语义分割模型，而语义分割模型的模型参数不同，多种语义分割模型的模型类型也可以不同，例如可以是基于深度卷积神经网络的语义分割模型、金字塔场景解析模型和双向分割模型等，还可以是多种语义分割模型提取的特征尺度不同等，本发明实施例对此不作具体限定。

步骤130，基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。

具体地，由于目标抠图模型例如U2net等，为近些年来在图像抠图领域效果较好的模型，但是U2net在处理一些背景与前景目标对比度，色彩度等颜色特征相似的图像时，在初始抠图结果中会出现前景物体边界模糊的问题。

因此，可以基于语义分割结果对初始抠图结果进行调整，得到目标抠图结果。此处，目标抠图结果即最终得到的待抠图图像的抠图结果。

需要说明的是，基于语义分割结果对初始抠图结果进行调整，主要是基于语义分割结果对初始抠图结果中的待调整像素点的灰度值进行再次判定，即判定初始抠图结果中的待调整像素点的灰度值对应的图像区域属于目标抠图结果中的前景区域还是背景区域，从而解决在初始抠图结果中会出现前景物体边界模糊的问题，从而进一步实现更精准的抠图效果。

本发明实施例提供的方法，确定待抠图图像，以及确定待抠图图像的初始抠图结果，再对待抠图图像进行语义分割，得到语义分割结果，最后，基于语义分割结果对初始抠图结果进行调整，得到目标抠图结果。此过程基于语义分割结果对初始抠图结果进行调整，相当于对初始抠图结果中的边缘模糊区域进行二次判定，从而解决在初始抠图结果中会出现前景物体边界模糊的问题，实现更好的边缘分割能力，进一步实现更精准的抠图效果。

基于上述实施例，图2是本发明提供的抠图方法中步骤130的流程示意图，如图2所示，步骤130包括：

步骤131，确定所述初始抠图结果中的待调整像素点；

步骤132，基于所述待调整像素点在所述初始抠图结果中的灰度值，以及所述待调整像素点在所述语义分割结果中的分割概率，确定所述待调整像素点在所述目标抠图结果中的灰度值。

具体地，可以确定初始抠图结果中的待调整像素点，此处的待调整像素点是指初始抠图结果中的边缘模糊区域中的像素点，即初始抠图结果中灰度值大于0小于255的像素点。

在确定初始抠图结果中的待调整像素点之后，可以基于待调整像素点在初始抠图结果中的灰度值，以及待调整像素点在语义分割结果中的分割概率，确定待调整像素点在目标抠图结果中的灰度值。

此处，待调整像素点在语义分割结果中的分割概率，是指模型对于每一个像素属于各类别的概率预测。在语义分割任务中，主要目标是对图像中的每个像素进行分类，这包括为每个像素分配一个特定的类别标签，这些标签通常对应不同的物体类别(如人、狗、公共汽车、自行车)和背景成分(如天空、道路、建筑物、山)。因此，待调整像素点在语义分割结果中的分割概率代表了模型对于每个待调整像素点属于各类别的可能性预测。

可以理解的是，语义分割能够实现对待抠图图像的精细划分，因此，结合待调整像素点在语义分割结果中的分割概率，确定待调整像素点在目标抠图结果中的灰度值，可以进一步提高后续目标抠图的准确性和可靠性。

即，结合待调整像素点在初始抠图结果中的灰度值，以及待调整像素点在语义分割结果中的分割概率，对初始抠图结果中灰度值大于0小于255的像素点(待调整像素点)进行二次判定，重新确定待调整像素点在目标抠图结果中的灰度值，并基于重新确定的待调整像素点在目标抠图结果中的灰度值，确定待调整像素点属于前景区域还是背景区域，从而实现对边缘模糊区域中的像素点的二次判定，实现更好的边缘分割能力，提高了目标抠图的准确性和可靠性。

本发明实施例提供的方法，确定初始抠图结果中的待调整像素点，再基于待调整像素点在初始抠图结果中的灰度值，以及待调整像素点在语义分割结果中的分割概率，确定待调整像素点在目标抠图结果中的灰度值，对初始抠图结果中灰度值大于0小于255的像素点(待调整像素点)进行二次判定，从而实现对边缘模糊区域中的像素点的二次判定，实现更好的边缘分割能力，提高了目标抠图的准确性和可靠性。

基于上述实施例，图3是本发明提供的抠图方法中步骤132的流程示意图，如图3所示，步骤132包括：

步骤1321，在所述待调整像素点在所述语义分割结果中的分割概率大于等于第一预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值小于第二预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为第一预设灰度值；

步骤1322，在所述待调整像素点在所述语义分割结果中的分割概率大于等于第三预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值大于所述第二预设阈值且小于第四预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为所述第一预设灰度值；

步骤1323，在所述待调整像素点在所述语义分割结果中的分割概率小于所述第三预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值大于所述第二预设阈值且小于所述第四预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为第二预设灰度值；

步骤1324，在所述待调整像素点在所述语义分割结果中的分割概率小于所述第一预设阈值，且所述待调整像素点在所述初始抠图结果中的灰度值小于所述第二预设阈值的情况下，确定所述待调整像素点在所述目标抠图结果中的灰度值为所述第二预设灰度值；

步骤1325，将所述待调整像素点在所述目标抠图结果中的灰度值为所述第二预设灰度值的图像区域设置为背景区域，并将所述待调整像素点在所述目标抠图结果中的灰度值为所述第一预设灰度值的图像区域设置为前景区域。

具体地，结合下述公式进行说明：

S_sum＝w_DS_D+w_pS_p+w_BS_B

M_U＝255，if M_U＞50

M_U＝255，if M_U＜5and S_sum≥2.5

M_u＝255，if5＜M_u＜50and S_sum≥1.5

M_U＝0，if5＜M_U＜50and S_sum＜1.5

M_U＝0，if M_U＜5and S_sum＜2.5

其中，S_sum表示待调整像素点在语义分割结果中的分割概率，M_U表示待调整像素点在初始抠图结果中的灰度值，S_D，S_P，S_B表示多个语义分割模型分别输出的语义分割结果中的分割概率，w_D、w_p、w_B分别表示多个语义分割模型分别输出的语义分割结果中的分割概率的权重系数，2.5表示第一预设阈值，5表示第二预设阈值，1.5表示第三预设阈值，50表示第四预设阈值，255表示第一预设灰度值，0表示第二预设灰度值。

需要说明的是，本发明实施例中w_D、w_p、w_B可以分别设置为1.5、1和1，本发明实施例对此不作具体限定。

即，在待调整像素点在语义分割结果中的分割概率S_sum大于等于第一预设阈值2.5，且待调整像素点在初始抠图结果中的灰度值M_U小于第二预设阈值5的情况下，确定待调整像素点在目标抠图结果中的灰度值M_U为第一预设灰度值255。

在待调整像素点在语义分割结果中的分割概率S_sum大于等于第三预设阈值1.5，且待调整像素点在初始抠图结果中的灰度值M_U大于第二预设阈值5且小于第四预设阈值50的情况下，确定待调整像素点在目标抠图结果中的灰度值M_U为第一预设灰度值255。

在待调整像素点在语义分割结果中的分割概率S_sum小于第三预设阈值1.5，且待调整像素点在初始抠图结果中的灰度值M_U大于第二预设阈值5且小于第四预设阈值50的情况下，确定待调整像素点在目标抠图结果中的灰度值M_U为第二预设灰度值0。

在待调整像素点在语义分割结果中的分割概率S_sum小于第一预设阈值2.5，且待调整像素点在初始抠图结果中的灰度值M_U小于第二预设阈值5的情况下，确定待调整像素点在目标抠图结果中的灰度值M_U为第二预设灰度值0。

最后，可以将待调整像素点在目标抠图结果中的灰度值为第二预设灰度值0的图像区域设置为背景区域，并将待调整像素点在目标抠图结果中的灰度值为第一预设灰度值255的图像区域设置为前景区域。

本发明实施例提供的方法，通过待调整像素点在语义分割结果中的分割概率，对待调整像素点在初始抠图结果中的灰度值大于第一预设灰度值0小于第二预设灰度值255的边缘模糊区域进行判断，得到待调整像素点在目标抠图结果中的灰度值，从而基于待调整像素点在目标抠图结果中的灰度值，确定待抠图图像中的背景区域和前景区域，对初始抠图结果中的边缘模糊区域进行二次判定，实现更好的边缘分割能力，提升抠图效果。

基于上述实施例，图4是本发明提供的抠图方法中步骤120的流程示意图，如图4所示，步骤120包括：

步骤121，基于至少两种语义分割模型，分别对所述待抠图图像进行语义分割，得到至少两种初始语义分割结果；

步骤122，基于所述至少两种初始语义分割结果，确定所述语义分割结果。

具体地，可以基于至少两种语义分割模型，分别对待抠图图像进行语义分割，得到至少两种初始语义分割结果。

此处，至少两种语义分割模型即两种及两种以上的语义分割模型，至少两种语义分割模型可以包括基于深度卷积神经网络的语义分割模型、金字塔场景解析模型和双向分割模型等，本发明实施例对此不作具体限定。

其中，基于深度卷积神经网络的语义分割模型可以是Deeplabv3模型，Deeplabv3通过使用空洞卷积和多尺度上下文信息，可以更好地捕捉物体和区域的细节和上下文信息。复杂的多尺度特征融合网络使其具备强大的语义理解能力，可以准确地分割不同的物体和区域。

其中，金字塔场景解析模型可以是Pspnet，Pspnet的金字塔池化模块(pyramidpooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力，将局部和全局信息融合到一起，提高网络对小目标和大目标的对象的性能。

其中，双向分割模型可以是Bisenetv1(Bilateral Segmentation Network)，Bisenetv1是一个轻量级的分割模型，是一个具备双支路的网络结构，分别为Spatial Path和Context path，一条分支负责解决丰富的空间信息的需求，一条分支用来解决大的感受野(或者丰富的上下文语义信息)的需求。最后再通过一定的方式将两条路融合起来，保留一些边缘区域的特征信息，使边缘的分割效果更好。

在得到至少两种语义分割结果之后，可以基于至少两种初始语义分割结果，确定语义分割结果。

即，可以对至少两种初始语义分割结果进行直接融合，或者对至少两种初始语义分割结果进行加权融合，得到语义分割结果。

可以理解的是，基于至少两种初始语义分割结果融合得到的语义分割结果对初始抠图结果中的边界模糊区域进行处理，更好地保留了特征图像的全局和局部信息，提高了初始抠图模型的边界信息提取能力，提升了抠图效果。

本发明实施例提供的方法，基于至少两种语义分割模型，分别对待抠图图像进行语义分割，得到至少两种初始语义分割结果，再基于至少两种初始语义分割结果，确定语义分割结果。此过程通过至少两种语义分割模型的特点，与目标抠图模型取长补短，实现更好的边缘分割能力，提高目标抠图的准确性和可靠性。

基于上述实施例，所述至少两种语义分割模型的模型结构互不相同。

具体地，至少两种语义分割模型的模型结构互不相同，即至少两种语义分割模型可以是同一语义分割模型，而语义分割模型的模型参数不同，至少两种语义分割模型的模型类型也可以不同，例如可以是基于深度卷积神经网络的语义分割模型、金字塔场景解析模型和双向分割模型等，还可以是至少两种语义分割模型提取的特征尺度不同等，本发明实施例对此不作具体限定。

并且，在至少两种语义分割模型的模型类型不同的情况下，模型类型可以包括Deeplabv3模型、Pspnet，以及Bisenetv1等，本发明实施例对此不作具体限定。

基于上述实施例，步骤110中所述确定所述待抠图图像的初始抠图结果，包括：

步骤111，基于目标抠图模型，确定所述待抠图图像的初始抠图结果。

具体地，可以基于目标抠图模型，确定待抠图图像的初始抠图结果。此处，目标抠图模型可以是U2net，也可以是Bayesian-based matting，还可以是Laplacian-basedmatting、KNN matting、Poisson-matting和Closed-form matting等，本发明实施例对此不作具体限定。

其中，U2net的结构主要由6个编码器(Encoder)和5个解码器(Decoder)组成。输入图像为320×320大小时，在编码器Enc_1,Enc_2，Enc_3和Enc_4阶段后层输出160×160，80×80，40×40，20×20的特征图。

且上述特征图有不同深度的RSU(ReSidual Ublock)模块，分别为RSU-7，RSU-6，RSU-5，RSU-4。RSU后面的数字如7、6、5、4是RSU的深度D。D是根据输入特征图的空间分辨率进行配置，可以融合不同尺度感受野的特征，能够捕获更多不同尺度的上下文信息(contextual information)。且RSU模块中的池化(pooling)操作，在不显著增加计算成本的情况下，加深网络结构的深度，适合提取更深层次的语义信息。

经过前四个编码器阶段后，特征图的分辨率相对较低，为10×10。继续对特征图采取下采样操作，会导致小目标特征的丢失。因此，在Enc_5和Enc_6中，利用膨胀因子为4的膨胀卷积来代替合并(Concatenation)和上采样(Upsample)操作，使输入输出的特征图分辨率一致。

经过6个编码器模块操作后，由下至上进行Dec_5至Dec_1解码器模块操作，解码器模块的结构与对称的编码器相似。每个解码器阶段都采用其前一阶段的上采样特征图和来自其对称编码器的输出作为输入。将不同深度的特征进行融合，不仅可以避免网络太深，导致浅层特征消失的问题，还丰富了网络提取的特征信息。

最后Enc_6和5个解码器的输出均分别通过一个3x3的卷积层得到channel为1的特征图，接着通过双线性插值缩放到输入图片大小得到Su1、Su2、Su3、Su4、Su5和Su6，然后将这6个特征图进行Concat拼接。最后通过一个1x1的卷积层以及Sigmiod激活函数得到最终的初始抠图结果。

基于上述实施例，图5是本发明提供的目标抠图模型的训练步骤的流程示意图，如图5所示，目标抠图模型的训练步骤包括：

步骤510，获取样本图像、所述样本图像的抠图标签，以及初始抠图模型，所述初始抠图模型包括多个串联的解码层；

步骤520，基于所述初始抠图模型，对所述样本图像的图像特征进行逐层解码，得到各解码层输出的解码特征，并对所述各解码层输出的解码特征进行抠图分类，得到所述各解码层对应的预测抠图结果；

步骤530，基于所述抠图标签与所述各解码层对应的预测抠图结果，对所述初始抠图模型进行参数迭代，得到所述目标抠图模型。

具体地，可以预先收集样本图像、样本图像的抠图标签，还可以预先构建初始抠图模型，此处，初始抠图模型包括多个串联的解码层，初始抠图模型可以是U2net，也可以是Bayesian-based matting，还可以是Laplacian-based matting、KNN matting、Poisson-matting和Closed-form matting等，本发明实施例对此不作具体限定。

此处，样本图像的抠图标签可以用GT(Ground Truths)表示。

其中，样本图像可以来源于训练集，训练集可以为DUTS数据集，DUTS数据集是一个包含10553张训练图像和5019张测试图像的抠图(显著性检测)数据集，目前，它是最大和最常用于抠图(显著目标检测)的数据集。并通过旋转，平移，翻转来增强此数据集以获得25000张训练图像。并按照8：1：1重新划分训练集，验证集和测试集。

在训练过程中，利用多尺度训练策略，首先将每个样本图像的大小随机缩放为384×384，320×320，256×256，并将对应的mask标签进行缩放，再利用Xavier方法对网络的参数进行初始化。优化器选用Adam，训练的超参数设置：初始学习率(lr)为0.003，权重衰减(weight decay)设为0.001。Batchsize设置为32，为了充分学习到图像特征，迭代次数设为100000轮。

将重新划分得到的训练集基于设置的训练超参数，送入初始抠图模型中进行迭代，优化初始抠图模型的参数。

在得到初始抠图模型之后，即可以应用预先收集好的样本图像以及样本图像的抠图标签，对初始抠图模型进行训练：

首先，基于初始抠图模型，对样本图像的图像特征进行逐层解码，得到各解码层输出的解码特征，并对各解码层输出的解码特征进行抠图分类，得到各解码层对应的预测抠图结果。此处，样本图像的图像特征是基于初始抠图模型中的多个串联的编码层得到的。

此处，对各解码层输出的解码特征进行抠图分类可以使用Sigmoid激活函数，也可以使用GELU(Gaussian Error Linear Unit)激活函数，还可以使用ReLU(RectifiedLinear Units)激活函数等，本发明实施例对此不作具体限定。

此处，各解码层输出的解码特征可以用Su1、Su2、Su3、Su4和Su5表示。

在得到各解码层对应的预测抠图结果之后，即可将各解码层对应的预测抠图结果与预先收集的抠图标签进行比较，根据此两者之间的差异程度计算得到第一损失函数值，并基于第一损失函数值对初始抠图模型进行参数迭代，将完成参数迭代之后的初始抠图模型记为目标抠图模型。

此外，还可以将多个串联的编码层的最后一层编码层输出的样本图像的图像特征Enc_6，通过双线性插值缩放到样本图像的大小得到Su6，并对Su6进行抠图分类，得到Su6对应的预测抠图结果，最后，对Su6对应的预测抠图结果与预先收集的抠图标签进行比较，并基于此两者之间的差异程度计算得到损失函数值，将损失函数值与第一损失函数值相加作为目标损失函数值，并基于目标损失函数值对初始抠图模型进行参数迭代，将完成参数迭代之后的初始抠图模型记为目标抠图模型。

可以理解的是，各解码层对应的预测抠图结果与预先收集的抠图标签之间的差异程度越大，第一损失函数值越大；各解码层对应的预测抠图结果与预先收集的抠图标签之间的差异程度越小，第一损失函数值越小。

可以理解的是，参数迭代之后的目标抠图模型，与初始抠图模型具备相同的结构。

此处，可以使用交叉熵损失函数(Cross Entropy Loss Function)，也可以使用均方误差损失函数(Mean Squared Error，MSE)，同时使用随机梯度下降法对初始抠图模型的参数进行更新，本发明实施例对此不作具体限定。

基于上述实施例，图6是本发明提供的抠图方法中步骤530的流程示意图，如图6所示，步骤530包括：

步骤531，基于所述初始抠图模型，对所述各解码层输出的解码特征进行融合，并对融合后的解码特征进行抠图分类，得到预测融合抠图结果；

步骤532，基于所述抠图标签与所述各解码层对应的预测抠图结果，以及所述抠图标签和所述预测融合抠图结果，对所述初始抠图模型进行参数迭代，得到所述目标抠图模型。

具体地，可以基于初始抠图模型，对各解码层输出的解码特征进行融合，并对融合后的解码特征进行抠图分类，得到预测融合抠图结果。

此处对各解码层输出的解码特征进行融合，可以是将各解码层输出的解码特征进行拼接，还可以是利用注意力机制将各解码层输出的解码特征进行加权之后再拼接，本发明实施例对此不作具体限定。

此处，对融合后的解码特征进行抠图分类可以使用1x1卷积层和一个Sigmoid激活函数，也可以使用1x1卷积层和一个GELU激活函数，还可以使用1x1卷积层和一个ReLU激活函数等，本发明实施例对此不作具体限定。

此外，预测融合抠图结果还可以是各解码层输出的解码特征和Su6融合后的融合特征进行抠图分类得到的。

在得到预测融合抠图结果之后，即可将预测融合抠图结果与预先收集的抠图标签进行比较，根据此两者之间的差异程度计算得到第二损失函数值。

可以理解的是，预测融合抠图结果与预先收集的抠图标签之间的差异程度越大，第二损失函数值越大；预测融合抠图结果与预先收集的抠图标签之间的差异程度越小，第二损失函数值越小。

在基于抠图标签与各解码层对应的预测抠图结果确定第一损失函数值，以及基于抠图标签和预测融合抠图结果确定第二损失函数值之后，即可基于第一损失函数值和第二损失函数值之和，或者加权之和，对初始抠图模型进行参数迭代，将完成参数迭代之后的初始抠图模型记为目标抠图模型。

此处，基于第一损失函数值和第二损失函数值之和，对初始抠图模型进行参数迭代的公式如下：

其中，表示第一损失函数值，w_fusel_fuse表示第二损失函数值，/>和l_fuse均表示二值交叉熵损失(binarycross-entropyloss)，/>和w_fuse是各损失之间的平衡系数，w等于1，M为6即Su1至Su6。

基于上述任一实施例，一种抠图方法，步骤如下：

第一步，确定待抠图图像。

第二步，基于目标抠图模型，确定待抠图图像的初始抠图结果。

第三步，基于至少两种语义分割模型，分别对待抠图图像进行语义分割，得到至少两种初始语义分割结果，并基于至少两种初始语义分割结果，确定语义分割结果。

其中，至少两种语义分割模型的模型结构互不相同。

第四步，确定初始抠图结果中的待调整像素点，在待调整像素点在语义分割结果中的分割概率大于等于第一预设阈值，且待调整像素点在初始抠图结果中的灰度值小于第二预设阈值的情况下，确定待调整像素点在所述目标抠图结果中的灰度值为第一预设灰度值；

在待调整像素点在语义分割结果中的分割概率大于等于第三预设阈值，且待调整像素点在初始抠图结果中的灰度值大于第二预设阈值且小于第四预设阈值的情况下，确定待调整像素点在目标抠图结果中的灰度值为第一预设灰度值；

在待调整像素点在语义分割结果中的分割概率小于第三预设阈值，且待调整像素点在初始抠图结果中的灰度值大于第二预设阈值且小于第四预设阈值的情况下，确定待调整像素点在目标抠图结果中的灰度值为第二预设灰度值；

在待调整像素点在语义分割结果中的分割概率小于第一预设阈值，且待调整像素点在初始抠图结果中的灰度值小于第二预设阈值的情况下，确定待调整像素点在目标抠图结果中的灰度值为第二预设灰度值；

将待调整像素点在目标抠图结果中的灰度值为第二预设灰度值的图像区域设置为背景区域，并将待调整像素点在目标抠图结果中的灰度值为第一预设灰度值的图像区域设置为前景区域。

此处，目标抠图模型的训练步骤包括：

获取样本图像、样本图像的抠图标签，以及初始抠图模型，初始抠图模型包括多个串联的解码层；

基于初始抠图模型，对样本图像的图像特征进行逐层解码，得到各解码层输出的解码特征，并对各解码层输出的解码特征进行抠图分类，得到各解码层对应的预测抠图结果；

基于初始抠图模型，对各解码层输出的解码特征进行融合，并对融合后的解码特征进行抠图分类，得到预测融合抠图结果；

基于抠图标签与各解码层对应的预测抠图结果，以及抠图标签和预测融合抠图结果，对初始抠图模型进行参数迭代，得到目标抠图模型。

本发明实施例提供的方法，针对初始抠图模型例如U2net等，在处理前景和背景对比度等颜色特征相似的图像时，在初始抠图结果中会出现前景物体边界模糊的问题，本发明实施例中利用多个语义分割模型对初始抠图结果的边界模糊区域进行再次判定，重新判断边界模糊区域是前景区域还是背景区域，实现更精准的抠图效果。

下面对本发明提供的抠图装置进行描述，下文描述的抠图装置与上文描述的抠图方法可相互对应参照。

基于上述任一实施例，本发明提供一种抠图装置，图7是本发明提供的抠图装置的结构示意图，如图7所示，该装置包括：

确定单元710，用于确定待抠图图像，以及确定所述待抠图图像的初始抠图结果；

语义分割单元720，用于对所述待抠图图像进行语义分割，得到语义分割结果；

调整单元730，用于基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。

本发明实施例提供的装置，确定待抠图图像，以及确定待抠图图像的初始抠图结果，再对待抠图图像进行语义分割，得到语义分割结果，最后，基于语义分割结果对初始抠图结果进行调整，得到目标抠图结果。此过程基于语义分割结果对初始抠图结果进行调整，相当于对初始抠图结果中的边缘模糊区域进行二次判定，从而解决在初始抠图结果中会出现前景物体边界模糊的问题，实现更好的边缘分割能力，进一步实现更精准的抠图效果。

基于上述任一实施例，调整单元730，具体包括：

确定待调整像素点单元，用于确定所述初始抠图结果中的待调整像素点；

调整子单元，用于基于所述待调整像素点在所述初始抠图结果中的灰度值，以及所述待调整像素点在所述语义分割结果中的分割概率，确定所述待调整像素点在所述目标抠图结果中的灰度值。

基于上述任一实施例，调整子单元，具体用于：

基于上述任一实施例，语义分割单元720，具体用于：

基于上述任一实施例，所述至少两种语义分割模型的模型结构互不相同。

基于上述任一实施例，确定单元710，具体用于：

基于目标抠图模型，确定所述待抠图图像的初始抠图结果；

目标抠图模型的训练单元，具体包括：

获取初始抠图模型单元，用于获取样本图像、所述样本图像的抠图标签，以及初始抠图模型，所述初始抠图模型包括多个串联的解码层；

确定预测抠图结果单元，用于基于所述初始抠图模型，对所述样本图像的图像特征进行逐层解码，得到各解码层输出的解码特征，并对所述各解码层输出的解码特征进行抠图分类，得到所述各解码层对应的预测抠图结果；

参数迭代单元，用于基于所述抠图标签与所述各解码层对应的预测抠图结果，对所述初始抠图模型进行参数迭代，得到所述目标抠图模型。

基于上述任一实施例，参数迭代单元，具体用于：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行抠图方法，该方法包括：确定待抠图图像，以及确定所述待抠图图像的初始抠图结果；对所述待抠图图像进行语义分割，得到语义分割结果；基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的抠图方法，该方法包括：确定待抠图图像，以及确定所述待抠图图像的初始抠图结果；对所述待抠图图像进行语义分割，得到语义分割结果；基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的抠图方法，该方法包括：确定待抠图图像，以及确定所述待抠图图像的初始抠图结果；对所述待抠图图像进行语义分割，得到语义分割结果；基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种抠图方法，其特征在于，包括：

对所述待抠图图像进行语义分割，得到语义分割结果；

2.根据权利要求1所述的抠图方法，其特征在于，所述基于所述语义分割结果对所述初始抠图结果进行调整，得到目标抠图结果，包括：

确定所述初始抠图结果中的待调整像素点；

3.根据权利要求2所述的抠图方法，其特征在于，所述基于所述待调整像素点在所述初始抠图结果中的灰度值，以及所述待调整像素点在所述语义分割结果中的分割概率，确定所述待调整像素点在所述目标抠图结果中的灰度值，包括：

4.根据权利要求1至3中任一项所述的抠图方法，其特征在于，所述对所述待抠图图像进行语义分割，得到语义分割结果，包括：

5.根据权利要求4所述的抠图方法，其特征在于，所述至少两种语义分割模型的模型结构互不相同。

6.根据权利要求1至3中任一项所述的抠图方法，其特征在于，所述确定所述待抠图图像的初始抠图结果，包括：

基于目标抠图模型，确定所述待抠图图像的初始抠图结果；

所述目标抠图模型的训练步骤包括：

7.根据权利要求6所述的抠图方法，其特征在于，所述基于所述抠图标签与所述各解码层对应的预测抠图结果，对所述初始抠图模型进行参数迭代，得到所述目标抠图模型，包括：

8.一种抠图装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述抠图方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述抠图方法。