CN113379786A

CN113379786A - 图像抠图方法、装置、计算机设备及存储介质

Info

Publication number: CN113379786A
Application number: CN202110748296.5A
Authority: CN
Inventors: 杨松
Original assignee: Shenzhen Sibo Technology Co ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-10
Anticipated expiration: 2041-06-30
Also published as: CN113379786B

Abstract

本发明实施例公开了图像抠图方法、装置、计算机设备及存储介质。所述方法包括：获取待处理数据；将所述待处理数据输入抠图模型内进行抠图处理，以得到抠图结果；其中，所述抠图模型是通过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络所得的。通过实施本发明实施例的方法可实现提高抠图精确率。

Description

图像抠图方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地说是指图像抠图方法、装置、计算机设备及存储介质。

背景技术

自然图像抠图是图像处理领域的一项基础研究，其可在自然图像下实现高精度的前景提取，免去了传统色键抠图布设纯色背景的约束，在图像和视频合成、增强现实、目标跟踪、目标分类等任务上具有较高的应用价值。

现有的图像抠图技术一般基于模型自动执行，现有的抠图模型大部分基于语义分割原则，最开始的语义分割主要分为阈值分割、像素聚类和图论分割，主流图划分方法为“Normalized cut”和“Grab cut”经典算法，分别借用了图理论和迭代式寻参，但由于上述算法整体依赖于低级视觉信息和人为辅助信息进行浅层语义分割，缺少关键的模型训练和深层语义信息，导致上述算法对于图像背景多变化的鲁棒性极差，无法完成复杂的视频前景分割任务，从而导致抠图精确率不高。

因此，有必要设计一种新的方法，实现提高抠图精确率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供图像抠图方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：图像抠图方法，包括：

获取待处理数据；

将所述待处理数据输入抠图模型内进行抠图处理，以得到抠图结果；

其中，所述抠图模型是通过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络所得的。

其进一步技术方案为：所述抠图模型是通过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络所得的，包括：

构建深度学习网络的注意力模型；

获取并处理若干个原始图像以及所述原始图像对应的Trimap图，以得到样本集；

设定损失函数；

利用所述样本集以及所述损失函数对所述注意力模型进行训练，以得到抠图模型。

其进一步技术方案为：所述构建深度学习网络的注意力模型，包括：

构建MHCA模型；

将所述MHCA模型中的自注意力层替换为十字交叉注意力层，以得到注意力模型。

其进一步技术方案为：所述获取并处理若干个原始图像以及所述原始图像对应的Trimap图，以得到样本集，包括：

获取若干个原始图像以及所述原始图像对应的Trimap图；

对所述原始图像对应的Trimap图进行距离变换，以得到变换结果；

将所述变换结果与所述原始图像合成为多通道的图像，以得到样本集。

其进一步技术方案为：所述样本集为11通道的图像。

其进一步技术方案为：所述设定损失函数，包括：

设定与目标主体和目标边缘区域相关的损失函数。

其进一步技术方案为：所述损失函数为

其中，

为第i个输出预测的alpha通道图；

为第i个输出预测对应的真实alpha通道图；mask_trimap为基于Trimap图生成的过渡区域掩膜图；ξ为自然数；

为基于预测的alpha通道图合成的RGB图像；

为第i个输出预测对应的真实RGB图像。

本发明还提供了图像抠图装置，包括：

数据获取单元，用于获取待处理数据；

抠图处理单元，用于将所述待处理数据输入抠图模型内进行抠图处理，以得到抠图结果；

还包括模型训练单元，用于若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络，以得到抠图模型。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过对抠图模型训练过程的样本集、模型的自注意力层以及损失函数进行优化改进，结合注意力机制在网络的解码阶段对浅层信息进行监督从而有效的抑制背景信息，将训练后的抠图模型运用于后续的抠图过程中，实现提高抠图精确率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像抠图方法的应用场景示意图；

图2为本发明实施例提供的图像抠图方法的流程示意图；

图3为本发明实施例提供的图像抠图方法的子流程示意图；

图4为本发明实施例提供的图像抠图方法的子流程示意图；

图5为本发明实施例提供的图像抠图方法的子流程示意图；

图6为本发明实施例提供的图像抠图装置的示意性框图；

图7为本发明实施例提供的图像抠图装置的模型训练单元的示意性框图；

图8为本发明实施例提供的图像抠图装置的注意力模型构建子单元的示意性框图；

图9为本发明实施例提供的图像抠图装置的样本集获取子单元的示意性框图；

图10为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的图像抠图方法的应用场景示意图。图2为本发明实施例提供的图像抠图方法的示意性流程图。该图像抠图方法应用于服务器中。该服务器与终端等可获得待抠图的图像的设备进行数据交互，其中，服务器还可以进行抠图模型的训练以及将训练后的抠图模型运用于图像的抠图，当然，抠图模型的训练还可以独立在另一个服务器内执行，而将训练后的抠图模型运用于本服务器内执行。

图2是本发明实施例提供的图像抠图方法的流程示意图。如图2所示，该方法包括以下步骤S110至S120。

S110、获取待处理数据。

在本实施例中，待处理数据指的是需要进行抠图处理的图像，可由终端输入。

S120、将所述待处理数据输入抠图模型内进行抠图处理，以得到抠图结果。

在本实施例中，抠图结果是指经过抠图模型处理后的关键特征。

现有的模型中，前景对象的形状不定、背景纹理的复杂多变、透明度遮罩的精确估计、前景/背景之间模糊的界限等因素使得抠图异常复杂。而本实施例采用经过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集对深度学习模型进行训练所得的抠图模型进行抠图，可以使得抠图更加简单，且准确率更高。

在本实施例中，深度学习中的注意力模型，从本质上来看是借鉴于人类的视觉注意力机制的，核心目标是使网络将有限的注意力资源更多的投放在目标任务区域，以提取和选择对任务有用的关键信息。由于深度学习中，浅层网络含有丰富的纹理及边缘信息，但同时包含很多背景噪声，网络的深层则包含更多的语义信息，注意力机制就是将特征图的深层信息与浅层网络进行相乘来抑制背景信息，从而提高网络提取目标细节信息的能力。

在一实施例中，请参阅图3，所述抠图模型是通过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络所得的，可包括步骤S121～S124。

S121、构建深度学习网络的注意力模型。

在本实施例中，深度学习模型采用的是MHCA模型，该MHCA模型的工作流程参考U-transformer内的MHCA，该MHCA模型可以滤除无关信息，突出对结果重要的特征。

在一实施例中，请参阅图4，上述的步骤S121可包括步骤S1211～S1212。

S1211、构建MHCA模型；

S1212、将所述MHCA模型中的自注意力层替换为十字交叉注意力层，以得到注意力模型。

其中，MHCA由于其使用的自注意力层计算量大，故考虑采用十字交叉注意力层进行替换用于减少计算量。

利用注意力机制在网络的解码阶段对浅层信息进行监督从而有效的抑制背景信息，能够取得相对高的抠图精度。

S122、获取并处理若干个原始图像以及所述原始图像对应的Trimap图，以得到样本集。

在本实施例中，样本集是指用于训练抠图模型的图像集合。

在一实施例中，请参阅图5，上述的步骤S122可包括步骤S1221～S1223。

S1221、获取若干个原始图像以及所述原始图像对应的Trimap图。

具体地，二阶段人像抠图算法是较为常见的抠图工具，具体方法是先对图像分割模型所生成的掩膜图进行腐蚀和膨胀处理，得到三层分割图即Trimap图，或利用Trimap分割模型直接得到含有前景、背景及待定区域的Trimap图。

本实施例中的Trimap图可经过现有的二阶段人像抠图算法对原始图像进行处理后得到。

S1222、对所述原始图像对应的Trimap图进行距离变换，以得到变换结果。

在本实施例中，变换结果是指对Trimap图进行距离变换所得的图像。

具体地，采用python distance函数distance_transform_edt对Trimap图进行距离变换。

S1223、将所述变换结果与所述原始图像合成为多通道的图像，以得到样本集。

在本实施例中，参考FBA matting的方法，将Trimap图进行距离变换后与原始图像合成为多通道的图，以此形成样本集，进行抠图模型训练。

具体地，使用三个不同个尺度的高斯模糊对将Trimap图进行距离变换后与原始图像进行合并生成多通道的图。

在本实施例中，所述样本集为11通道的图像。

S123、设定损失函数。

在本实施例中，设定与目标主体和目标边缘区域相关的损失函数。

在本实施例中，所述损失函数为

其中，

为第i个输出预测的alpha通道图；

为第i个输出预测对应的真实alpha通道图；mask_trimap为基于Trimap图生成的过渡区域掩膜图；ξ为自然数，是一个接近零的很小的数；

为基于预测的alpha通道图合成的RGB图像；

为第i个输出预测对应的真实RGB图像。

由于Index抠图使用的损失函数为alpha-prediction损失和compositional损失，alpha-prediction loss定义人工标注图像的蒙板值和预测的蒙板值在每一个像素位置的绝对差异。又由于绝对差不可微分，采用相对近似值模拟；compositional损失是人工标注图像和预测的RGB之间的损失值，损失函数在计算的时候会基于Trimap图生成一张掩膜，而这个掩膜确保损失函数的值只计算目标轮廓边缘附近的像素。但由于很多情况下，目标的边缘如发丝等与目标主体区域具有相似性，仅利用目标边缘区域做注意力，那么对背景信息的剔除较弱，故考虑加入目标主体的损失函数，以提升对背景信息的剔除力度，从而提高整个抠图模型后期运用的抠图结果精准率。

S124、利用所述样本集以及所述损失函数对所述注意力模型进行训练，以得到抠图模型。

对于深度学习网络的注意力模型的训练过程与现有技术的深度学习网络训练过程一致，此处不再赘述。

在本实施例中，实际上需要先对抠图模型进行训练后，再将其运用于后续图像的抠图过程中。

上述的图像抠图方法，通过对抠图模型训练过程的样本集、模型的自注意力层以及损失函数进行优化改进，结合注意力机制在网络的解码阶段对浅层信息进行监督从而有效的抑制背景信息，将训练后的抠图模型运用于后续的抠图过程中，实现提高抠图精确率。

图6是本发明实施例提供的一种图像抠图装置300的示意性框图。如图6所示，对应于以上图像抠图方法，本发明还提供一种图像抠图装置300。该图像抠图装置300包括用于执行上述图像抠图方法的单元，该装置可以被配置于服务器中。具体地，请参阅图6，该图像抠图装置300包括模型训练单元301、数据获取单元302以及抠图处理单元303。

模型训练单元301，用于若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络，以得到抠图模型；数据获取单元302，用于获取待处理数据；抠图处理单元303，用于将所述待处理数据输入抠图模型内进行抠图处理，以得到抠图结果。

在一实施例中，如图7所示，所述模型训练单元301包括注意力模型构建子单元3011、样本集获取子单元3012、函数设定子单元3013以及训练子单元3014。

注意力模型构建子单元3011，用于构建深度学习网络的注意力模型；样本集获取子单元3012，用于获取并处理若干个原始图像以及所述原始图像对应的Trimap图，以得到样本集；函数设定子单元3013，用于设定损失函数；训练子单元3014，用于利用所述样本集以及所述损失函数对所述注意力模型进行训练，以得到抠图模型。

在一实施例中，如图8所示，所述注意力模型构建子单元3011包括模型构建模块30111以及替换模块30112。

模型构建模块30111，用于构建MHCA模型；替换模块30112，用于将所述MHCA模型中的自注意力层替换为十字交叉注意力层，以得到注意力模型。

在一实施例中，如图9所示，所述样本集获取子单元3012包括图像获取模块30121、变换模块30122以及合成模块30123。

图像获取模块30121，用于获取若干个原始图像以及所述原始图像对应的Trimap图；变换模块30122，用于对所述原始图像对应的Trimap图进行距离变换，以得到变换结果；合成模块30123，用于将所述变换结果与所述原始图像合成为多通道的图像，以得到样本集。

在一实施例中，上述的函数设定子单元3013，用于设定与目标主体和目标边缘区域相关的损失函数。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述图像抠图装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述图像抠图装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种图像抠图方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种图像抠图方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取待处理数据；将所述待处理数据输入抠图模型内进行抠图处理，以得到抠图结果；其中，所述抠图模型是通过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络所得的。

在一实施例中，处理器502在实现所述抠图模型是通过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络所得的步骤时，具体实现如下步骤：

构建深度学习网络的注意力模型；获取并处理若干个原始图像以及所述原始图像对应的Trimap图，以得到样本集；设定损失函数；利用所述样本集以及所述损失函数对所述注意力模型进行训练，以得到抠图模型。

在一实施例中，处理器502在实现所述构建深度学习网络的注意力模型步骤时，具体实现如下步骤：

构建MHCA模型；将所述MHCA模型中的自注意力层替换为十字交叉注意力层，以得到注意力模型。

在一实施例中，处理器502在实现所述获取并处理若干个原始图像以及所述原始图像对应的Trimap图，以得到样本集步骤时，具体实现如下步骤：

获取若干个原始图像以及所述原始图像对应的Trimap图；对所述原始图像对应的Trimap图进行距离变换，以得到变换结果；将所述变换结果与所述原始图像合成为多通道的图像，以得到样本集。

其中，所述样本集为11通道的图像。

在一实施例中，处理器502在实现所述设定损失函数步骤时，具体实现如下步骤：

设定与目标主体和目标边缘区域相关的损失函数。

其中，所述损失函数为

其中，

为第i个输出预测的alpha通道图；

为基于预测的alpha通道图合成的RGB图像；

为第i个输出预测对应的真实RGB图像。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述抠图模型是通过若干个原始图像以及所述原始图像对应的Trimap图进行处理形成的样本集训练深度学习网络所得的步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述构建深度学习网络的注意力模型步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述获取并处理若干个原始图像以及所述原始图像对应的Trimap图，以得到样本集步骤时，具体实现如下步骤：

其中，所述样本集为11通道的图像。

在一实施例中，所述处理器在执行所述计算机程序而实现所述设定损失函数步骤时，具体实现如下步骤：

设定与目标主体和目标边缘区域相关的损失函数。

所述损失函数为

其中，

为第i个输出预测的alpha通道图；

为基于预测的alpha通道图合成的RGB图像；

为第i个输出预测对应的真实RGB图像。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。