CN113591861A

CN113591861A - 图像处理方法、装置、计算设备及存储介质

Info

Publication number: CN113591861A
Application number: CN202110773268.9A
Authority: CN
Inventors: 王猛; 阮良; 陈功
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-11-02
Anticipated expiration: 2041-07-08
Also published as: CN113591861B

Abstract

本公开的实施方式提供了一种图像处理方法、装置、计算设备及存储介质。该方法包括：通过获取待处理图像的至少一个第一特征图，对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图，并对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜，最后根据所述掩膜对所述待处理图像进行处理，本公开实施例通过第一特征图分别进行至少一种倍数的上采样，实现了语义特征传递，防止了语义特征在上采样过程中逐渐丢失；并通过对底层特征和传递的语义特征进行融合，可以充分恢复出待处理图像的细节信息，从而可以在不借助额外的辅助信息的情况下，实现高精度的抠图效果。

Description

图像处理方法、装置、计算设备及存储介质

技术领域

本公开的实施方式涉及图像处理技术领域，更具体地，本公开的实施方式涉及一种图像处理方法、装置、计算设备及存储介质。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

图像抠图是指根据图像前景像素的不透明度，分离出图像前景和背景，可用于前景虚化、背景替换以及图像合成等多种场景。

在相关技术中，通常采用深度学习的方法解决图像抠图的问题，然而这些方法或者需要输入三色图(Trimap)，或者背景信息作为辅助信息，成本较高且使用不便。

发明内容

有鉴于此，本公开实施例至少提供一种图像处理方法、装置、计算设备及存储介质，以在不借助额外的辅助信息的情况下，实现高精度的抠图效果。

在本公开实施方式的第一方面中，提供了一种图像处理方法，包括：获取待处理图像的至少一个第一特征图，其中，所述至少一个第一特征图中的各个第一特征图具有不同尺度；对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图；对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜；根据所述掩膜对所述待处理图像进行处理。

在本公开的一个实施例中，所述对所第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜，包括：将尺度相同的第一特征图、第二特征图进行融合，得到至少一个第三特征图；根据所述至少一个第三特征图，得到所述待处理图像的掩膜。

在本公开的一个实施例中，所述根据所述至少一个第三特征图，得到所述待处理图像的掩膜，包括：对所述至少一个第三特征图中的各个特征图进行上采样，得到上采样结果，并将尺度相同的上采样结果、第三特征图进行融合；根据与所述待处理图像的尺度相同的上采样结果，得到所述待处理图像的掩膜。

在本公开的一个实施例中，所述方法应用于掩膜生成网络，所述掩膜生成网络包括用于获取待处理图像的至少一个第一特征图的特征提取网络、用于对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样的特征传递网络、用于对所述第一特征图和所述第二特征图进行解码的解码网络。

在本公开的一个实施例中，所述特征提取网络包括多个卷积层，每个卷积层输出一第一特征图，所述特征提取网络还包括设置在生成设定尺度的第一特征图的卷积层之后注意力机制模块。

在本公开的一个实施例中，在所述注意力机制模块之后的卷积层为空洞卷积层。

在本公开的一个实施例中，所述特征提取网络和所述特征传递网络之间设置有ASPP网络，所述ASPP网络用于对所述特征提取网络输出的其量一全第一特征图进行处理；和/或，所述解码网络中设置有ASPP网络，所述ASPP网络用于对所述第一特征图和第二特征图的融合结果进行处理。

在本公开的一个实施例中，所述方法还包括，利用所述ASPP网络对输入特征图进行处理，具体包括：对所述输入特征图进行平均池化，得到池化结果；以不同空洞率分别对所述输入特征图进行空洞卷积，得到多个卷积结果；将所述池化结果和所述多个卷积结果进行级联，得到对所述输入特征图的处理结果，其中，所述输入特征图包括所述特征提取网络输出的其中一个第一特征图，和/或所述第一特征图和第二特征图的融合结果。

在本公开的一个实施例中，所述方法还包括，基于标注有掩膜的真实值的第一图像样本，利用判别网络对所述掩膜生成网络进行训练，所述训练的网络损失包括：第一损失，用于指示通过所述掩膜生成网络对所述第一图像样本进行处理生成的第一生成掩膜与所述掩膜的真实值之间的差异；第二损失，用于指示所述判别网络对于输入掩膜进行处理得到的分类结果与所述输入掩膜的标注信息之间的差异，其中，所述输入掩膜包括所述第一生成掩膜和第一图像样本对应的真实掩膜，所述第一生成掩膜的标注信息指示生成图像，所述真实掩膜的标注信息指示真实图像。

在本公开的一个实施例中，所述方法还包括：对所述第一图像样本进行膨胀腐蚀操作，得到第一处理图像；根据所述第一样本图像与所述第一处理图像之间的差异，得到边缘信息；根据所述边缘信息对所述第一损失进行加权。

在本公开的一个实施例中，所述方法还包括：将未标注掩膜的真实值的第二图像样本输入至所述掩膜生成网络，并将所述掩膜生成网络输出的掩膜输入至判别网络；通过调整所述掩膜生成网络的参数值，使所述判别网络的分类结果接近于指示真实图像。

在本公开实施方式的第二方面中，提供了一种图像处理装置，包括：特征提取单元，用于获取待处理图像的至少一个第一特征图，其中，所述至少一个第一特征图中的各个第一特征图具有不同尺度；特征传递单元，用于对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图；解码单元，用于对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜；图像处理单元，用于根据所述掩膜对所述待处理图像进行图像分离处理。

在本公开的一个实施例中，所述解码单元具体用于：将尺度相同的第一特征图、第二特征图进行融合，得到至少一个第三特征图；根据所述至少一个第三特征图，得到所述待处理图像的掩膜。

在本公开的一个实施例中，所述解码单元在用于根据所述至少一个第三特征图，得到所述待处理图像的掩膜时，具体用于：对所述至少一个第三特征图中的各个特征图进行上采样，得到上采样结果，并将尺度相同的上采样结果、第三特征图进行融合；根据与所述待处理图像的尺度相同的上采样结果，得到所述待处理图像的掩膜。

在本公开的一个实施例中，所述装置应用于掩膜生成网络，所述掩膜生成网络包括用于获取待处理图像的至少一个第一特征图的特征提取网络、用于对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样的特征传递网络、用于对所述第一特征图和所述第二特征图进行解码的解码网络。

在本公开的一个实施例中，所述特征提取网络和所述特征传递网络之间设置有ASPP网络，所述ASPP网络用于对所述特征提取网络输出的其中一个第一特征图进行处理；和/或，所述解码网络中设置有ASPP网络，所述ASPP网络用于对所述第一特征图和第二特征图的融合结果进行处理。

在本公开的一个实施例中，ASPP处理单元用于用所述ASPP网络对输入特征图进行处理，具体包括：对所述输入特征图进行平均池化，得到池化结果；以不同空洞率分别对所述输入特征图进行空洞卷积，得到多个卷积结果；将所述池化结果和所述多个卷积结果进行级联，得到对所述输入特征图的处理结果，其中，所述输入特征图包括所述特征提取网络输出的其中一个第一特征图，和/或所述第一特征图和第二特征图的融合结果。

在本公开的一个实施例中，所述装置还包括第一训练单元，用于基于标注有掩膜的真实值的第一图像样本，利用判别网络对所述掩膜生成网络进行训练，所述训练的网络损失包括：第一损失，用于指示通过所述掩膜生成网络对所述第一图像样本进行处理生成的第一生成掩膜与所述掩膜的真实值之间的差异；第二损失，用于指示所述判别网络对于输入掩膜进行处理得到的分类结果与所述输入掩膜的标注信息之间的差异，其中，所述输入掩膜包括所述第一生成掩膜和第一图像样本对应的真实掩膜，所述第一生成掩膜的标注信息指示生成图像，所述真实掩膜的标注信息指示真实图像。

在本公开的一个实施例中，所述装置还包括第二训练单元，用于：对所述第一图像样本进行膨胀腐蚀操作，得到第一处理图像；根据所述第一样本图像与所述第一处理图像之间的差异，得到边缘信息；根据所述边缘信息对所述第一损失进行加权。

在本公开的一个实施例中，所述装置还包括第三训练单元，用于：将未标注掩膜的真实值的第二图像样本输入至所述掩膜生成网络，并将所述掩膜生成网络输出的掩膜输入至判别网络；通过调整所述掩膜生成网络的参数值，使所述判别网络的分类结果接近于指示真实图像。

在本公开实施方式的第三方面中，提供了一种计算设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现本公开任一实施例所述的方法。

在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，包括：计算机程序，所述计算机程序被处理器执行时实现本公开任一实施例所述的方法。

根据本公开实施方式的图像处理方法、装置、计算设备及存储介质，通过获取待处理图像的至少一个第一特征图，对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图，并对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜，最后根据所述掩膜对所述待处理图像进行处理，本公开实施例通过第一特征图分别进行至少一种倍数的上采样，实现了语义特征传递，防止了语义特征在上采样过程中逐渐丢失；并通过对底层特征和传递的语义特征进行融合，可以充分恢复出待处理图像的细节信息，从而可以在不借助额外的辅助信息的情况下，实现高精度的抠图效果。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开实施方式的图像处理方法的流程图；

图2示意性地示出了根据本公开实施例方式的图像处理方法应用的系统构架图；

图3示意性地示出了根据本公开一实施例的注意力机制模块的结构图；

图4示意性地示出了根据本公开一实施例的ASPP网络的结构图；

图5A示意性地示出了根据本公开一实施例的样本图像；

图5B示意性地示出根据图5A的样本图像得到的第一处理图像；

图5C示意性地示出根据图5A的样本图像和图5B的第一处理图像得到的包含边缘信息的图像；

图6示意性地示出了根据本公开一实施例的一种图像处理装置的结构；

图7示意性地示出了根据本公开一实施例的计算机可读存储介质；

图8示意性地示出了根据本公开一实施例的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种图像处理方法、装置、计算设备和存储介质。在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

进行图像抠图基本上存在两种方法，一种是传统算法，一种是采用深度学习的方法。采用传统算法进行抠图，通常难以达到理想的效果，而且传统算法也很难适应不同的场景、耗时也较多。采用深度学习的方法是当前较多采用的抠图方法，然而大多需要利用其他信息作为辅助信息。例如，在一些基于深度学习的抠图方式中，需要输入三色图作为辅助信息，然而辅助图的获取需要较高的成本，导致该抠图方式的成本较高；在另一些抠图方式中，需要输入背景信息作为辅助信息，因此需要事先了解抠图的场景，泛化性较低，并且对抠图场景具有较高要求。

因此，本公开实施例提出的图像处理方案，旨在脱离辅助信息的指导的情况下，可以得到高精度的抠图效果。

图1示意性地示出了根据本公开实施方式的一种图像处理方法的流程。所述图像处理方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该方法可以包括以下处理：

在步骤101中，获取待处理图像的至少一个第一特征图。

其中，所述至少一个第一特征图中的各个第一特征图具有不同尺度。

在一些实施方式中，可以利用卷积神经网络作为骨干网络提取所述待处理图像的多尺度特征。在该方法应用于终端设备时，为了降低功耗，可以采用轻量化卷积网络，例如MobileNet等。

所述骨干网络中通常包括多个卷积层，每个卷积层输出不同尺度的特征图，并且各个卷积层输出的尺度依次减半。为了与后续获得的其他类型的特征图进行区分，将从所述待处理图像得到的特征图称为第一特征图。

参见图2所示的本公开至少一个实施例提出的图像处理方法应用的系统架构示意图。对待处理图像进行特征提取的特征提取网络210中包含卷积层2101、2102、2103、2104。其中，卷积层2101、2102、2103、2104输出的第一特征图对应于待处理图像的下采样比例分别为2、4、8、16。也即，卷积层2101输出的特征图的尺度是待处理图像的1/2，卷积层2102输出的特征图的尺度是待处理图像的1/4，以此类推。

为了防止造成过多的细节损失，本公开实施例中将最小尺度的第一特征图设置为待处理图像的1/16，以充分保留待处理图像的细节特征。然而，本公开并不限制卷积层的个数，也即第一特征图的最小尺度。

在步骤102中，对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图。

相关技术中，对于多尺度的第一特征图，通常采用逐层上采样的方法，将第一特征图恢复至与待处理图像相同的尺度。然而，由于语义信息在逐层上采样的过程中会逐渐消失。为了解决该问题，本公开实施例提出一种进行特征传递的方式，通过对其中一个第一特征图分别进行至少一种倍数的上采样，将直接上采样得到的语义特征用于后续的解码过程，从而可以保持住语义特征。

在一个示例中，可以对特征提取网络输出的最小尺度的第一特征图进行直接上采样，也即对最小尺度的第一特征图进行多种倍数的上采样，得到多种尺度的第二特征图。

如图2所示，在本公开实施例中增加了特征传递网络220，对特征提取网络210输出的最小尺度的第一特征图(卷积层2104输出的第一特征图)进行三种倍数的上采样，其中，上采样层2201的上采样倍数为2，上采样层2202的上采样倍数为4，上采样层2203的上采样倍数为8。在卷积层2104输出的第一特征图的为待处理图像的1/16的情况下，上采样层2201、2202、2203输出的第二特征图的尺度分别为待处理图像的1/8、1/4、1/2。应当注意的是，上采样层的数目以及各个上采样层的上采样倍数的设置，与特征提取网络中各个卷积层实现的下采样倍数是相对应的，也即上采样层2201、2202、2203输出的特征图尺度分别与卷积层2103、2102、2101相同。

在步骤103中，对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜。

对所述第一特征图和所述第二特征图进行解码，也即是将特征提取网络中的细节特征与直接上采样得到的语义特征进行融合，在各种场景下都可以恢复出待处理图像中的细节特征，从而可以准确地确定待处理图像中的各个像素属于前景或背景，得到精确的掩膜。

在步骤104中，根据所述掩膜对所述待处理图像进行处理。

将所述掩膜应用于所述待处理图像，可以实现所述待处理图像的前景和背景的分割，从而实现抠图处理。

在本公开实施例中，通过获取待处理图像的至少一个第一特征图，对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图，并对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜，最后根据所述掩膜对所述待处理图像进行处理，本公开实施例通过第一特征图分别进行至少一种倍数的上采样，实现了语义特征传递，防止了语义特征在上采样过程中逐渐丢失；并通过对底层特征和传递的语义特征进行融合，可以充分恢复出待处理图像的细节信息，从而可以在不借助额外的辅助信息的情况下，实现高精度的抠图效果。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

在一些实施方式中，可以将尺度相同的第一特征图、第二特征图进行融合，得到至少一个第三特征图；根据所述至少一个第三特征图，得到所述待处理图像的掩膜。

参见图2所示的系统架构示意图，特征提取网络210中卷积层2101、2102、2103输出的第一特征图的尺度分别为待处理图像的1/2、1/4、1/8；而特征传递网络220中各上采样层2201、2202、2203输出的第二特征图的尺度分别为待处理图像的1/8、1/4、1/2。因此，可以将卷积层2103输出的第一特征图与上采样层2201输出的第二特征图进行融合，得到尺度为待处理图像的1/8的第三特征图；将卷积层2102输出的第一特征图与上采样层2202输出的第二特征图进行融合，得到尺度为待处理图像的1/4的第三特征图；将卷积层2101输出的第一特征图与上采样层2203输出的第二特征图进行融合，得到尺度为待处理图像的1/2的第三特征图，并根据所到的多尺度的第三特征图，得到所述待处理图像的掩膜。

通过将尺度相同的第一特征图和第二特征图进行融合，可以更好的特征提取网络中的细节特征，与特征传递网络所传递的语义特征融合在一起，以便恢复出待处理特像中的细节特征。

在一些实施方式中，可以对所述至少一个第三特征图中的各个特征图进行上采样，得到上采样结果，并将尺度相同的上采样结果、第三特征图进行融合；根据与所述待处理图像的尺度相同的上采样结果，得到所述待处理图像的掩膜。

由于特征提取网络所输出的各个第一特征图的尺度是依次减半的，在与相同尺度的第二特征图融合后，所得到的各个第三特征图的尺度在从大到小的排列方向上仍然是依次减半的；相应地，在从小到大的排列方向上则是依次呈2倍。因此，对第三特征图进行2倍上采样所得到的上采样结果，是与之后的第三特征图的尺度相同的，从而可以将相同尺度的上采样结果和第三特征图进行融合。

参见图2所示的系统架构示意图，特征编码网络230包括上采样倍数相同(2倍)的上采样层2301’、2302’、2303’，分别对于1/8的第三特征图、1/4的第三特征图、1/2的第三特征图进行2倍的上采样；并且2301’输出的上采样结果(尺度为待处理图像的1/4)与1/4的第三特征图进行融合，融合后的结果经2302’进行2倍的上采样后输出的上采样结果(尺度为待处理图像的1/4)与1/2的第三特征图进行融合，融合后的结果经2303’进行2倍的上采样后，得到与待处理图像尺度相同的特征图，根据该特征图得到最终的掩膜。

在本公开实施例中，通过对第三特征图进行逐级上采样，并将上采样结果与特征提取网络输出的细节特征，以及特征传递网络所传递的语义特征进行融合，可以更充分地恢复出待处理图像中的细节信息，有利于得到更精确的掩膜。

本公开至少一个实施例所提出的图像处理方法，可以通过掩膜生成网络实现，该掩膜生成网络的架构参见图2。如图2所示，该掩膜生成网络包括用于获取待处理图像的至少一个第一特征图的特征提取网络210、用于对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样的特征传递网络220、以及用于对所述第一特征图和所述第二特征图进行解码的解码网络230。

在本公开实施例中，所述特征提取网络可以包括多个卷积层，每个卷积层输出一第一特征图，所述特征提取网络还包括设置在生成设定尺度的第一特征图的卷积层之后注意力机制模块。

如图2所示，特征提取网络210中包含卷积层2101、2102、2103、2104。其中，卷积层2101、2102、2103、2104输出的第一特征图的尺度分别是待处理图像的1/16、1/8、1/4、1/2。在卷积层2103之后，可以设置注意力机制模块2110，也即在第一特征图下降到待处理图像原始大小的1/8后增加注意力机制模块2110。注意力机制模块2110对于输入的第一特征图中每个像素预测权重，并根据权重对输入的第一特征图进行加权，从而可以突出重点区域的特征。由于尺度为1/8的第一特征图中已经包含了较多的语义信息，因此通过增加注意力机制模块2110可以在全局的角度增大对第一特征图中重点特征的注意力，从而提升掩膜生成网络的掩膜生成效果，也即提升了抠图效果。

在一个示例中，注意力机制模块2110的结构如图3所示，包括全连接层301、302和激活层303。其中，全连接层301、302用于将输入的第一特征图中每个像素对应的特征进行级联，之后通过激活层303，例如通过sigmoid函数，得到每个像素对应的权重。应当注意的是，注意力机制模块2110也可以包括其他数目的全连接层，不限制于包含两个。

在一些实施方式中，在所述注意力机制模块之后的卷积层为空洞卷积层。

空洞卷积层是指该卷积层具有空洞率(扩张率)这一参数，该参数定义了卷积核处理输入数据时各值的间距，也即表示了卷积核扩张的大小。空洞卷积层的卷积核与常规卷积层的卷积核大小是一样的，而空洞卷积层可以实现更大的感受野。

本公开实施例在所述注意力机制模块之后增加空洞卷积，可以在不影响卷积核大小的情况下增加感受野，从而可以从更全局的角度提取特征，可以提升掩膜生成网络的掩膜生成效果。

在一些实施方式中，可以在所述特征提取网络和所述特征传递网络之间设置ASPP(atrous spatial pyramid pooling,空洞空间卷积池化金字塔)网络，用于对所述特征提取网络输出的其中一个第一特征图进行处理。

ASPP网络对于输入的特征图进行不同采样率的空洞卷积并行采样，相当于以多个比例捕捉待处理图像的上下文。

如图2所示，在特征提取网络210和特征传递网络220之间设置2120，该2120用于对2104输出的，也即尺度最小的第一特征图进行处理，可以进一步综合特征提取网络所提取的特征，丰富语义特征，使得语义特征在掩膜生成中发挥较好的效果。

在一些实施方式中，所述解码网络中可以设置有ASPP网络，所述ASPP网络用于对所述第一特征图和第二特征图的融合结果进行处理。

如图2所示，解码网络230中设置2310，用于对2103输出的第一特征图和2201输出的第二特征图的融合结果，也即第三特征图进行处理，可以综合特征提取网络输出的细节特征和特征传递网络传递的语义特征，在全局的角度上发挥两种特征的优势。

在本公开实施例中，在特征提取网络210和特征传递网络220之间设置2120，与所述解码网络中设置的2310可以具有相同的参数，也即二者为相同的ASPP网络。

在一个示例中，ASPP网络可以对输入特征图进行如下方式的处理。

一方面，ASPP网络对所述输入特征图进行平均池化，得到池化结果。对输入特征图进行平均池化，是指将输入特征图中所有像素的特征值相加求平均，用所得到的平均值表示所述输入特征图。

同时，以不同空洞率分别对所述输入特征图进行空洞卷积，得到多个卷积结果。对输入特征图可以利用不同空洞率的卷积核进行并行采样，也即各路卷积核进行了不同程度的扩张，可以更好的捕捉待处理图像的上下文。

之后，将所述池化结果和所述多个卷积结果进行级联，也即将以平均值表示的输入特征图，和通过不同空洞率进行洞卷积得到的卷积结果进行级联，得到对所述输入特征图进行处理的结果。

在本公开实施例中，所述输入特征图包括所述特征提取网络输出的其中一个第一特征图，例如尺度最小的第一特征图，和/或所述第一特征图和所述第二特征图的融合结果，也即第三特征图。

在一个示例中，ASPP网络的结构如图4所示，包括并行的平均池化层410和空洞卷积层421、422、423，以及级联层430。其中，平均池化层410用于得到以平均值表示的输入特征图；空洞卷积层421、422、423分别具有不同的空洞率，例如，空洞卷积层421的空洞率为4，空洞卷积层422的空洞率为12，空洞卷积层423的空洞率为16。级联层430用于将平均池化层410输出的池化结果，以及空洞卷积层421、422、423分别输出的卷积结果进行级联，并输出级联后的结果。本领域技术人员应当理解，上述空洞卷积层的个数以及空洞率仅为示例，本公开实施例对此不进行限制。

以下对掩膜生成网络的训练方法进行说明。

在本公开实施例中，可以利用标注有掩膜的真实值的样本图像，也即具有标签的抠图图像，来对掩膜生成网络进行有监督训练。

在一些实施方式中，可以借助判别网络对掩膜生成网络进行生成对抗训练，在这种训练方式中，掩膜生成网络相当于生成对抗网络中的生成网络。

首先，将标注有掩膜的真实值的第一样本图像输入至掩膜生成网络中，掩膜生成网络根据所述样本图像生成掩膜。此处，为了与其他的样本图像进行区分，将标注有真实值的样本图像称为第一样本图像。

之后，将所述掩膜生成网络生成的掩膜，与第一图像样本对应的真实掩膜等概率地输入至判别网络中，所述判别网络用于判断输入的是真实掩膜，或者是掩膜生成网络生成的掩膜。

调整所述掩膜生成网络和所述判别网络的网络参数值，以使训练的网络损失越来越小。所述训练的网络损失可以包括：

第一损失，用于指示通过所述掩膜生成网络对所述第一图像样本进行处理生成的第一生成掩膜与所述掩膜的真实值之间的差异；

第二损失，用于指示所述判别网络对于输入掩膜进行处理得到的分类结果与所述输入掩膜的标注信息之间的差异，其中，所述输入掩膜包括所述第一生成掩膜和第一图像样本对应的真实掩膜，所述第一生成掩膜的标注信息指示生成图像，所述真实掩膜的标注信息指示真实图像。

在经过多轮迭代后掩膜生成网络生成掩膜的能力越来越好，生成的掩膜越来越接近真实掩膜，直到判别网络无法区分哪个是真实掩膜哪个是掩膜生成网络生成的掩膜时停止训练，得到训练好的掩膜生成网络。

在一个示例中，可以在多次迭代掩膜生成网络后，迭代一次判别网络。例如，可以每迭代五次掩膜生成网络迭代一次判别网络。

在本公开实施例中，通过利用判别网络对掩膜生成网络进行生成对抗训练，可以提高掩膜生成网络生成掩膜的效果，从而可以提高抠图效果。

本公开实施例提出了一种对第一样本图像进行边缘加权的训练方法。

首先，对所述第一图像样本进行膨胀腐蚀操作，得到第一处理图像。膨胀腐蚀是一种用于进行轮廓检测的形态学操作，通过将像素添加到图像中对象的感知边界，扩大对象在图像中的区域，再沿着对象的感知边界移除像素以缩小对象在图像中的区域，以实现增强对象特征的效果。

以图5A～图5C为例，其中，图5A为标注有掩膜的真实值的样本图像，其中，白色区域表示掩膜区域，黑色区域表示背景区域；图5B表示对所述掩膜区域进行膨胀腐蚀操作得到的第一处理图像，其中，灰色区域是将通过将像素添加到掩膜的边界，对掩膜区域进行扩大，再沿着掩膜的边界移除像素以缩小掩膜区域得到的。

接下来，根据所述第一样本图像与所述第一处理图像之间的差异，得到边缘信息。也即，通过将图5A各个像素对应的像素值与图5B各个像素对应的像素值做差值，即可提取出边缘信息，得到如图5C所示的显示出边缘信息的图像。

最后，根据所述边缘信息对所述第一损失进行加权，也即使边缘像素具有更大的权重。

在本公开实施例中，通过根据边缘信息对训练的损失进行加权，可以突出边缘部分的效果，防止了边缘部分细节的丢失，可以进一步提高抠图的效果。

利用监督学习的方法掩膜生成网络进行训练，一方面需要大量的标记数据，另一方面，对于一些特定场合的抠图应用，由于缺乏场景数据，对抠图效果会产生影响。本公开实施例还提出了一种半监督训练方法，通过将监督学习和无监督学习结合，来解决掩膜生成网络对于数据场景依赖的问题。

首先，将未标注掩膜的真实值的第二图像样本输入至所述掩膜生成网络，并将所述掩膜生成网络输出的掩膜输入至判别网络。

其中，未标注掩膜的真实值的第二图像样本可以是现实场景中的图像。由于无需标准真实值，因此第二图像样本图像易于获得，并且可以针对各种所需的场景，获取大量的场景图像。例如，可以获取大量会议场景的图像，以使后续训练得到的掩膜生成网络可以更好的应用于会议场景。

在本公开实施例中所使用的掩膜生成网络和判别网络，可以是利用本公开实施例提出的监督学习方法训练得到的掩膜生成网络和判别网络，也可以利用其他方式训练得到的掩膜生成网络和判别网络。

接下来，通过调整所述掩膜生成网络的参数值，使所述判别网络的分类结果接近于指示真实图像。

通过固定判别网络的网络参数值，调整掩膜生成网络的参数值，在判别网络的输出靠近真实输出的情况下，表明掩膜生成网络所输出的掩膜越来越趋近真实掩膜。经过上述训练，可以使掩膜生成网络输出的掩膜效果更好，并且由于可以获得大量现实场景图像，可以提升在现实场景中的抠图效果。

为了实现本公开任一实施例的图像处理方法，本公开实施例还提供了一种图像处理装置。图6示意性地示出了根据本公开一实施例的图像处理装置的结构示意图，例如，该装置可以应用于计算设备。如下的描述中，将简单描述该装置的各个模块的功能，其详细的处理可以结合参见前述的本公开任一实施例的图像处理方法的描述。

如图6所示，该装置可以包括：特征提取单元601，用于获取待处理图像的至少一个第一特征图，其中，所述至少一个第一特征图中的各个第一特征图具有不同尺度；特征传递单元602，用于对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图；解码单元603，用于对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜；图像处理单元604，用于根据所述掩膜对所述待处理图像进行图像分离处理。

应当注意，尽管在上文详细描述中提及了图像处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本公开实施例还提供了一种计算机可读存储介质。如图7所示，该存储介质上存储有计算机程序701，该计算机程序701被处理器执行时可以执行本公开任一实施例的图像处理方法。

本公开实施例还提供了一种计算设备，该设备可以包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的图像处理方法。

图8示例了一种该计算设备的结构，如图8所示，该计算设备80可以包括但不限于：处理器81、存储器82、连接不同系统组件(包括存储器82和处理器81)的总线83。

其中，存储器82存储有计算机指令，该计算机指令可以被处理器81执行，使得处理器81能够执行本公开任一实施例的图像处理方法。存储器82可以包括随机存取存储单元RAM821、高速缓存存储单元822和/或只读存储单元ROM823。该存储器82还可以包括：具有一组程序模块824的程序工具825，该程序模块824包括但不限于：操作系统、一个或多个应用程序、其他程序模块和程序数据，这些程序模块一种或多种组合可以包含网络环境的实现。

总线83例如可以包括数据总线、地址总线和控制总线等。该计算设备80还可以通过I/O接口84与外部设备85通信，该外部设备85例如可以是键盘、蓝牙设备等。该计算设备80还可以通过网络适配器86与一个或多个网络通信，例如，该网络可以是局域网、广域网、公共网络等。如图8所示，该网络适配器86还可以通过总线83与计算设备80的其他模块进行通信。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像的至少一个第一特征图，其中，所述至少一个第一特征图中的各个第一特征图具有不同尺度；

对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图；

对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜；

根据所述掩膜对所述待处理图像进行处理。

2.根据权利要求1所述的方法，其特征在于，所述对所第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜，包括：

将尺度相同的第一特征图、第二特征图进行融合，得到至少一个第三特征图；

根据所述至少一个第三特征图，得到所述待处理图像的掩膜。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个第三特征图，得到所述待处理图像的掩膜，包括：

对所述至少一个第三特征图中的各个特征图进行上采样，得到上采样结果，并将尺度相同的上采样结果、第三特征图进行融合；

根据与所述待处理图像的尺度相同的上采样结果，得到所述待处理图像的掩膜。

4.根据权利要求1所述的方法，其特征在于，所述方法应用于掩膜生成网络，所述掩膜生成网络包括用于获取待处理图像的至少一个第一特征图的特征提取网络、用于对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样的特征传递网络、用于对所述第一特征图和所述第二特征图进行解码的解码网络。

5.根据权利要求4所述的方法，其特征在于，所述特征提取网络包括多个卷积层，每个卷积层输出一第一特征图，所述特征提取网络还包括设置在生成设定尺度的第一特征图的卷积层之后注意力机制模块。

6.根据权利要求5所述的方法，其特征在于，在所述注意力机制模块之后的卷积层为空洞卷积层。

7.根据权利要求4所述的方法，其特征在于，所述特征提取网络和所述特征传递网络之间设置有ASPP网络，所述ASPP网络用于对所述特征提取网络输出的其量一全第一特征图进行处理；和/或，

所述解码网络中设置有ASPP网络，所述ASPP网络用于对所述第一特征图和第二特征图的融合结果进行处理。

8.一种图像处理装置，其特征在于，包括：

特征提取单元，用于获取待处理图像的至少一个第一特征图，其中，所述至少一个第一特征图中的各个第一特征图具有不同尺度；

特征传递单元，用于对于所述至少一个第一特征图中的其中一个第一特征图分别进行至少一种倍数的上采样，得到至少一个尺度的第二特征图；

解码单元，用于对所述第一特征图和所述第二特征图进行解码，得到所述待处理图像的掩膜；

图像处理单元，用于根据所述掩膜对所述待处理图像进行图像分离处理。

9.一种计算设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7任一项所述的图像处理方法。

10.一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像处理方法。