CN113016005A

CN113016005A - 联合无监督对象分割与修复

Info

Publication number: CN113016005A
Application number: CN201980074975.XA
Authority: CN
Inventors: 帕维尔·亚历山德罗维奇·欧斯特科夫; 罗曼·叶夫根涅维奇·苏沃罗夫; 伊丽莎白·米哈伊洛娃·洛加契娃; 奥列格·伊戈列维奇·霍姆尼科; 谢尔盖·伊戈列维奇·尼科伦科
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-13
Filing date: 2019-11-05
Publication date: 2021-06-22
Also published as: US20210383242A1; EP3830792A1; WO2020101246A1; EP3830792A4

Abstract

本发明涉及与找到对象的边界、从图像去除对象、将对象插入到图像中、从现有图像的组合创建新图像相关联的图像处理功能的实现。提出一种用于自动图像处理的方法和用于执行自动图像处理的计算系统，包括：第一神经网络，用于通过经由分割掩模从包含对象O和背景B_x的原始图像x对对象O进行分割，并且使用所述掩模，从图像x切除分割对象O并将分割对象O粘贴到仅包含背景B_y的图像y上来形成粗糙图像z；第二神经网络，用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像(图像I)的增强版本；第三神经网络，用于通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像(图像II)；其中，第一神经网络、第二神经网络和第三神经网络被组合成用于顺序地执行分割、增强和修复并且用于同时学习的神经网络的通用架构，其中，所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。

Description

联合无监督对象分割与修复

技术领域

本发明涉及与找到对象的边界、从图像去除对象、将对象插入到图像中、从现有图像的组合创建新图像相关联的图像处理功能的实现。

背景技术

无监督和弱监督对象分割。在[18]中，作者提出一种用于从边界框生成对象分割掩模的基于GAN[30]的技术。他们的训练流程包括对同一图像进行两次裁剪：一次有对象，一次没有任何对象。使用更快的R-CNN检测对象[19]。然后，他们训练GAN以产生分割掩模，使得这两次裁剪与该掩模结果合并成合理的图像。作者使用对抗性损失、存在性损失(其中，存在性损失验证对象存在于图像上)和切割损失(其中，切割损失验证在对象被切割之后没有留下对象部分)的组合。他们仅用来自Cityscapes[5]的一些类和来自MSCOCO[14]数据集的所有类进行实验。作者报告，他们的方法实现了比经典的GrabCut[21]算法和最近的Simple-Doe-It[12]更高的平均交并比(intersection-over-union values)值。该方法需要预先训练的更快的R-CNN以及用于前景和背景区域选择的特殊策略。该方法还在正确地分割一些对象类(例如风筝、长颈鹿等)方面遇到困难。他们的方法还仅适用于小分辨率图像(28×28)。

在[23]中，作者提出一种用于学习同类对象的分割网络的无标注框架。他们使用自适应合成数据生成处理来创建训练数据集。

尽管传统上用超像素聚类进行处理，但最近已经用深度学习解决了无监督图像分割[9]。在后一篇论文中，作者提出使通过全卷积网络从同一图像的附近区域获得的两个聚类向量之间的信息最大化。在[24]中已经提出了类似的技术，但受到重建损失的约束。作者描述了尝试将像素在内层进行聚类的W-Net(具有U型网状的编码器和解码器的自动编码器)，然后从像素簇重建图像。他们的分割结果不知道对象类别。

视觉训练(Visual grounding)。用于visual grounding的方法旨在对图像的区域和自由形式文本查询的无监督匹配或弱监督匹配。通常，超级视觉采取成对的形式(图像；字幕)。模型性能通常被测量为针对基本事实标签的交并比(intersection-over-union)。最流行的数据集是视觉基因组[13]、Flickr30k[17]、Refer-It-Game[11]和MSCOCO[14]。grounding的一般方法包括预测给定字幕和图像是否彼此相应。通过独立地把字幕和图像置乱来获得负样本。文本图像注意力是大多数visual grounding模型的核心特征[28]。显然，使用更细粒度的监督(例如，区域级标注而不是图像级标注)使得实现更高的分数[29]。

三元图生成。三元图生成是将图像分割成三类的问题：前景、背景和未知(透明前景)。大多数算法需要人为干预来提出三元图，但最近已经提出了基于超像素和聚类的方法用于自动三元图生成[7]。然而，他们的方法需要对每个图像执行多个优化步骤。深度学习用于在给定图像和三元图的情况下产生alpha消光(matting)掩模[26]。还存在关于视频中的视频消光和背景替换的一些工作[8]。他们使用逐帧超像素分割，然后在高斯混合模型的条件随机场中优化能量，以逐帧分离前景和背景。

生成对抗性网络。在最近几年，GAN[6]可能是训练生成模型的最常用方法。尽管强大，但他们倾向于对更高分辨率图像的不稳定训练处理和不一致性能。最近提出的方法CycleGAN[30]一起训练两个GAN以建立两个域之间的双向映射。他们的方法提供了更大的稳定性和一致性。相反，该方法要求数据集对一种可逆操作进行可视化。已经公开了对CycleGAN的大量修改和应用，其中，所述修改和应用包括语义图像操纵[22]、域自适应[2]、无监督图像到图像翻译[15]、多域翻译[3]等。还存在域之间的这种映射可能不明确的问题。BicycleGAN[31]和增强的CycleGAN[1]通过要求映射必须保留隐藏表示来解决该问题。

在该论文中，我们基于Cut&Paste[18]和CycleGAN[6]的构思，并提出一种新颖的架构和流程，其中，该新颖的架构和流程解决了不同的问题(背景交换)，并在无监督的对象分割、修复和图像混合方面实现了更好的结果。

发明内容

技术问题

-

技术方案

本发明提出一种通过同时学习分割对象掩模并从背景去除对象(又称为切割和粘贴)来进行视觉理解的新颖方法。

提出一种用于执行自动图像处理的计算系统，包括：第一神经网络，用于通过经由分割掩模从包含对象O和背景B_x的原始图像x对对象O进行分割，并且使用所述掩模，通过从图像x切除分割对象O并将分割对象O粘贴到仅包含背景B_y的图像y上来形成粗糙图像z；第二神经网络，用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像

的增强版本；第三神经网络，用于通过对通过使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像

其中，第一神经网络、第二神经网络和第三神经网络被组合成用于顺序地执行分割、增强和修复并且用于同时学习的神经网络的通用架构，其中，所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。此外，第一神经网络、第二神经网络和第三神经网络是创建图像

和

并转换图像

和

的生成器。所述系统还包括：两个神经网络，被配置为估计图像的合理性的鉴别器。此外，第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器；第二鉴别器是尝试在参考真实对象O图像和增强的对象O图像之间进行区分的对象鉴别器。此外，第一神经网络和第二神经网络构成交换网络。此外，所述交换网络被配置为利用损失函数进行端到端训练，以构建具有粘贴的分割对象O的图像

的增强版本。此外，所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数，并且被实现为图像x和图像

之间的平均绝对差。此外，所述损失函数中的一个损失函数是用于增加图像

的合理性的对抗性对象函数，并且所述一个损失函数是利用专用鉴别器网络来实现的。此外，所述损失函数中的一个损失函数是用于使第一网络相对于背景不变的掩模一致性函数，并且被实现为从图像x提取的掩模与从图像

提取的掩模之间的平均绝对距离。所述损失函数中的一个损失函数是用于迫使第二网络产生更接近真实图像的图像的对象增强标识函数，并且是G_enh(x)与x本身之间的平均绝对距离。此外，所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。此外，所述损失函数中的一个损失函数是整体损失函数，其中，整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。此外，由第一网络根据图像x来预测所述分割掩模。

提出一种用于通过以下步骤进行自动图像处理的方法：使用第一神经网络经由分割掩模从包含对象O和背景B_x的原始图像x对对象O进行分割，并且使用所述掩模从图像x切除分割对象O并将分割对象O粘贴到仅包含背景的图像y上来形成粗糙图像z：使用第二神经网络通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像

的增强版本；使用第三神经网络通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像

输出相同尺寸的图像

和

此外，第一神经网络、第二神经网络和第三神经网络是创建图像

和

并转换图像

和

的生成器。所述方法还包括：两个神经网络，被配置为估计图像的合理性的鉴别器。此外，第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器；第二鉴别器是尝试在参考真实对象O图像与增强的对象O图像之间进行区分的对象鉴别器。此外，第一神经网络和第二神经网络构成交换网络。此外，所述交换网络被配置为利用损失函数进行端到端训练，以构建具有粘贴的分割对象O的图像

的增强版本。此外，所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数，并且被实现为图像x与图像

之间的平均绝对差。此外，所述损失函数中的一个损失函数是用于增加图像的合理性的对抗性对象函数，并且所述一个损失函数是利用专用鉴别器网络来实现的。此外，所述损失函数中的一个损失函数是用于使第一网络相对于背景不变的掩模一致性函数，并且被实现为从图像x提取的掩模与从图像

提取的掩模之间的平均绝对距离。此外，所述损失函数中的一个损失函数是用于增强第二网络以产生更接近真实图像的图像的对象增强标识函数，并且是G_enh(x)与x本身之间的平均绝对距离。此外，所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。此外，所述损失函数中的一个损失函数是整体损失函数，其中，整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。此外，由第一网络根据图像x来预测所述分割掩模。

有益效果

-

附图说明

通过参照附图描述示例性实施例，以上和/或其他方面将更加明显，其中：

图1示出神经网络的架构、数据准备方案及设置其参数。用于联合分割和修复的SEIGAN(分割-增强-修复)流程的高层概述：交换操作被执行两次并被优化以再现原始图像。椭圆表示对象和数据；实心矩形表示神经网络；圆角矩形表示损失函数；实线表示数据流，并且虚线表示损失函数的值流。

图2是从一个图像切割对象并将对象粘贴到另一个图像上的交换网络(来自图1)的架构。

图3是由我们的模型生成的图像和掩模的示例。

图4是用于修复网络和/或分割网络的残差网络的架构。

图5是用于分割网络和细化网络的U-网络的架构。

最佳实施方式

-

具体实施方式

所提出的发明可以是有用的硬件，其中，该有用的硬件包括执行自动或自动化图像处理的软件产品和装置，包括：

-图形编辑器；

-用于创建图形内容的创造性应用；

-您想要在图像中找到对象的硬件系统(可穿戴装置、智能电话、机器人)；

-增强现实建模(虚拟/增强现实)；

-准备用于建立机器学习方法的数据(任何行业)。

下面解释应用材料中使用的符号。

O-在图像中描绘的对象。

B_x-在图像x中描绘的背景。

B_y-在图像y中描绘的背景。

x＝<O，B_x>-包含对象O和背景B_x的图像。

-仅包含背景B_y的图像(并且前景中没有对象)。

x-所有图像x的集合。

y-所有图像y的集合。

-去除对象O的图像x(使得图像仅包含背景B_x)。

-粘贴对象O的图像y。

和

-背景B_x和背景B_y以及对象O的变换(近似)变体。

m＝Mask(x)-图像x的分割掩模。

z＝m⊙x+(1-m)⊙y-通过利用混合掩模m对图像x和y进行混合而构建的粗糙图像。

G_seg、G_inp、G_enh-用作用于分割、修复和增强的生成器的神经网络。

D_bg、D_obj-用作鉴别器的神经网络(D_bg将具有真实背景的图像与修复的图像进行分类，D_obj将具有真实对象的图像与具有粘贴的对象的图像进行分类)。

Gram(i)-从表示图像像素的特征的3D张量构建的格拉姆矩阵。

VGG(i)-用于计算3D张量的函数，其中，3D张量表示图像像素的特征。

L，

-用于调整神经网络参数的优化标准。λ₁，...，λ₇-用于平衡不同优化标准的重要性的非负实系数。

与目前的现有模拟相比，所提出的图像处理功能需要较少的人为详细控制。

可用软件实现所提出的方案，其中，该软件又可在具有足够计算能力的任何装置上运行。

在整个文章中，我们将图像表示为对象背景元组，例如，x＝<O，B_x>表示图像x包含对象O和背景B_x，并且

表示图像y包含背景B_y并且不包含对象。

我们在这项工作中解决的主要问题可如下表示。给定背景图像的数据集

和对象在不同背景上的数据集x＝<O，B_x>_x∈X(未配对，即，X与Y之间没有映射)，对模型进行训练以从图像x∈X获取对象并将对象粘贴到由图像y∈Y定义的新背景上，同时将对象从原始背景删除。换句话说，所述问题是将一对图像x＝<O，B_x>和

变换成新的一对

和

其中，

和

但对象和两个背景被改变，使得新的图像看起来自然。

这个一般问题可被分解成三个子任务：

-分割：通过预测分割m＝Mask(x)从原始图像x＝<O，B_x>分割对象O；给定掩模，我们可进行简单地从x切除分割对象并将该分割对象粘贴到y上的粗糙混合：z＝m⊙x+(1-m)⊙y，其中，⊙表示分量方式乘法。在学习处理中，以这样的方式调整神经网络的参数：当输入具有对象的图像时，该神经网络给出对象被选择的正确掩模。用户不参与该处理。

-增强：给定原始图像x和y、粗糙图像z和分割

-修复：给定分割掩模m并通过根据m将x的像素置零而获得的图像(1-m)⊙x，恢复仅有背景的图像

代替去除的分割对象O，图像的一部分基于图像的其余部分和随机信号用第三神经网络被填充。在训练期间，第三神经网络的参数以这样的方式被配置：基于该不完全信息，产生合理的背景填充。结果是两个图像

和

然而，焦点在图像

上，而具有空白背景的图像是该算法的中间结果，但也可使用具有空白背景的图像。

对于这些任务中的每个任务，我们可构建接受图像或一对图像并输出相同维度的新的图像或一对图像的单独的神经网络。然而，我们在这项工作中探索的主要设想是，在没有大量配对和标记的数据集(这是大多数应用中的正常情况)的情况下，一起训练所有这些神经网络是非常有益的。

因此，我们提出我们的以新颖且先前未探索的方式组合所有三个组成部分的SEIGAN(分割-增强-修复)架构。在图1中，具有虚线轮廓的框表示数据(图像)；椭圆表示包含在数据中的对象；具有尖角的框表示实现神经网络的子程序；具有圆角的框表示在训练过程期间控制调整神经网络参数的处理的子程序；线表示训练过程期间的数据流(箭头从一个框指向另一个框的事实意味着第一个框的结果作为输入被传递到第二个框)。我们在图1上概述了我们的架构的一般流程；其中的“交换网络”模块组合了分割和增强。由于剪切和粘贴是部分可逆的操作，因此以类似于CycleGAN[30]的方式组织训练过程是自然的：交换网络和修复网络被应用两次，以便完成循环并且能够将幂等属性用于损失函数。我们用

和

和y表示第一应用的结果，并且用

和

表示将对象从

和

移回的第二应用的结果(参见图1)。

图1中所示的架构组合了五种不同的神经网络，三种用作创建图像并转换图像的生成器，两种用作估计图像的合理性的鉴别器：

·G_seg解决分割任务：给定图像x，预测图像上的对象的分割掩模Mask(x)；

·G_inp解决修复问题：给定m和(1-m)⊙x，预测

·G_enh执行增强：给定x、y和z＝m⊙x+(1-m)，预测

·D_bg是尝试在真实的仅有背景的图像与假(修复)的仅有背景的图像之间进行区分的背景鉴别器；如果x是真实的，则背景鉴别器的输出D_bg(x)应接近1，并且如果x是假的，则背景鉴别器的输出D_bg(x)应接近0；

·D_obj是对背景上的对象图像进行相同的操作的对象鉴别器；如果x是真实的，则对象鉴别器的输出D_obj(x)应接近1，并且如果x是假的，则对象鉴别器的输出D_obj(x)应接近0。

生成器G_seg和G_enh构成所谓的“交换网络”，其中，所谓的“交换网络”在图1上被描绘为单个单元并且在图2上被详细解释。该图与描述如何使用“交换网络”所需的其他实体的最小集合一起描绘了“交换网络”的架构(图1中被命名为“交换网络”的框)。具有虚线轮廓的框表示数据(图像)；椭圆表示包含在数据中的对象；具有尖角的框表示实现神经网络的子程序；具有圆角的框表示在训练过程期间控制调整神经网络参数的处理的子程序；线表示训练过程期间的数据流(箭头从一个框指向另一个框的事实意味着第一个框的结果作为输入被传递到第二个框)。分割网络是获取图像并输出相同尺寸的分割掩模的神经网络。细化网络获取图像并输出相同尺寸的改善的图像版本(即，具有更真实的颜色、去除了伪影等)。

与[18]相比，SEIGAN中的训练过程已被证明更稳定并且能够以更高的分辨率工作。此外，我们的架构允许同时处理更多的任务(修复和混合)，而非仅预测分割掩模。如GAN设计中常见的，架构的秘诀在于不同损失函数的良好组合。在SEIGAN中，我们使用对抗性损失、重建损失和归一化损失的组合。

修复网络G_inp旨在在给定源图像(1-m)⊙x的情况下产生合理的背景

其中，源图像(1-m)⊙x表示原始图像x根据通过应用分割网络获得的分割掩模m(m＝G_seg(x))减去对象；实际上，我们用白色填充m⊙x的像素。在端到端训练期间根据以下损失函数(由图1上的圆角矩形示出)优化修复网络的参数。

对抗性背景损失旨在改善结果图像的合理性。对抗性背景损失用专用鉴别器网络D_bg来实现。对于D_bg，除了层数之外，我们使用与原始CycleGAN[30]中相同的架构；我们的实验已经表明，更深的鉴别器在我们的设置中工作得更好。由于损失函数D_bg使用最小二乘GAN(LSGAN)[16]中建议的MSE对抗性损失，因此实际上，损失函数D_bg比其他类型的GAN损失函数更稳定：

其中，

是原始背景图像，

是在第一次交换之后由x产生的背景图像，并且

是在第二次交换之后由

产生的背景图像。

背景重建损失旨在保留关于原始背景B_x的信息。背景重建损失使用纹理损失[25]来实现，其中，纹理损失是在VGG-16网络的前5层之后的特征图的格拉姆矩阵之间的平均绝对差：

其中，VGG(y)表示预先训练的图像分类神经网络(例如，VGG，但不限于此)的特征矩阵，并且G_ram(A)_ij＝∑_kA_ikA_jk是格拉姆矩阵。

我们对损失函数的选择由以下事实推动：存在大量可能的合理的背景重建，因此损失函数必须考虑平均绝对误差或均方误差不允许但纹理损失允许的特定自由度。在我们的实验中，优化MAE或MSE通常导致生成的图像填充有中值或平均像素值，而不具有对象或纹理。注意，因为我们不具有针对x的地面实况背景，所以仅对y应用背景重建损失(参见图1)。

另一重要的评论是，在将图像馈送到修复网络G_inp之前，我们根据分割掩模m减去图像的一部分，并且我们以可区分的方式执行，而不对m应用任何阈值处理。因此，梯度可通过分割掩模传播回分割网络G_seg。修复和分割的联合训练具有归一化效果。首先，修复网络G_inp想要掩模尽可能准确：如果掩模太小，则G_inp将必须擦除对象的其余部分(其中，这是很大的阶数问题)，并且如果掩模太大，则G_inp将有更多的空白区域来修复。其次，即使在没有阈值处理的情况下，G_inp也想要分割掩模m是高对比度的(具有接近0和1的值)：如果m的大部分是低对比度的(接近0.5)，则G_inp将必须学习去除对象的“伪影”(再次，比仅在空白空间上修复更困难)，并且鉴别器D_bg很可能更容易判断结果画面是假的。

图3中示出由所提出的方法消耗和产生的数据的示例。图像的含义，从左到右，自上而下：

1)最上面行中的最左边图像是具有对象的真实输入图像(图1上的“源图像1”的示例)；

2)最上面行中的第二图像是不具有对象的真实输入图像(图1上的“源图像2”的示例)；

3)给定图像1的由分割网络预测的掩模；

4)具有对象的真实输入图像(图1上的“源图像1”的另一示例)；

5)不具有对象的真实输入图像(图1上的“源图像2”的另一示例)；

6)底行中的最左边的图像是修复网络的输出(图1中的“生成的图像1”的示例)，其中，来自图像1的对象通过图像3上的掩模被去除；

7)细化网络的输出(图1上的“生成的图像2”的示例)，其中，来自图像1的对象被粘贴到来自图像2的背景上；

8)给定图像4的由分割网络预测的掩模；

9)修复网络的输出(图1上的“生成的图像1”的另一示例)，其中，来自图像4的对象通过图像8上的掩模被去除；

10)细化网络的输出(图1上的“生成的图像2”的另一示例)，其中，来自图像4的对象被粘贴到来自图像5的背景上。

对于G_inp，我们使用由顺序连接的两个残差块组成的神经网络(参见图4)。我们还用ShiftNet[27]进行了实验。图4描绘了被用作“修复网络”和“分割网络”的ResNet神经网络的架构。椭圆表示数据；矩形-神经网络的层。整体架构存在于图的左侧部分中。图的右侧部分包含对左侧部分中使用的块的更详细的描述。箭头表示数据流(即，一个块的输出作为输入被馈送到另一个块)。Conv2d表示卷积层；BatchNorm2d表示批归一化层；ReLU-线性整流单元；ReflectionPad-用反射填充像素；ConvTranspose2d-解卷积层。

交换网络旨在根据两个原始图像(具有对象O的x＝<O，B_x>、具有不同的背景B_y的

)生成新图像

交换网络由两个主要步骤组成：分割G_seg和增强G_enh(参见图2)。

分割网络G_seg从x产生软分割掩模m＝G_seg(x)。利用掩模m，我们可从掩模m的源图像x提取对象O并将对象O粘贴在B_y上以产生目标图像的“粗糙”版本z＝m⊙x+(1-m)⊙y；然而，z不是最终结果：它缺少抗混叠、颜色或亮度校正以及其他改善。注意，在理想情况下，以自然方式粘贴对象还可能需要对目标背景更复杂的理解；例如，如果我们想要将狗粘贴到草地上，则我们可能应将一些背景草放在狗的前面，隐藏它的爪子，因为在现实中，它的爪子在草后面将不被看到。

为了解决这个问题，我们引入所谓的增强神经网络G_enh，其中，增强神经网络的目的是在给定原始图像x和y以及分割掩模m，生成粗糙结果z＝m⊙x+(1-m)⊙y＝<O，B_y>的情况下，生成“更平滑”、更自然的图像

我们已经用以四种不同方式实现的增强网络进行了实验：

·黑盒增强：G_enh(x,y,m)输出最终的改善图像；

·掩模增强：G_enh(x,y,m)输出更好地将对象O和新的背景B_y适配在一起的新的分割掩模m'；

·颜色增强：G_enh(x,y,m)输出每像素每通道乘法器γ⊙z；权重γ在具有额外的MSE损失的情况下被归一化为接近1；

·混合增强：G_enh(x,y,m)输出新掩模m'和乘法器γ两者；

在任何情况下，我们通过G_enh(x,y,m)表示在G_enh的所有输出已经相应地被应用于z之后的最终的改善图像。

我们用以下损失函数(由图1上的圆角矩形示出)端到端地训练交换网络。

对象重建损失

旨在确保一致性和训练稳定性。

被实现为源图像x＝(O，B_x)与

之间的平均绝对差。

其中，

并且

其中，

且

即

是将交换网络应用于x和y两次的结果。

对抗性对象损失

旨在增加

的合理性。

用专用鉴别器网络D_obj来实现。

还具有使由分割掩模m＝G_seg(x)覆盖的区域最大化的副作用。我们将该损失应用于具有对象的所有图像：真实图像x和“假的”图像

和

再次，除了层数之外，鉴别器具有与CycleGAN[30]中相同的架构，其中，我们已经发现更深的鉴别器工作得更好。我们再次使用由LSGAN[16]启发的MSK损失：

掩模一致性损失旨在使分割网络相对于背景不变。它被实现为m＝G_seg(x)(从x＝<O，B_x>提取的掩模)与m＝G_seg(y)(从

提取的掩模)之间的平均绝对距离：

该掩模基本上是与提取该掩模的画面相同尺寸的黑白画面。掩模上的白色像素与图像的选择区域(在这种情况下描绘对象的像素)相应，黑色像素与背景相应。平均绝对距离是平均所有像素的像素值的差的模数。重新提取掩模以确保提取掩模的神经网络精确地响应于对象的形状，而不响应于对象后面的背景(换句话说，同一对象的掩模必须总是相同的)。

最后，除了上面定义的损失函数之外，我们还使用了标识损失，其中，标识损失是CycleGAN[30]中提出的构思。我们介绍了两种不同的标识损失的实例：

·对象增强标识损失

使增强网络G_enh对真实图像的结果更接近标识：

是G_enh(x)与x本身之间的平均距离：

·背景标识损失

尝试确保我们的切割和修复架构不对不包含对象的图像做任何事情：对于图像

我们找到分割掩模G_seg(y)，从y减去分割掩模G_seg(y)以得到(1-G_seg(y))⊙y，应用修复G_inp，然后使原始y与结果之间的平均距离最小化：

整体SEIGAN损失函数是上面定义的所有损失函数的线性组合：

以经验为主选择系数。

在实验期间，我们注意到几种有趣的效果。首先，原始图像x＝<O，B_x>和

在合并之前可能具有不同的比例和宽高比。利用双线性插值将它们重新缩放到相同的形状将在低级纹理中引入显著差异，而对于鉴别器，这将非常容易识别为假，从而阻止GAN收敛。

[18]的作者面临相同的问题，并通过他们用于创建训练样本的特殊程序来解决该问题：他们仅从同一图像获取前景区域和背景区域以确保相同的比例和宽高比，这减少了多样性并使更少的图像适合于训练集。在我们的设置中，通过单独的增强网络来解决这个问题，因此我们在找到合适的训练数据方面具有较少的限制。

另一有趣的效果是当针对MAE或MSE重建损失来优化修复时分割掩模中的低对比度。低对比度掩模(即，具有大约0.5而不是接近0或1的许多值的m)使得关于对象的信息从原始图像“泄漏”并且便于重建。之前其他研究人员已经注意到类似的效果，并且在CycleGAN架构中，甚至已经用于隐写术[4]。我们首先通过简单的阈值处理将软分割掩模转换为硬掩模来解决这个问题。稍后，我们发现针对纹理损失

优化图像修复是产生比阈值处理更好的结果的更简洁的方案。

对于分割网络G_seg，我们使用来自CycleGAN[30]的架构，其中，该架构本身是来自[10]的架构的适配。为了更好的性能，我们用双线性上采样替换ConvTranspose层。此外，在网络的最后一层之后，我们使用logistic、sigmoid作为激活函数。

对于增强网络G_enh，我们使用U-net架构[20]，由于它既能够处理高分辨率的图像，又能够在源图像中发生小的改变。这对于我们的设置是重要的，因为我们不想在增强网络中显著改变图像内容，而是仅以更智能的方式来“平滑”粘贴的图像的边界。

图5，该图描绘了用作“修复网络”和“细化网络”的U-Net神经网络的架构。椭圆表示数据；矩形-神经网络的层。整体架构存在于图的左侧部分中。图的右侧部分包含对左侧部分中使用的块的更详细的描述。箭头表示数据流(即，一个块的输出作为输入被馈送到另一个块)。Conv2d表示卷积层；BatchNorm2d表示批归一化层；ReLU-线性整流单元；ReflectionPad-利用反射填充像素；ConvTranspose2d-解卷积层。

数据准备

我们的实验的主要部分是在创造共用许可下对在Flickr上公开可用的图像进行的。我们使用查询“狗”来收集初始图像。然后，我们使用预训练的更快的R-CNN来检测所有对象(包括狗)和没有任何对象的所有区域。然后，我们构建两个数据集{<O,B₁>}(来自具有狗的区域)和{(B₂)}(来自没有任何类的对象的区域)。在数据收集之后，我们进行数据滤波程序，以便获得没有任何外来对象的图像区域。

如下执行滤波程序。首先，我们使用更快的R-CNN[19](在MSCOCO(14]上预先训练的)来检测图像上的所有对象。然后，根据以下规则获得输入图像的裁剪：

1、在重新缩放之后，对象的尺寸等于64×64，并且最终裁剪的尺寸等于128×128；

2、对象位于裁剪的中心；

3、不存在与给定裁剪相交的其它对象；

4、裁剪的对象的源尺寸大于整个源图像的(按最小边)的60％并且不大于整个源图像的(按最长边)的40％。

前述示例性实施例是示例，并且将不被解释为限制。此外，示例性实施例的描述旨在是说明性的，而不是限制权利要求的范围，并且许多替换物、修改和变化对于本领域技术人员将是显而易见的。

参考文献

[1]J A.Almahairi.S.Rajeswar,A.Sordoni,R Bachman,andA.Courville.Augmented cyclegan:Learning many-to-many mappings from unpaiieddata.arXiv preprint arXiv.l802.10151.2018.

[2]K.Bousmalis.A.Iipan.P.Wohlhait.Y.Bai.M.Kelcey.M.Kalakrishnan.LDowns.J.I bar/.P.Pastor.K.Konolige.et al.Using simulation and domainadaptation to improve efficiency of deep robotic grasping.In 2018IEEEInternational Conference on Robotics and Automation(ICRA),pages 4243-4250.IEEE,2018.

[3]Y.Choi.M.Choi.M.Kim.J.-W.Ha.S.Kim.and J.Choo.Stargan:Unifiedgenerative adversarial networks for multi-domain image-to-imagetranslation.arXiv preprint.1711,2017.

[4]C.Chu.A.Zhmoginov.and M.Sandler.Cyclegan:a master ofsteganography.arXiv preprint arXiv:1712.02950,2017.

[5]M.Cordts.M.6mran.S.Ramos,T.Rehfeld,M.Enzweiler,R.Benenson.U.Franke.S.Roth,and B.Schiele.The cityscapes dataset for semanticurban scene understanding.In Proc.of the IEEE Conference on Computer Visionand Pattern Recognition(CVPR).2016.

[6]I.Goodfellow,J.Pouget-Abadie.M.Miiza,B.Xu,D.Warde-Farley.S.Ozair.A.Courville.and Y.Bengio.Generative adversarial nets.InAdvances in neural information processing systems,pages 2672-2680,2014.

[7]V.Gupta and S.Raman.Automatic trimap generation for imagematting.In Signal and Information Processing(ICon-SIP).InternationalConference on.pages 1-5.IEEE.2016.

[8]H.Huang.X.Fang.Y.Ye.S.Zhang,and P.L Rosin Prac-tical automaticbackground substitution for live video.Computational Visual Media,3(3):273-284.2017.

[9]X.Ji,J.F.Henriques,and A.Vedaldi.Invariant informationdistillation for unsupervised image segmentation and clustering.arXivpreprint arXiv:1807.06653,2018.

[10]J.Johnson,A.Alahi,and F.Li.Perceptual losses for real-time styletransfer and super-resolution.CoRR,abs/1603.08155,2016.

[11]S.Kazemzadeh,V.Ordonez,M.Matten,and T.Berg.Referitgame:Referringto objects in photographs of natural scenes.In Proceedings of the2014conference on empirical methods in natural language processing{EMNLP),pages 787-798,2014.

[12]A.Khoreva,R.Benenson,J.H.Hosang,M.Hein,and B.Schiele.Simple doesit:Weakly supervised instance and semantic segmentation.In CVPR,volume 1,page3,2017.

[13]R.Krishna,Y.Zhu,O.Groth,J.Johnson,K.Hata,J.Kravitz,S.Chen,Y.Kalantidis,L.-J.Li,D.A.Shamma,M.Bernstein,and L Fei-Fei.Visual genome:Connecting language and vision using crowdsourced dense imageannotations.2016.

[14]T.-Y.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,and C.L.Zitnick.Microsoft coco:Common objects in context.In Europeanconference on computer vision,pages 740-755.Springer,2014.

[15]M.-Y.Liu,T.Breuel,and J.Kautz.Unsupervised image-to imagetranslation networks.In Advances in Neural Information Processing Systems,pages 700-708,2017.

[16]X.Mao,Q.Li,H.Xie,R.Lau,Z.Wang,and S.P.Smolley.Least squaresgenerative adversarial networks,arxiv preprint.arXiv preprint ArXiv:1611.04076,2(5),2016.

[17]B.A.Plummer,L.Wang,С.M.Cervantes,J.СCaicedo,J.Hockenmaier,andS.Lazebnik.Flickr30k entities:Collecting region-to-phrase correspondences forricher image-to-sentence models.In Proceedings of the IEEE internationalconference on computer vision,pages 2641-2649,2015.

[18]T.Remez,J.Huang,and M.Brown.Learning to segment via cut-and-paste.arXiv preprint arXiv:1803.06414,2018.

[19]S.Ren,K.He,R.Girshick,and J.Sun.Faster r-cnn:Towards real-timeobject detection with region proposal networks.In Advances in neuralinformation processing systems,pages 91-99,2015.

[20]O.Ronneberger,P Fischer,and T.Brox.U-net:Convolutional networksfor biomedical image segmentation.CoRR,abs/1505.04597,2015.

[21]С.Rother,V.Kolmogorov,and A.Blake.Grabcut:Interactive foregroundextraction using iterated graph cuts.In ACM transactions on graphics(TOG),volume 23,pages 309-314.ACM,2004.

[22]Т.-C.Wang,M.-Y.Liu,J.-Y.Zhu,A.Tao,J.Kautz,and B.Catanzaro.High-resolution image synthesis and semantic manipulation with conditionalgans.arXiv preprint arXiv:1711.11585,2017.

[23]Z.Wu,R.Chang,J.Ma,C.Lu,and C.-K.Tang.Annotation-free and one-shotlearning for instance segmentation of homogeneous object clusters.arXivpreprint arXiv:1802.00383,2018.

[24]X.Xia and B.Kulis.W-net:A deep model for fully unsupervised imagesegmentation.arXiv preprint arXiv:1711.08506,2017.

[25]W.Xian,P.Sangkloy,J.Lu,СFang,F.Yu,and J.Hays.Texturegan:Controlling deep image synthesis with texture patches.CoRR,abs/1706.02823,2017.

[26]N.Xu,B.L.Price,S.Cohen,and T.S.Huang.Deep image matting.In CVPR,volume 2,page 4,2017.

[27]Z.Yan,X.Li,M.Li,W.Zuo,and S.Shan.Shift-net:Image inpainting viadeep feature rearrangement.arXiv preprint arXiv:1801.09392,2018.

[28]L.Yu,Z.Lin,X.Shen,J.Yang,X.Lu,M.Bansal,and T.L.Berg.Mattnet:Modular attention network for referring expression comprehension.InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018.

[29]Y.Zhang,L.Yuan,Y.Guo,Z.He,I.-A.Huang,and H.Lee.Discriminativebimodal networks for visual localization and detection with natural languagequeries.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2017.

[30]J.Zhu,T.Park,P.Isola,and A.A.Efros.Unpaired image-to-imagetranslation using cycle-consistent adversarial networks.CoRR,abs/1703.10593,2017.

[31]J.-Y.Zhu,R.Zhang,D.Pathak,T.Darnell,A.A.Efros,O.Wang,andE.Shechtman.Toward multimodal image-to-image translation.In Advances inNeural Information Processing Systems,pages 465-176,2017.