CN113016005A - 联合无监督对象分割与修复 - Google Patents

联合无监督对象分割与修复 Download PDF

Info

Publication number
CN113016005A
CN113016005A CN201980074975.XA CN201980074975A CN113016005A CN 113016005 A CN113016005 A CN 113016005A CN 201980074975 A CN201980074975 A CN 201980074975A CN 113016005 A CN113016005 A CN 113016005A
Authority
CN
China
Prior art keywords
image
mask
background
network
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980074975.XA
Other languages
English (en)
Inventor
帕维尔·亚历山德罗维奇·欧斯特科夫
罗曼·叶夫根涅维奇·苏沃罗夫
伊丽莎白·米哈伊洛娃·洛加契娃
奥列格·伊戈列维奇·霍姆尼科
谢尔盖·伊戈列维奇·尼科伦科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2019104710A external-priority patent/RU2710659C1/ru
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN113016005A publication Critical patent/CN113016005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及与找到对象的边界、从图像去除对象、将对象插入到图像中、从现有图像的组合创建新图像相关联的图像处理功能的实现。提出一种用于自动图像处理的方法和用于执行自动图像处理的计算系统,包括:第一神经网络,用于通过经由分割掩模从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模,从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;第二神经网络,用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像(图像I)的增强版本;第三神经网络,用于通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像(图像II);其中,第一神经网络、第二神经网络和第三神经网络被组合成用于顺序地执行分割、增强和修复并且用于同时学习的神经网络的通用架构,其中,所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。

Description

联合无监督对象分割与修复
技术领域
本发明涉及与找到对象的边界、从图像去除对象、将对象插入到图像中、从现有图像的组合创建新图像相关联的图像处理功能的实现。
背景技术
无监督和弱监督对象分割。在[18]中,作者提出一种用于从边界框生成对象分割掩模的基于GAN[30]的技术。他们的训练流程包括对同一图像进行两次裁剪:一次有对象,一次没有任何对象。使用更快的R-CNN检测对象[19]。然后,他们训练GAN以产生分割掩模,使得这两次裁剪与该掩模结果合并成合理的图像。作者使用对抗性损失、存在性损失(其中,存在性损失验证对象存在于图像上)和切割损失(其中,切割损失验证在对象被切割之后没有留下对象部分)的组合。他们仅用来自Cityscapes[5]的一些类和来自MSCOCO[14]数据集的所有类进行实验。作者报告,他们的方法实现了比经典的GrabCut[21]算法和最近的Simple-Doe-It[12]更高的平均交并比(intersection-over-union values)值。该方法需要预先训练的更快的R-CNN以及用于前景和背景区域选择的特殊策略。该方法还在正确地分割一些对象类(例如风筝、长颈鹿等)方面遇到困难。他们的方法还仅适用于小分辨率图像(28×28)。
在[23]中,作者提出一种用于学习同类对象的分割网络的无标注框架。他们使用自适应合成数据生成处理来创建训练数据集。
尽管传统上用超像素聚类进行处理,但最近已经用深度学习解决了无监督图像分割[9]。在后一篇论文中,作者提出使通过全卷积网络从同一图像的附近区域获得的两个聚类向量之间的信息最大化。在[24]中已经提出了类似的技术,但受到重建损失的约束。作者描述了尝试将像素在内层进行聚类的W-Net(具有U型网状的编码器和解码器的自动编码器),然后从像素簇重建图像。他们的分割结果不知道对象类别。
视觉训练(Visual grounding)。用于visual grounding的方法旨在对图像的区域和自由形式文本查询的无监督匹配或弱监督匹配。通常,超级视觉采取成对的形式(图像;字幕)。模型性能通常被测量为针对基本事实标签的交并比(intersection-over-union)。最流行的数据集是视觉基因组[13]、Flickr30k[17]、Refer-It-Game[11]和MSCOCO[14]。grounding的一般方法包括预测给定字幕和图像是否彼此相应。通过独立地把字幕和图像置乱来获得负样本。文本图像注意力是大多数visual grounding模型的核心特征[28]。显然,使用更细粒度的监督(例如,区域级标注而不是图像级标注)使得实现更高的分数[29]。
三元图生成。三元图生成是将图像分割成三类的问题:前景、背景和未知(透明前景)。大多数算法需要人为干预来提出三元图,但最近已经提出了基于超像素和聚类的方法用于自动三元图生成[7]。然而,他们的方法需要对每个图像执行多个优化步骤。深度学习用于在给定图像和三元图的情况下产生alpha消光(matting)掩模[26]。还存在关于视频中的视频消光和背景替换的一些工作[8]。他们使用逐帧超像素分割,然后在高斯混合模型的条件随机场中优化能量,以逐帧分离前景和背景。
生成对抗性网络。在最近几年,GAN[6]可能是训练生成模型的最常用方法。尽管强大,但他们倾向于对更高分辨率图像的不稳定训练处理和不一致性能。最近提出的方法CycleGAN[30]一起训练两个GAN以建立两个域之间的双向映射。他们的方法提供了更大的稳定性和一致性。相反,该方法要求数据集对一种可逆操作进行可视化。已经公开了对CycleGAN的大量修改和应用,其中,所述修改和应用包括语义图像操纵[22]、域自适应[2]、无监督图像到图像翻译[15]、多域翻译[3]等。还存在域之间的这种映射可能不明确的问题。BicycleGAN[31]和增强的CycleGAN[1]通过要求映射必须保留隐藏表示来解决该问题。
在该论文中,我们基于Cut&Paste[18]和CycleGAN[6]的构思,并提出一种新颖的架构和流程,其中,该新颖的架构和流程解决了不同的问题(背景交换),并在无监督的对象分割、修复和图像混合方面实现了更好的结果。
发明内容
技术问题
-
技术方案
本发明提出一种通过同时学习分割对象掩模并从背景去除对象(又称为切割和粘贴)来进行视觉理解的新颖方法。
提出一种用于执行自动图像处理的计算系统,包括:第一神经网络,用于通过经由分割掩模从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模,通过从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;第二神经网络,用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像
Figure BDA0003064747950000031
的增强版本;第三神经网络,用于通过对通过使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像
Figure BDA0003064747950000032
其中,第一神经网络、第二神经网络和第三神经网络被组合成用于顺序地执行分割、增强和修复并且用于同时学习的神经网络的通用架构,其中,所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。此外,第一神经网络、第二神经网络和第三神经网络是创建图像
Figure BDA0003064747950000033
Figure BDA0003064747950000034
并转换图像
Figure BDA0003064747950000035
Figure BDA0003064747950000036
的生成器。所述系统还包括:两个神经网络,被配置为估计图像的合理性的鉴别器。此外,第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器;第二鉴别器是尝试在参考真实对象O图像和增强的对象O图像之间进行区分的对象鉴别器。此外,第一神经网络和第二神经网络构成交换网络。此外,所述交换网络被配置为利用损失函数进行端到端训练,以构建具有粘贴的分割对象O的图像
Figure BDA00030647479500000310
的增强版本。此外,所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数,并且被实现为图像x和图像
Figure BDA0003064747950000037
之间的平均绝对差。此外,所述损失函数中的一个损失函数是用于增加图像
Figure BDA0003064747950000038
的合理性的对抗性对象函数,并且所述一个损失函数是利用专用鉴别器网络来实现的。此外,所述损失函数中的一个损失函数是用于使第一网络相对于背景不变的掩模一致性函数,并且被实现为从图像x提取的掩模与从图像
Figure BDA0003064747950000039
提取的掩模之间的平均绝对距离。所述损失函数中的一个损失函数是用于迫使第二网络产生更接近真实图像的图像的对象增强标识函数,并且是Genh(x)与x本身之间的平均绝对距离。此外,所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。此外,所述损失函数中的一个损失函数是整体损失函数,其中,整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。此外,由第一网络根据图像x来预测所述分割掩模。
提出一种用于通过以下步骤进行自动图像处理的方法:使用第一神经网络经由分割掩模从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模从图像x切除分割对象O并将分割对象O粘贴到仅包含背景的图像y上来形成粗糙图像z:使用第二神经网络通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像
Figure BDA0003064747950000041
的增强版本;使用第三神经网络通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像
Figure BDA0003064747950000042
输出相同尺寸的图像
Figure BDA0003064747950000043
Figure BDA0003064747950000044
此外,第一神经网络、第二神经网络和第三神经网络是创建图像
Figure BDA0003064747950000045
Figure BDA0003064747950000046
并转换图像
Figure BDA0003064747950000047
Figure BDA0003064747950000048
的生成器。所述方法还包括:两个神经网络,被配置为估计图像的合理性的鉴别器。此外,第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器;第二鉴别器是尝试在参考真实对象O图像与增强的对象O图像之间进行区分的对象鉴别器。此外,第一神经网络和第二神经网络构成交换网络。此外,所述交换网络被配置为利用损失函数进行端到端训练,以构建具有粘贴的分割对象O的图像
Figure BDA0003064747950000049
的增强版本。此外,所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数,并且被实现为图像x与图像
Figure BDA00030647479500000410
之间的平均绝对差。此外,所述损失函数中的一个损失函数是用于增加图像的合理性的对抗性对象函数,并且所述一个损失函数是利用专用鉴别器网络来实现的。此外,所述损失函数中的一个损失函数是用于使第一网络相对于背景不变的掩模一致性函数,并且被实现为从图像x提取的掩模与从图像
Figure BDA00030647479500000411
提取的掩模之间的平均绝对距离。此外,所述损失函数中的一个损失函数是用于增强第二网络以产生更接近真实图像的图像的对象增强标识函数,并且是Genh(x)与x本身之间的平均绝对距离。此外,所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。此外,所述损失函数中的一个损失函数是整体损失函数,其中,整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。此外,由第一网络根据图像x来预测所述分割掩模。
有益效果
-
附图说明
通过参照附图描述示例性实施例,以上和/或其他方面将更加明显,其中:
图1示出神经网络的架构、数据准备方案及设置其参数。用于联合分割和修复的SEIGAN(分割-增强-修复)流程的高层概述:交换操作被执行两次并被优化以再现原始图像。椭圆表示对象和数据;实心矩形表示神经网络;圆角矩形表示损失函数;实线表示数据流,并且虚线表示损失函数的值流。
图2是从一个图像切割对象并将对象粘贴到另一个图像上的交换网络(来自图1)的架构。
图3是由我们的模型生成的图像和掩模的示例。
图4是用于修复网络和/或分割网络的残差网络的架构。
图5是用于分割网络和细化网络的U-网络的架构。
最佳实施方式
-
具体实施方式
所提出的发明可以是有用的硬件,其中,该有用的硬件包括执行自动或自动化图像处理的软件产品和装置,包括:
-图形编辑器;
-用于创建图形内容的创造性应用;
-您想要在图像中找到对象的硬件系统(可穿戴装置、智能电话、机器人);
-增强现实建模(虚拟/增强现实);
-准备用于建立机器学习方法的数据(任何行业)。
下面解释应用材料中使用的符号。
O-在图像中描绘的对象。
Bx-在图像x中描绘的背景。
By-在图像y中描绘的背景。
x=<O,Bx>-包含对象O和背景Bx的图像。
Figure BDA0003064747950000051
-仅包含背景By的图像(并且前景中没有对象)。
x-所有图像x的集合。
y-所有图像y的集合。
Figure BDA0003064747950000052
-去除对象O的图像x(使得图像仅包含背景Bx)。
Figure BDA0003064747950000061
-粘贴对象O的图像y。
Figure BDA0003064747950000062
Figure BDA0003064747950000063
-背景Bx和背景By以及对象O的变换(近似)变体。
m=Mask(x)-图像x的分割掩模。
z=m⊙x+(1-m)⊙y-通过利用混合掩模m对图像x和y进行混合而构建的粗糙图像。
Gseg、Ginp、Genh-用作用于分割、修复和增强的生成器的神经网络。
Dbg、Dobj-用作鉴别器的神经网络(Dbg将具有真实背景的图像与修复的图像进行分类,Dobj将具有真实对象的图像与具有粘贴的对象的图像进行分类)。
Gram(i)-从表示图像像素的特征的3D张量构建的格拉姆矩阵。
VGG(i)-用于计算3D张量的函数,其中,3D张量表示图像像素的特征。
L,
Figure BDA0003064747950000064
-用于调整神经网络参数的优化标准。λ1,...,λ7-用于平衡不同优化标准的重要性的非负实系数。
与目前的现有模拟相比,所提出的图像处理功能需要较少的人为详细控制。
可用软件实现所提出的方案,其中,该软件又可在具有足够计算能力的任何装置上运行。
在整个文章中,我们将图像表示为对象背景元组,例如,x=<O,Bx>表示图像x包含对象O和背景Bx,并且
Figure BDA0003064747950000065
表示图像y包含背景By并且不包含对象。
我们在这项工作中解决的主要问题可如下表示。给定背景图像的数据集
Figure BDA0003064747950000066
和对象在不同背景上的数据集x=<O,Bx>x∈X(未配对,即,X与Y之间没有映射),对模型进行训练以从图像x∈X获取对象并将对象粘贴到由图像y∈Y定义的新背景上,同时将对象从原始背景删除。换句话说,所述问题是将一对图像x=<O,Bx>和
Figure BDA0003064747950000067
变换成新的一对
Figure BDA0003064747950000068
Figure BDA0003064747950000069
其中,
Figure BDA00030647479500000610
Figure BDA00030647479500000611
但对象和两个背景被改变,使得新的图像看起来自然。
这个一般问题可被分解成三个子任务:
-分割:通过预测分割m=Mask(x)从原始图像x=<O,Bx>分割对象O;给定掩模,我们可进行简单地从x切除分割对象并将该分割对象粘贴到y上的粗糙混合:z=m⊙x+(1-m)⊙y,其中,⊙表示分量方式乘法。在学习处理中,以这样的方式调整神经网络的参数:当输入具有对象的图像时,该神经网络给出对象被选择的正确掩模。用户不参与该处理。
-增强:给定原始图像x和y、粗糙图像z和分割
Figure BDA0003064747950000071
-修复:给定分割掩模m并通过根据m将x的像素置零而获得的图像(1-m)⊙x,恢复仅有背景的图像
Figure BDA0003064747950000072
代替去除的分割对象O,图像的一部分基于图像的其余部分和随机信号用第三神经网络被填充。在训练期间,第三神经网络的参数以这样的方式被配置:基于该不完全信息,产生合理的背景填充。结果是两个图像
Figure BDA0003064747950000073
Figure BDA0003064747950000074
然而,焦点在图像
Figure BDA0003064747950000075
上,而具有空白背景的图像是该算法的中间结果,但也可使用具有空白背景的图像。
对于这些任务中的每个任务,我们可构建接受图像或一对图像并输出相同维度的新的图像或一对图像的单独的神经网络。然而,我们在这项工作中探索的主要设想是,在没有大量配对和标记的数据集(这是大多数应用中的正常情况)的情况下,一起训练所有这些神经网络是非常有益的。
因此,我们提出我们的以新颖且先前未探索的方式组合所有三个组成部分的SEIGAN(分割-增强-修复)架构。在图1中,具有虚线轮廓的框表示数据(图像);椭圆表示包含在数据中的对象;具有尖角的框表示实现神经网络的子程序;具有圆角的框表示在训练过程期间控制调整神经网络参数的处理的子程序;线表示训练过程期间的数据流(箭头从一个框指向另一个框的事实意味着第一个框的结果作为输入被传递到第二个框)。我们在图1上概述了我们的架构的一般流程;其中的“交换网络”模块组合了分割和增强。由于剪切和粘贴是部分可逆的操作,因此以类似于CycleGAN[30]的方式组织训练过程是自然的:交换网络和修复网络被应用两次,以便完成循环并且能够将幂等属性用于损失函数。我们用
Figure BDA0003064747950000076
Figure BDA0003064747950000077
和y表示第一应用的结果,并且用
Figure BDA0003064747950000078
Figure BDA0003064747950000079
表示将对象从
Figure BDA00030647479500000710
Figure BDA00030647479500000711
移回的第二应用的结果(参见图1)。
图1中所示的架构组合了五种不同的神经网络,三种用作创建图像并转换图像的生成器,两种用作估计图像的合理性的鉴别器:
·Gseg解决分割任务:给定图像x,预测图像上的对象的分割掩模Mask(x);
·Ginp解决修复问题:给定m和(1-m)⊙x,预测
Figure BDA00030647479500000712
·Genh执行增强:给定x、y和z=m⊙x+(1-m),预测
Figure BDA00030647479500000713
·Dbg是尝试在真实的仅有背景的图像与假(修复)的仅有背景的图像之间进行区分的背景鉴别器;如果x是真实的,则背景鉴别器的输出Dbg(x)应接近1,并且如果x是假的,则背景鉴别器的输出Dbg(x)应接近0;
·Dobj是对背景上的对象图像进行相同的操作的对象鉴别器;如果x是真实的,则对象鉴别器的输出Dobj(x)应接近1,并且如果x是假的,则对象鉴别器的输出Dobj(x)应接近0。
生成器Gseg和Genh构成所谓的“交换网络”,其中,所谓的“交换网络”在图1上被描绘为单个单元并且在图2上被详细解释。该图与描述如何使用“交换网络”所需的其他实体的最小集合一起描绘了“交换网络”的架构(图1中被命名为“交换网络”的框)。具有虚线轮廓的框表示数据(图像);椭圆表示包含在数据中的对象;具有尖角的框表示实现神经网络的子程序;具有圆角的框表示在训练过程期间控制调整神经网络参数的处理的子程序;线表示训练过程期间的数据流(箭头从一个框指向另一个框的事实意味着第一个框的结果作为输入被传递到第二个框)。分割网络是获取图像并输出相同尺寸的分割掩模的神经网络。细化网络获取图像并输出相同尺寸的改善的图像版本(即,具有更真实的颜色、去除了伪影等)。
与[18]相比,SEIGAN中的训练过程已被证明更稳定并且能够以更高的分辨率工作。此外,我们的架构允许同时处理更多的任务(修复和混合),而非仅预测分割掩模。如GAN设计中常见的,架构的秘诀在于不同损失函数的良好组合。在SEIGAN中,我们使用对抗性损失、重建损失和归一化损失的组合。
修复网络Ginp旨在在给定源图像(1-m)⊙x的情况下产生合理的背景
Figure BDA0003064747950000081
其中,源图像(1-m)⊙x表示原始图像x根据通过应用分割网络获得的分割掩模m(m=Gseg(x))减去对象;实际上,我们用白色填充m⊙x的像素。在端到端训练期间根据以下损失函数(由图1上的圆角矩形示出)优化修复网络的参数。
对抗性背景损失旨在改善结果图像的合理性。对抗性背景损失用专用鉴别器网络Dbg来实现。对于Dbg,除了层数之外,我们使用与原始CycleGAN[30]中相同的架构;我们的实验已经表明,更深的鉴别器在我们的设置中工作得更好。由于损失函数Dbg使用最小二乘GAN(LSGAN)[16]中建议的MSE对抗性损失,因此实际上,损失函数Dbg比其他类型的GAN损失函数更稳定:
Figure BDA0003064747950000082
其中,
Figure BDA0003064747950000083
是原始背景图像,
Figure BDA0003064747950000091
是在第一次交换之后由x产生的背景图像,并且
Figure BDA0003064747950000092
是在第二次交换之后由
Figure BDA0003064747950000093
产生的背景图像。
背景重建损失旨在保留关于原始背景Bx的信息。背景重建损失使用纹理损失[25]来实现,其中,纹理损失是在VGG-16网络的前5层之后的特征图的格拉姆矩阵之间的平均绝对差:
Figure BDA0003064747950000094
其中,VGG(y)表示预先训练的图像分类神经网络(例如,VGG,但不限于此)的特征矩阵,并且Gram(A)ij=∑kAikAjk是格拉姆矩阵。
我们对损失函数的选择由以下事实推动:存在大量可能的合理的背景重建,因此损失函数必须考虑平均绝对误差或均方误差不允许但纹理损失允许的特定自由度。在我们的实验中,优化MAE或MSE通常导致生成的图像填充有中值或平均像素值,而不具有对象或纹理。注意,因为我们不具有针对x的地面实况背景,所以仅对y应用背景重建损失(参见图1)。
另一重要的评论是,在将图像馈送到修复网络Ginp之前,我们根据分割掩模m减去图像的一部分,并且我们以可区分的方式执行,而不对m应用任何阈值处理。因此,梯度可通过分割掩模传播回分割网络Gseg。修复和分割的联合训练具有归一化效果。首先,修复网络Ginp想要掩模尽可能准确:如果掩模太小,则Ginp将必须擦除对象的其余部分(其中,这是很大的阶数问题),并且如果掩模太大,则Ginp将有更多的空白区域来修复。其次,即使在没有阈值处理的情况下,Ginp也想要分割掩模m是高对比度的(具有接近0和1的值):如果m的大部分是低对比度的(接近0.5),则Ginp将必须学习去除对象的“伪影”(再次,比仅在空白空间上修复更困难),并且鉴别器Dbg很可能更容易判断结果画面是假的。
图3中示出由所提出的方法消耗和产生的数据的示例。图像的含义,从左到右,自上而下:
1)最上面行中的最左边图像是具有对象的真实输入图像(图1上的“源图像1”的示例);
2)最上面行中的第二图像是不具有对象的真实输入图像(图1上的“源图像2”的示例);
3)给定图像1的由分割网络预测的掩模;
4)具有对象的真实输入图像(图1上的“源图像1”的另一示例);
5)不具有对象的真实输入图像(图1上的“源图像2”的另一示例);
6)底行中的最左边的图像是修复网络的输出(图1中的“生成的图像1”的示例),其中,来自图像1的对象通过图像3上的掩模被去除;
7)细化网络的输出(图1上的“生成的图像2”的示例),其中,来自图像1的对象被粘贴到来自图像2的背景上;
8)给定图像4的由分割网络预测的掩模;
9)修复网络的输出(图1上的“生成的图像1”的另一示例),其中,来自图像4的对象通过图像8上的掩模被去除;
10)细化网络的输出(图1上的“生成的图像2”的另一示例),其中,来自图像4的对象被粘贴到来自图像5的背景上。
对于Ginp,我们使用由顺序连接的两个残差块组成的神经网络(参见图4)。我们还用ShiftNet[27]进行了实验。图4描绘了被用作“修复网络”和“分割网络”的ResNet神经网络的架构。椭圆表示数据;矩形-神经网络的层。整体架构存在于图的左侧部分中。图的右侧部分包含对左侧部分中使用的块的更详细的描述。箭头表示数据流(即,一个块的输出作为输入被馈送到另一个块)。Conv2d表示卷积层;BatchNorm2d表示批归一化层;ReLU-线性整流单元;ReflectionPad-用反射填充像素;ConvTranspose2d-解卷积层。
交换网络旨在根据两个原始图像(具有对象O的x=<O,Bx>、具有不同的背景By
Figure BDA0003064747950000101
)生成新图像
Figure BDA0003064747950000102
交换网络由两个主要步骤组成:分割Gseg和增强Genh(参见图2)。
分割网络Gseg从x产生软分割掩模m=Gseg(x)。利用掩模m,我们可从掩模m的源图像x提取对象O并将对象O粘贴在By上以产生目标图像的“粗糙”版本z=m⊙x+(1-m)⊙y;然而,z不是最终结果:它缺少抗混叠、颜色或亮度校正以及其他改善。注意,在理想情况下,以自然方式粘贴对象还可能需要对目标背景更复杂的理解;例如,如果我们想要将狗粘贴到草地上,则我们可能应将一些背景草放在狗的前面,隐藏它的爪子,因为在现实中,它的爪子在草后面将不被看到。
为了解决这个问题,我们引入所谓的增强神经网络Genh,其中,增强神经网络的目的是在给定原始图像x和y以及分割掩模m,生成粗糙结果z=m⊙x+(1-m)⊙y=<O,By>的情况下,生成“更平滑”、更自然的图像
Figure BDA0003064747950000103
我们已经用以四种不同方式实现的增强网络进行了实验:
·黑盒增强:Genh(x,y,m)输出最终的改善图像;
·掩模增强:Genh(x,y,m)输出更好地将对象O和新的背景By适配在一起的新的分割掩模m';
·颜色增强:Genh(x,y,m)输出每像素每通道乘法器γ⊙z;权重γ在具有额外的MSE损失的情况下被归一化为接近1;
·混合增强:Genh(x,y,m)输出新掩模m'和乘法器γ两者;
在任何情况下,我们通过Genh(x,y,m)表示在Genh的所有输出已经相应地被应用于z之后的最终的改善图像。
我们用以下损失函数(由图1上的圆角矩形示出)端到端地训练交换网络。
对象重建损失
Figure BDA0003064747950000111
旨在确保一致性和训练稳定性。
Figure BDA0003064747950000112
被实现为源图像x=(O,Bx)与
Figure BDA0003064747950000113
之间的平均绝对差。
Figure BDA0003064747950000114
其中,
Figure BDA0003064747950000115
并且
其中,
Figure BDA0003064747950000116
Figure BDA0003064747950000117
Figure BDA0003064747950000118
是将交换网络应用于x和y两次的结果。
对抗性对象损失
Figure BDA0003064747950000119
旨在增加
Figure BDA00030647479500001110
的合理性。
Figure BDA00030647479500001111
用专用鉴别器网络Dobj来实现。
Figure BDA00030647479500001112
还具有使由分割掩模m=Gseg(x)覆盖的区域最大化的副作用。我们将该损失应用于具有对象的所有图像:真实图像x和“假的”图像
Figure BDA00030647479500001113
Figure BDA00030647479500001114
再次,除了层数之外,鉴别器具有与CycleGAN[30]中相同的架构,其中,我们已经发现更深的鉴别器工作得更好。我们再次使用由LSGAN[16]启发的MSK损失:
Figure BDA00030647479500001115
掩模一致性损失旨在使分割网络相对于背景不变。它被实现为m=Gseg(x)(从x=<O,Bx>提取的掩模)与m=Gseg(y)(从
Figure BDA00030647479500001116
提取的掩模)之间的平均绝对距离:
Figure BDA00030647479500001117
该掩模基本上是与提取该掩模的画面相同尺寸的黑白画面。掩模上的白色像素与图像的选择区域(在这种情况下描绘对象的像素)相应,黑色像素与背景相应。平均绝对距离是平均所有像素的像素值的差的模数。重新提取掩模以确保提取掩模的神经网络精确地响应于对象的形状,而不响应于对象后面的背景(换句话说,同一对象的掩模必须总是相同的)。
最后,除了上面定义的损失函数之外,我们还使用了标识损失,其中,标识损失是CycleGAN[30]中提出的构思。我们介绍了两种不同的标识损失的实例:
·对象增强标识损失
Figure BDA0003064747950000121
使增强网络Genh对真实图像的结果更接近标识:
Figure BDA0003064747950000122
是Genh(x)与x本身之间的平均距离:
Figure BDA0003064747950000123
·背景标识损失
Figure BDA0003064747950000124
尝试确保我们的切割和修复架构不对不包含对象的图像做任何事情:对于图像
Figure BDA0003064747950000125
我们找到分割掩模Gseg(y),从y减去分割掩模Gseg(y)以得到(1-Gseg(y))⊙y,应用修复Ginp,然后使原始y与结果之间的平均距离最小化:
Figure BDA0003064747950000126
整体SEIGAN损失函数是上面定义的所有损失函数的线性组合:
Figure BDA0003064747950000127
以经验为主选择系数。
在实验期间,我们注意到几种有趣的效果。首先,原始图像x=<O,Bx>和
Figure BDA0003064747950000128
在合并之前可能具有不同的比例和宽高比。利用双线性插值将它们重新缩放到相同的形状将在低级纹理中引入显著差异,而对于鉴别器,这将非常容易识别为假,从而阻止GAN收敛。
[18]的作者面临相同的问题,并通过他们用于创建训练样本的特殊程序来解决该问题:他们仅从同一图像获取前景区域和背景区域以确保相同的比例和宽高比,这减少了多样性并使更少的图像适合于训练集。在我们的设置中,通过单独的增强网络来解决这个问题,因此我们在找到合适的训练数据方面具有较少的限制。
另一有趣的效果是当针对MAE或MSE重建损失来优化修复时分割掩模中的低对比度。低对比度掩模(即,具有大约0.5而不是接近0或1的许多值的m)使得关于对象的信息从原始图像“泄漏”并且便于重建。之前其他研究人员已经注意到类似的效果,并且在CycleGAN架构中,甚至已经用于隐写术[4]。我们首先通过简单的阈值处理将软分割掩模转换为硬掩模来解决这个问题。稍后,我们发现针对纹理损失
Figure BDA0003064747950000129
优化图像修复是产生比阈值处理更好的结果的更简洁的方案。
对于分割网络Gseg,我们使用来自CycleGAN[30]的架构,其中,该架构本身是来自[10]的架构的适配。为了更好的性能,我们用双线性上采样替换ConvTranspose层。此外,在网络的最后一层之后,我们使用logistic、sigmoid作为激活函数。
对于增强网络Genh,我们使用U-net架构[20],由于它既能够处理高分辨率的图像,又能够在源图像中发生小的改变。这对于我们的设置是重要的,因为我们不想在增强网络中显著改变图像内容,而是仅以更智能的方式来“平滑”粘贴的图像的边界。
图5,该图描绘了用作“修复网络”和“细化网络”的U-Net神经网络的架构。椭圆表示数据;矩形-神经网络的层。整体架构存在于图的左侧部分中。图的右侧部分包含对左侧部分中使用的块的更详细的描述。箭头表示数据流(即,一个块的输出作为输入被馈送到另一个块)。Conv2d表示卷积层;BatchNorm2d表示批归一化层;ReLU-线性整流单元;ReflectionPad-利用反射填充像素;ConvTranspose2d-解卷积层。
数据准备
我们的实验的主要部分是在创造共用许可下对在Flickr上公开可用的图像进行的。我们使用查询“狗”来收集初始图像。然后,我们使用预训练的更快的R-CNN来检测所有对象(包括狗)和没有任何对象的所有区域。然后,我们构建两个数据集{<O,B1>}(来自具有狗的区域)和{(B2)}(来自没有任何类的对象的区域)。在数据收集之后,我们进行数据滤波程序,以便获得没有任何外来对象的图像区域。
如下执行滤波程序。首先,我们使用更快的R-CNN[19](在MSCOCO(14]上预先训练的)来检测图像上的所有对象。然后,根据以下规则获得输入图像的裁剪:
1、在重新缩放之后,对象的尺寸等于64×64,并且最终裁剪的尺寸等于128×128;
2、对象位于裁剪的中心;
3、不存在与给定裁剪相交的其它对象;
4、裁剪的对象的源尺寸大于整个源图像的(按最小边)的60%并且不大于整个源图像的(按最长边)的40%。
前述示例性实施例是示例,并且将不被解释为限制。此外,示例性实施例的描述旨在是说明性的,而不是限制权利要求的范围,并且许多替换物、修改和变化对于本领域技术人员将是显而易见的。
参考文献
[1]J A.Almahairi.S.Rajeswar,A.Sordoni,R Bachman,andA.Courville.Augmented cyclegan:Learning many-to-many mappings from unpaiieddata.arXiv preprint arXiv.l802.10151.2018.
[2]K.Bousmalis.A.Iipan.P.Wohlhait.Y.Bai.M.Kelcey.M.Kalakrishnan.LDowns.J.I bar/.P.Pastor.K.Konolige.et al.Using simulation and domainadaptation to improve efficiency of deep robotic grasping.In 2018IEEEInternational Conference on Robotics and Automation(ICRA),pages 4243-4250.IEEE,2018.
[3]Y.Choi.M.Choi.M.Kim.J.-W.Ha.S.Kim.and J.Choo.Stargan:Unifiedgenerative adversarial networks for multi-domain image-to-imagetranslation.arXiv preprint.1711,2017.
[4]C.Chu.A.Zhmoginov.and M.Sandler.Cyclegan:a master ofsteganography.arXiv preprint arXiv:1712.02950,2017.
[5]M.Cordts.M.6mran.S.Ramos,T.Rehfeld,M.Enzweiler,R.Benenson.U.Franke.S.Roth,and B.Schiele.The cityscapes dataset for semanticurban scene understanding.In Proc.of the IEEE Conference on Computer Visionand Pattern Recognition(CVPR).2016.
[6]I.Goodfellow,J.Pouget-Abadie.M.Miiza,B.Xu,D.Warde-Farley.S.Ozair.A.Courville.and Y.Bengio.Generative adversarial nets.InAdvances in neural information processing systems,pages 2672-2680,2014.
[7]V.Gupta and S.Raman.Automatic trimap generation for imagematting.In Signal and Information Processing(ICon-SIP).InternationalConference on.pages 1-5.IEEE.2016.
[8]H.Huang.X.Fang.Y.Ye.S.Zhang,and P.L Rosin Prac-tical automaticbackground substitution for live video.Computational Visual Media,3(3):273-284.2017.
[9]X.Ji,J.F.Henriques,and A.Vedaldi.Invariant informationdistillation for unsupervised image segmentation and clustering.arXivpreprint arXiv:1807.06653,2018.
[10]J.Johnson,A.Alahi,and F.Li.Perceptual losses for real-time styletransfer and super-resolution.CoRR,abs/1603.08155,2016.
[11]S.Kazemzadeh,V.Ordonez,M.Matten,and T.Berg.Referitgame:Referringto objects in photographs of natural scenes.In Proceedings of the2014conference on empirical methods in natural language processing{EMNLP),pages 787-798,2014.
[12]A.Khoreva,R.Benenson,J.H.Hosang,M.Hein,and B.Schiele.Simple doesit:Weakly supervised instance and semantic segmentation.In CVPR,volume 1,page3,2017.
[13]R.Krishna,Y.Zhu,O.Groth,J.Johnson,K.Hata,J.Kravitz,S.Chen,Y.Kalantidis,L.-J.Li,D.A.Shamma,M.Bernstein,and L Fei-Fei.Visual genome:Connecting language and vision using crowdsourced dense imageannotations.2016.
[14]T.-Y.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,and C.L.Zitnick.Microsoft coco:Common objects in context.In Europeanconference on computer vision,pages 740-755.Springer,2014.
[15]M.-Y.Liu,T.Breuel,and J.Kautz.Unsupervised image-to imagetranslation networks.In Advances in Neural Information Processing Systems,pages 700-708,2017.
[16]X.Mao,Q.Li,H.Xie,R.Lau,Z.Wang,and S.P.Smolley.Least squaresgenerative adversarial networks,arxiv preprint.arXiv preprint ArXiv:1611.04076,2(5),2016.
[17]B.A.Plummer,L.Wang,С.M.Cervantes,J.СCaicedo,J.Hockenmaier,andS.Lazebnik.Flickr30k entities:Collecting region-to-phrase correspondences forricher image-to-sentence models.In Proceedings of the IEEE internationalconference on computer vision,pages 2641-2649,2015.
[18]T.Remez,J.Huang,and M.Brown.Learning to segment via cut-and-paste.arXiv preprint arXiv:1803.06414,2018.
[19]S.Ren,K.He,R.Girshick,and J.Sun.Faster r-cnn:Towards real-timeobject detection with region proposal networks.In Advances in neuralinformation processing systems,pages 91-99,2015.
[20]O.Ronneberger,P Fischer,and T.Brox.U-net:Convolutional networksfor biomedical image segmentation.CoRR,abs/1505.04597,2015.
[21]С.Rother,V.Kolmogorov,and A.Blake.Grabcut:Interactive foregroundextraction using iterated graph cuts.In ACM transactions on graphics(TOG),volume 23,pages 309-314.ACM,2004.
[22]Т.-C.Wang,M.-Y.Liu,J.-Y.Zhu,A.Tao,J.Kautz,and B.Catanzaro.High-resolution image synthesis and semantic manipulation with conditionalgans.arXiv preprint arXiv:1711.11585,2017.
[23]Z.Wu,R.Chang,J.Ma,C.Lu,and C.-K.Tang.Annotation-free and one-shotlearning for instance segmentation of homogeneous object clusters.arXivpreprint arXiv:1802.00383,2018.
[24]X.Xia and B.Kulis.W-net:A deep model for fully unsupervised imagesegmentation.arXiv preprint arXiv:1711.08506,2017.
[25]W.Xian,P.Sangkloy,J.Lu,СFang,F.Yu,and J.Hays.Texturegan:Controlling deep image synthesis with texture patches.CoRR,abs/1706.02823,2017.
[26]N.Xu,B.L.Price,S.Cohen,and T.S.Huang.Deep image matting.In CVPR,volume 2,page 4,2017.
[27]Z.Yan,X.Li,M.Li,W.Zuo,and S.Shan.Shift-net:Image inpainting viadeep feature rearrangement.arXiv preprint arXiv:1801.09392,2018.
[28]L.Yu,Z.Lin,X.Shen,J.Yang,X.Lu,M.Bansal,and T.L.Berg.Mattnet:Modular attention network for referring expression comprehension.InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018.
[29]Y.Zhang,L.Yuan,Y.Guo,Z.He,I.-A.Huang,and H.Lee.Discriminativebimodal networks for visual localization and detection with natural languagequeries.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2017.
[30]J.Zhu,T.Park,P.Isola,and A.A.Efros.Unpaired image-to-imagetranslation using cycle-consistent adversarial networks.CoRR,abs/1703.10593,2017.
[31]J.-Y.Zhu,R.Zhang,D.Pathak,T.Darnell,A.A.Efros,O.Wang,andE.Shechtman.Toward multimodal image-to-image translation.In Advances inNeural Information Processing Systems,pages 465-176,2017.

Claims (15)

1.一种用于执行自动图像处理的计算系统,包括:
第一神经网络,用于通过经由分割掩模从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;
第二神经网络,用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像
Figure FDA0003064747940000011
的增强版本;
第三神经网络,用于通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像
Figure FDA0003064747940000012
其中,第一神经网络、第二神经网络和第三神经网络被组合成用于顺序执行分割、增强和修复并且用于同时学习的神经网络的通用架构,其中,所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。
2.如权利要求1所述的系统,其中,第一神经网络、第二神经网络和第三神经网络是创建图像
Figure FDA0003064747940000013
和图像
Figure FDA0003064747940000014
并转换图像
Figure FDA0003064747940000015
和图像
Figure FDA0003064747940000016
的生成器。
3.如权利要求2所述的系统,还包括:两个神经网络,被配置为估计图像的合理性的鉴别器。
4.如权利要求3所述的系统,其中,第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器;第二鉴别器是尝试在参考真实对象O图像与增强的对象O图像之间进行区分的对象鉴别器。
5.如权利要求2至4中任一项权利要求所述的系统,其中,第一神经网络和第二神经网络构成交换网络。
6.如权利要求5所述的系统,其中,所述交换网络被配置为利用损失函数进行端到端训练,以构建具有粘贴的分割对象O的图像
Figure FDA0003064747940000017
的增强版本。
7.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数,并且被实现为图像x与图像
Figure FDA0003064747940000018
之间的平均绝对差。
8.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于增加图像
Figure FDA0003064747940000019
的合理性的对抗性对象函数,并且所述一个损失函数是利用专用鉴别器网络来实现的。
9.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于使第一网络相对于背景不变的掩模一致性函数,并且被实现为从图像x提取的掩模与从图像
Figure FDA0003064747940000029
提取的掩模之间的平均绝对距离。
10.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于迫使第二网络产生更接近真实图像的图像的对象增强标识函数,并且是Genh(x)与x本身之间的平均绝对距离。
11.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。
12.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是整体损失函数,其中,所述整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。
13.如权利要求1所述的系统,其中,所述分割掩模由第一网络根据图像x被预测出。
14.一种通过以下步骤进行自动图像处理的方法:
使用第一神经网络,通过经由分割掩模从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;
使用第二神经网络,通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像
Figure FDA0003064747940000021
的增强版本;
使用第三神经网络,通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像
Figure FDA0003064747940000022
输出相同尺寸的图像
Figure FDA0003064747940000023
和图像
Figure FDA0003064747940000024
15.如权利要求14所述的方法,其中,第一神经网络、第二神经网络和第三神经网络是创建图像
Figure FDA0003064747940000025
和图像
Figure FDA0003064747940000026
并转换图像
Figure FDA0003064747940000027
和图像
Figure FDA0003064747940000028
的生成器。
CN201980074975.XA 2018-11-13 2019-11-05 联合无监督对象分割与修复 Pending CN113016005A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
RU2018139928 2018-11-13
RU2018139928 2018-11-13
RU2019104710 2019-02-20
RU2019104710A RU2710659C1 (ru) 2019-02-20 2019-02-20 Совместная неконтролируемая сегментация объектов и подрисовка
PCT/KR2019/014916 WO2020101246A1 (en) 2018-11-13 2019-11-05 Joint unsupervised object segmentation and inpainting

Publications (1)

Publication Number Publication Date
CN113016005A true CN113016005A (zh) 2021-06-22

Family

ID=70731576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980074975.XA Pending CN113016005A (zh) 2018-11-13 2019-11-05 联合无监督对象分割与修复

Country Status (4)

Country Link
US (1) US20210383242A1 (zh)
EP (1) EP3830792A4 (zh)
CN (1) CN113016005A (zh)
WO (1) WO2020101246A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932431A (zh) * 2020-07-07 2020-11-13 华中科技大学 基于水印分解模型的可见水印去除方法和电子设备
CN117557675A (zh) * 2024-01-12 2024-02-13 北京航空航天大学杭州创新研究院 一种深度学习mri图像加速重建方法及系统

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
CN113039556B (zh) 2018-10-11 2022-10-21 特斯拉公司 用于使用增广数据训练机器模型的系统和方法
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11475246B2 (en) * 2019-04-02 2022-10-18 Synthesis Ai, Inc. System and method for generating training data for computer vision systems based on image segmentation
KR102159052B1 (ko) * 2020-05-12 2020-09-23 주식회사 폴라리스쓰리디 영상 분류 방법 및 장치
CN111833238B (zh) * 2020-06-01 2023-07-25 北京百度网讯科技有限公司 图像的翻译方法和装置、图像翻译模型的训练方法和装置
US20220067983A1 (en) * 2020-08-28 2022-03-03 Nvidia Corporation Object image completion
CN116134477A (zh) * 2020-10-14 2023-05-16 谷歌有限责任公司 用于以增加的分辨率修复图像的系统和方法
US11620737B2 (en) 2021-03-22 2023-04-04 Samsung Electronics Co., Ltd. System and method for indoor image inpainting under multimodal structural guidance
CN113034517B (zh) * 2021-03-31 2023-02-14 华南理工大学 基于生成对抗模型的全自动抠图方法及装置、介质和设备
WO2022245013A1 (ko) * 2021-05-18 2022-11-24 삼성전자 주식회사 이미지 인페인팅을 수행하는 전자 장치 및 그 동작 방법
CN113569648A (zh) * 2021-06-29 2021-10-29 深圳市捷顺科技实业股份有限公司 一种车辆挪位记录的方法及装置
CN113657125B (zh) * 2021-07-14 2023-05-26 内蒙古工业大学 一种基于知识图谱的蒙汉非自回归机器翻译方法
US20230044969A1 (en) * 2021-08-06 2023-02-09 Lemon Inc. Video matting
KR102600475B1 (ko) * 2021-08-25 2023-11-08 금오공과대학교 산학협력단 제품 결함 검출 학습을 위한 딥러닝 기반 데이터 증강 방법
WO2023126914A2 (en) * 2021-12-27 2023-07-06 Yeda Research And Development Co. Ltd. METHOD AND SYSTEM FOR SEMANTIC APPEARANCE TRANSFER USING SPLICING ViT FEATURES
CN114549369B (zh) * 2022-04-24 2022-07-12 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机及可读存储介质
US11880961B2 (en) * 2022-05-13 2024-01-23 PicsArt, Inc. Spectral hint-based inpainting of images
US20240005387A1 (en) * 2022-07-01 2024-01-04 Warby Parker Inc. Systems and methods for spectacle removal and virtual try-on
CN116523799B (zh) * 2023-07-03 2023-09-19 贵州大学 基于多粒度图文语义学习的文本引导图像修复模型及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396523B2 (en) * 2013-07-24 2016-07-19 Microsoft Technology Licensing, Llc Image restoration cascade
KR102350235B1 (ko) * 2014-11-25 2022-01-13 삼성전자주식회사 영상 처리 방법 및 장치
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
US9760978B1 (en) * 2016-05-09 2017-09-12 Adobe Systems Incorporated Missing region prediction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932431A (zh) * 2020-07-07 2020-11-13 华中科技大学 基于水印分解模型的可见水印去除方法和电子设备
CN117557675A (zh) * 2024-01-12 2024-02-13 北京航空航天大学杭州创新研究院 一种深度学习mri图像加速重建方法及系统
CN117557675B (zh) * 2024-01-12 2024-04-30 北京航空航天大学杭州创新研究院 一种深度学习mri图像加速重建方法及系统

Also Published As

Publication number Publication date
US20210383242A1 (en) 2021-12-09
EP3830792A1 (en) 2021-06-09
WO2020101246A1 (en) 2020-05-22
EP3830792A4 (en) 2021-12-01

Similar Documents

Publication Publication Date Title
CN113016005A (zh) 联合无监督对象分割与修复
Wu et al. A survey of image synthesis and editing with generative adversarial networks
CN110111236B (zh) 基于渐进式对抗生成网络的多目标草图生成图像的方法
He et al. Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline
Ward et al. Depth director: A system for adding depth to movies
Ostyakov et al. Seigan: Towards compositional image generation by simultaneously learning to segment, enhance, and inpaint
Zhao et al. Selective region-based photo color adjustment for graphic designs
Song et al. Deep novel view synthesis from colored 3d point clouds
Li et al. Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation
CN112734914A (zh) 一种增强现实视觉的图像立体重建方法及装置
Ardino et al. Semantic-guided inpainting network for complex urban scenes manipulation
RU2710659C1 (ru) Совместная неконтролируемая сегментация объектов и подрисовка
Fu et al. Fast accurate and automatic brushstroke extraction
CN113870404B (zh) 一种3d模型的皮肤渲染方法及显示设备
CN113673567B (zh) 基于多角度子区域自适应的全景图情感识别方法及系统
Cao et al. Automatic motion-guided video stylization and personalization
KR20090050910A (ko) 디지털 만화책 제작 방법 및 장치
Liang et al. Image-based rendering for ink painting
Yi et al. Automatic image matting and fusing for portrait synthesis
CN115936796A (zh) 一种虚拟换妆方法、系统、设备和存储介质
Lu et al. Lfi-augmenter: Intelligent light field image editing with interleaved spatial-angular convolution
Johnston et al. Single View 3D Point Cloud Reconstruction using Novel View Synthesis and Self-Supervised Depth Estimation
Dhondse et al. Generative adversarial networks as an advancement in 2D to 3D reconstruction techniques
Luo et al. Frontal face reconstruction based on detail identification, variable scale self-attention and flexible skip connection
Ji et al. An extraction method for roof point cloud of ancient building using deep learning framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination