CN113016005B - 联合无监督对象分割与修复 - Google Patents
联合无监督对象分割与修复 Download PDFInfo
- Publication number
- CN113016005B CN113016005B CN201980074975.XA CN201980074975A CN113016005B CN 113016005 B CN113016005 B CN 113016005B CN 201980074975 A CN201980074975 A CN 201980074975A CN 113016005 B CN113016005 B CN 113016005B
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- background
- neural network
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 230000008439 repair process Effects 0.000 title claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 26
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 14
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 7
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 241000282472 Canis lupus familiaris Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000011049 filling Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 241000282818 Giraffidae Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及与找到对象的边界、从图像去除对象、将对象插入到图像中、从现有图像的组合创建新图像相关联的图像处理功能的实现。提出一种用于自动图像处理的方法和用于执行自动图像处理的计算系统,包括:第一神经网络,用于通过经由分割掩模m从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模m,从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;第二神经网络,用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像(图像I)的增强版本;第三神经网络,用于通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像(图像II);其中,第一神经网络、第二神经网络和第三神经网络被组合成用于顺序地执行分割、增强和修复并且用于同时学习的神经网络的通用架构,其中,所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。
Description
技术领域
本发明涉及与找到对象的边界、从图像去除对象、将对象插入到图像中、从现有图像的组合创建新图像相关联的图像处理功能的实现。
背景技术
无监督和弱监督对象分割。在[18]中,作者提出一种用于从边界框生成对象分割掩模的基于GAN[30]的技术。他们的训练流程包括对同一图像进行两次裁剪:一次有对象,一次没有任何对象。使用更快的R-CNN检测对象[19]。然后,他们训练GAN以产生分割掩模,使得这两次裁剪与该掩模结果合并成合理的图像。作者使用对抗性损失、存在性损失(其中,存在性损失验证对象存在于图像上)和切割损失(其中,切割损失验证在对象被切割之后没有留下对象部分)的组合。他们仅用来自Cityscapes[5]的一些类和来自MSCOCO[14]数据集的所有类进行实验。作者报告,他们的方法实现了比经典的GrabCut[21]算法和最近的Simple-Doe-It[12]更高的平均交并比(intersection-over-union values)值。该方法需要预先训练的更快的R-CNN以及用于前景和背景区域选择的特殊策略。该方法还在正确地分割一些对象类(例如风筝、长颈鹿等)方面遇到困难。他们的方法还仅适用于小分辨率图像(28×28)。
在[23]中,作者提出一种用于学习同类对象的分割网络的无标注框架。他们使用自适应合成数据生成处理来创建训练数据集。
尽管传统上用超像素聚类进行处理,但最近已经用深度学习解决了无监督图像分割[9]。在后一篇论文中,作者提出使通过全卷积网络从同一图像的附近区域获得的两个聚类向量之间的信息最大化。在[24]中已经提出了类似的技术,但受到重建损失的约束。作者描述了尝试将像素在内层进行聚类的W-Net(具有U型网状的编码器和解码器的自动编码器),然后从像素簇重建图像。他们的分割结果不知道对象类别。
视觉训练(Visual grounding)。用于visual grounding的方法旨在对图像的区域和自由形式文本查询的无监督匹配或弱监督匹配。通常,超级视觉采取成对的形式(图像;字幕)。模型性能通常被测量为针对基本事实标签的交并比(intersection-over-union)。最流行的数据集是视觉基因组[13]、Flickr30k[17]、Refer-It-Game[11]和MSCOCO[14]。grounding的一般方法包括预测给定字幕和图像是否彼此相应。通过独立地把字幕和图像置乱来获得负样本。文本图像注意力是大多数visual grounding模型的核心特征[28]。显然,使用更细粒度的监督(例如,区域级标注而不是图像级标注)使得实现更高的分数[29]。
三元图生成。三元图生成是将图像分割成三类的问题:前景、背景和未知(透明前景)。大多数算法需要人为干预来提出三元图,但最近已经提出了基于超像素和聚类的方法用于自动三元图生成[7]。然而,他们的方法需要对每个图像执行多个优化步骤。深度学习用于在给定图像和三元图的情况下产生alpha消光(matting)掩模[26]。还存在关于视频中的视频消光和背景替换的一些工作[8]。他们使用逐帧超像素分割,然后在高斯混合模型的条件随机场中优化能量,以逐帧分离前景和背景。
生成对抗性网络。在最近几年,GAN[6]可能是训练生成模型的最常用方法。尽管强大,但他们倾向于对更高分辨率图像的不稳定训练处理和不一致性能。最近提出的方法CycleGAN[30]一起训练两个GAN以建立两个域之间的双向映射。他们的方法提供了更大的稳定性和一致性。相反,该方法要求数据集对一种可逆操作进行可视化。已经公开了对CycleGAN的大量修改和应用,其中,所述修改和应用包括语义图像操纵[22]、域自适应[2]、无监督图像到图像翻译[15]、多域翻译[3]等。还存在域之间的这种映射可能不明确的问题。BicycleGAN[31]和增强的CycleGAN[1]通过要求映射必须保留隐藏表示来解决该问题。
在该论文中,我们基于Cut&Paste[18]和CycleGAN[6]的构思,并提出一种新颖的架构和流程,其中,该新颖的架构和流程解决了不同的问题(背景交换),并在无监督的对象分割、修复和图像混合方面实现了更好的结果。
发明内容
技术问题
技术方案
本发明提出一种通过同时学习分割对象掩模并从背景去除对象(又称为切割和粘贴)来进行视觉理解的新颖方法。
提出一种用于执行自动图像处理的计算系统,包括:第一神经网络,用于通过经由分割掩模m从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模m,通过从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;第二神经网络,用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像的增强版本;第三神经网络,用于通过对通过使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像其中,第一神经网络、第二神经网络和第三神经网络被组合成用于顺序地执行分割、增强和修复并且用于同时学习的神经网络的通用架构,其中,所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。此外,第一神经网络、第二神经网络和第三神经网络是创建图像和并转换图像和的生成器。所述系统还包括:两个神经网络,被配置为估计图像的合理性的鉴别器。此外,第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器;第二鉴别器是尝试在参考真实对象O图像和增强的对象O图像之间进行区分的对象鉴别器。此外,第一神经网络和第二神经网络构成交换网络。此外,所述交换网络被配置为利用损失函数进行端到端训练,以构建具有粘贴的分割对象O的图像的增强版本。此外,所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数,并且被实现为图像x和通过对图像x应用两次所述交换网络而获得的图像之间的平均绝对差。此外,所述损失函数中的一个损失函数是用于增加图像的合理性的对抗性对象函数,并且所述一个损失函数是利用专用鉴别器网络来实现的。此外,所述损失函数中的一个损失函数是用于使第一神经网络相对于背景不变的掩模一致性函数,并且被实现为从图像x提取的掩模与从图像提取的掩模之间的平均绝对距离。所述损失函数中的一个损失函数是用于迫使第二神经网络产生更接近真实图像的图像的对象增强标识函数,并且是通过对图像x应用第二神经网络获得的图像Genh(x)与x本身之间的平均绝对距离。此外,所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。此外,所述损失函数中的一个损失函数是整体损失函数,其中,整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。此外,由第一神经网络根据图像x来预测所述分割掩模m。
提出一种用于通过以下步骤进行自动图像处理的方法:使用第一神经网络经由分割掩模m从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模m从图像x切除分割对象O并将分割对象O粘贴到仅包含背景的图像y上来形成粗糙图像z:使用第二神经网络通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像的增强版本;使用第三神经网络通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像输出相同尺寸的图像和此外,第一神经网络、第二神经网络和第三神经网络是创建图像和并转换图像和的生成器。所述方法还包括:两个神经网络,被配置为估计图像的合理性的鉴别器。此外,第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器;第二鉴别器是尝试在参考真实对象O图像与增强的对象O图像之间进行区分的对象鉴别器。此外,第一神经网络和第二神经网络构成交换网络。此外,所述交换网络被配置为利用损失函数进行端到端训练,以构建具有粘贴的分割对象O的图像的增强版本。此外,所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数,并且被实现为图像x与通过对图像x应用两次所述交换网络而获得的图像之间的平均绝对差。此外,所述损失函数中的一个损失函数是用于增加图像的合理性的对抗性对象函数,并且所述一个损失函数是利用专用鉴别器网络来实现的。此外,所述损失函数中的一个损失函数是用于使第一神经网络相对于背景不变的掩模一致性函数,并且被实现为从图像x提取的掩模与从图像提取的掩模之间的平均绝对距离。此外,所述损失函数中的一个损失函数是用于增强第二神经网络以产生更接近真实图像的图像的对象增强标识函数,并且是通过对图像x应用第二神经网络获得的图像Genh(x)与x本身之间的平均绝对距离。此外,所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。此外,所述损失函数中的一个损失函数是整体损失函数,其中,整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。此外,由第一神经网络根据图像x来预测所述分割掩模m。
有益效果
附图说明
通过参照附图描述示例性实施例,以上和/或其他方面将更加明显,其中:
图1示出神经网络的架构、数据准备方案及设置其参数。用于联合分割和修复的SEIGAN(分割-增强-修复)流程的高层概述:交换操作被执行两次并被优化以再现原始图像。椭圆表示对象和数据;实心矩形表示神经网络;圆角矩形表示损失函数;实线表示数据流,并且虚线表示损失函数的值流。
图2是从一个图像切割对象并将对象粘贴到另一个图像上的交换网络(来自图1)的架构。
图3是由我们的模型生成的图像和掩模的示例。
图4是用于修复网络和/或分割网络的残差网络的架构。
图5是用于分割网络和细化网络的U-网络的架构。
具体实施方式
所提出的发明可以是有用的硬件,其中,该有用的硬件包括执行自动或自动化图像处理的软件产品和装置,包括:
-图形编辑器;
-用于创建图形内容的创造性应用;
-您想要在图像中找到对象的硬件系统(可穿戴装置、智能电话、机器人);
-增强现实建模(虚拟/增强现实);
-准备用于建立机器学习方法的数据(任何行业)。
下面解释应用材料中使用的符号。
O-在图像中描绘的对象。
Bx-在图像x中描绘的背景。
By-在图像y中描绘的背景。
x=<O,Bx>-包含对象O和背景Bx的图像。
-仅包含背景By的图像(并且前景中没有对象)。
x-所有图像x的集合。
y-所有图像y的集合。
-去除对象O的图像x(使得图像仅包含背景Bx)。
-粘贴对象O的图像y。
和-背景Bx和背景By以及对象O的变换(近似)变体。
m=Mask(x)-图像x的分割掩模。
z=m⊙x+(1-m)⊙y-通过利用混合掩模m对图像x和y进行混合而构建的粗糙图像。
Gseg、Ginp、Genh-用作用于分割、修复和增强的生成器的神经网络。
Dbg、Dobj-用作鉴别器的神经网络(Dbg将具有真实背景的图像与修复的图像进行分类,Dobj将具有真实对象的图像与具有粘贴的对象的图像进行分类)。
Gram(i)-从表示图像像素的特征的3D张量构建的格拉姆矩阵。
VGG(i)-用于计算3D张量的函数,其中,3D张量表示图像像素的特征。
L,-用于调整神经网络参数的优化标准。
λ1,...,λ7-用于平衡不同优化标准的重要性的非负实系数。
与目前的现有模拟相比,所提出的图像处理功能需要较少的人为详细控制。
可用软件实现所提出的方案,其中,该软件又可在具有足够计算能力的任何装置上运行。
在整个文章中,我们将图像表示为对象背景元组,例如,x=<O,Bx>表示图像x包含对象O和背景Bx,并且表示图像y包含背景By并且不包含对象。
我们在这项工作中解决的主要问题可如下表示。给定背景图像的数据集和对象在不同背景上的数据集x=<O,Bx>x∈X(未配对,即,X与Y之间没有映射),对模型进行训练以从图像x∈X获取对象并将对象粘贴到由图像y∈Y定义的新背景上,同时将对象从原始背景删除。换句话说,所述问题是将一对图像x=<O,Bx>和变换成新的一对和其中,和但对象和两个背景被改变,使得新的图像看起来自然。
这个一般问题可被分解成三个子任务:
-分割:通过预测分割m=Mask(x)从原始图像x=<O,Bx>分割对象O;给定掩模,我们可进行简单地从x切除分割对象并将该分割对象粘贴到y上的粗糙混合:z=m⊙x+(1-m)⊙y,其中,⊙表示分量方式乘法。在学习处理中,以这样的方式调整神经网络的参数:当输入具有对象的图像时,该神经网络给出对象被选择的正确掩模。用户不参与该处理。
-增强:给定原始图像x和y、粗糙图像z和分割掩模m,构建的细化版本。
-修复:给定分割掩模m并通过根据m将x的像素置零而获得的图像(1-m)⊙x,恢复仅有背景的图像代替去除的分割对象O,图像的一部分基于图像的其余部分和随机信号用第三神经网络被填充。在训练期间,第三神经网络的参数以这样的方式被配置:基于该不完全信息,产生合理的背景填充。结果是两个图像和然而,焦点在图像上,而具有空白背景的图像是该算法的中间结果,但也可使用具有空白背景的图像。
对于这些任务中的每个任务,我们可构建接受图像或一对图像并输出相同维度的新的图像或一对图像的单独的神经网络。然而,我们在这项工作中探索的主要设想是,在没有大量配对和标记的数据集(这是大多数应用中的正常情况)的情况下,一起训练所有这些神经网络是非常有益的。
因此,我们提出我们的以新颖且先前未探索的方式组合所有三个组成部分的SEIGAN(分割-增强-修复)架构。在图1中,具有虚线轮廓的框表示数据(图像);椭圆表示包含在数据中的对象;具有尖角的框表示实现神经网络的子程序;具有圆角的框表示在训练过程期间控制调整神经网络参数的处理的子程序;线表示训练过程期间的数据流(箭头从一个框指向另一个框的事实意味着第一个框的结果作为输入被传递到第二个框)。我们在图1上概述了我们的架构的一般流程;其中的“交换网络”模块组合了分割和增强。由于剪切和粘贴是部分可逆的操作,因此以类似于CycleGAN[30]的方式组织训练过程是自然的:交换网络和修复网络被应用两次,以便完成循环并且能够将幂等属性用于损失函数。我们用和表示第一应用的结果,并且用和表示将对象从移回的第二应用的结果(参见图1)。
图1中所示的架构组合了五种不同的神经网络,三种用作创建图像并转换图像的生成器,两种用作估计图像的合理性的鉴别器:
·Gseg解决分割任务:给定图像x,预测图像上的对象的分割掩模Mask(x);
·Ginp解决修复问题:给定m和(1-m)⊙x,预测
·Genh执行增强:给定x、y和z=m⊙x+(1-m)y,预测
·Dbg是尝试在真实的仅有背景的图像与假(修复)的仅有背景的图像之间进行区分的背景鉴别器;如果x是真实的,则背景鉴别器的输出Dbg(x)应接近1,并且如果x是假的,则背景鉴别器的输出Dbg(x)应接近0;
·Dobj是对对象与背景图像进行相同的操作的对象鉴别器;如果x是真实的,则对象鉴别器的输出Dobj(x)应接近1,并且如果x是假的,则对象鉴别器的输出Dobj(x)应接近0。
生成器Gseg和Genh构成所谓的“交换网络”,其中,所谓的“交换网络”在图1上被描绘为单个单元并且在图2上被详细解释。该图与描述如何使用“交换网络”所需的其他实体的最小集合一起描绘了“交换网络”的架构(图1中被命名为“交换网络”的框)。具有虚线轮廓的框表示数据(图像);椭圆表示包含在数据中的对象;具有尖角的框表示实现神经网络的子程序;具有圆角的框表示在训练过程期间控制调整神经网络参数的处理的子程序;线表示训练过程期间的数据流(箭头从一个框指向另一个框的事实意味着第一个框的结果作为输入被传递到第二个框)。分割网络是获取图像并输出相同尺寸的分割掩模的神经网络。细化网络获取图像并输出相同尺寸的改善的图像版本(即,具有更真实的颜色、去除了伪影等)。
与[18]相比,SEIGAN中的训练过程已被证明更稳定并且能够以更高的分辨率工作。此外,我们的架构允许同时处理更多的任务(修复和混合),而非仅预测分割掩模。如GAN设计中常见的,架构的秘诀在于不同损失函数的良好组合。在SEIGAN中,我们使用对抗性损失、重建损失和归一化损失的组合。
修复网络Ginp旨在在给定源图像(1-m)⊙x的情况下产生合理的背景其中,源图像(1-m)⊙x表示原始图像x根据通过应用分割网络获得的分割掩模m(m=Gseg(x))减去对象;实际上,我们用白色填充m⊙x的像素。在端到端训练期间根据以下损失函数(由图1上的圆角矩形示出)优化修复网络的参数。
对抗性背景损失旨在改善结果图像的合理性。对抗性背景损失用专用鉴别器网络Dbg来实现。对于Dbg,除了层数之外,我们使用与原始CycleGAN[30]中相同的架构;我们的实验已经表明,更深的鉴别器在我们的设置中工作得更好。由于损失函数Dbg使用最小二乘GAN(LSGAN)[16]中建议的MSE对抗性损失,因此实际上,损失函数Dbg比其他类型的GAN损失函数更稳定:
其中,是原始背景图像,
是在第一次交换之后由x产生的背景图像,并且是在第二次交换之后由产生的背景图像。
背景重建损失旨在保留关于原始背景Bx的信息。背景重建损失使用纹理损失[25]来实现,其中,纹理损失是在VGG-16网络的前5层之后的特征图的格拉姆矩阵之间的平均绝对差:
其中,VGG(y)表示预先训练的图像分类神经网络(例如,VGG,但不限于此)的特征矩阵,并且Gram(A)ij=∑kAikAjk是格拉姆矩阵。
我们对损失函数的选择由以下事实推动:存在大量可能的合理的背景重建,因此损失函数必须考虑平均绝对误差或均方误差不允许但纹理损失允许的特定自由度。在我们的实验中,优化MAE或MSE通常导致生成的图像填充有中值或平均像素值,而不具有对象或纹理。注意,因为我们不具有针对x的地面实况背景,所以仅对y应用背景重建损失(参见图1)。
另一重要的评论是,在将图像馈送到修复网络Ginp之前,我们根据分割掩模m减去图像的一部分,并且我们以可区分的方式执行,而不对m应用任何阈值处理。因此,梯度可通过分割掩模传播回分割网络Gseg。修复和分割的联合训练具有归一化效果。首先,修复网络Ginp想要掩模尽可能准确:如果掩模太小,则Ginp将必须擦除对象的其余部分(其中,这是很大的阶数问题),并且如果掩模太大,则Ginp将有更多的空白区域来修复。其次,即使在没有阈值处理的情况下,Ginp也想要分割掩模m是高对比度的(具有接近0和1的值):如果m的大部分是低对比度的(接近0.5),则Ginp将必须学习去除对象的“伪影”(再次,比仅在空白空间上修复更困难),并且鉴别器Dbg很可能更容易判断结果画面是假的。
图3中示出由所提出的方法消耗和产生的数据的示例。图像的含义,从左到右,自上而下:
1)最上面行中的最左边图像是具有对象的真实输入图像(图1上的“源图像1”的示例);
2)最上面行中的第二图像是不具有对象的真实输入图像(图1上的“源图像2”的示例);
3)给定图像1的由分割网络预测的掩模;
4)具有对象的真实输入图像(图1上的“源图像1”的另一示例);
5)不具有对象的真实输入图像(图1上的“源图像2”的另一示例);
6)底行中的最左边的图像是修复网络的输出(图1中的“生成的图像1”的示例),其中,来自图像1的对象通过图像3上的掩模被去除;
7)细化网络的输出(图1上的“生成的图像2”的示例),其中,来自图像1的对象被粘贴到来自图像2的背景上;
8)给定图像4的由分割网络预测的掩模;
9)修复网络的输出(图1上的“生成的图像1”的另一示例),其中,来自图像4的对象通过图像8上的掩模被去除;
10)细化网络的输出(图1上的“生成的图像2”的另一示例),其中,来自图像4的对象被粘贴到来自图像5的背景上。
对于Ginp,我们使用由顺序连接的两个残差块组成的神经网络(参见图4)。我们还用ShiftNet[27]进行了实验。图4描绘了被用作“修复网络”和“分割网络”的ResNet神经网络的架构。椭圆表示数据;矩形-神经网络的层。整体架构存在于图的左侧部分中。图的右侧部分包含对左侧部分中使用的块的更详细的描述。箭头表示数据流(即,一个块的输出作为输入被馈送到另一个块)。Conv2d表示卷积层;BatchNorm2d表示批归一化层;ReLU-线性整流单元;ReflectionPad-用反射填充像素;ConvTranspose2d-解卷积层。
交换网络旨在根据两个原始图像(具有对象O的x=<O,Bx>、具有不同的背景By的)生成新图像
交换网络由两个主要步骤组成:分割Gseg和增强Genh(参见图2)。
分割网络Gseg从x产生软分割掩模m=Gseg(x)。利用掩模m,我们可从掩模m的源图像x提取对象O并将对象O粘贴在By上以产生目标图像的“粗糙”版本z=m⊙x+(1-m)⊙y;然而,z不是最终结果:它缺少抗混叠、颜色或亮度校正以及其他改善。注意,在理想情况下,以自然方式粘贴对象还可能需要对目标背景更复杂的理解;例如,如果我们想要将狗粘贴到草地上,则我们可能应将一些背景草放在狗的前面,隐藏它的爪子,因为在现实中,它的爪子在草后面将不被看到。
为了解决这个问题,我们引入所谓的增强神经网络Genh,其中,增强神经网络的目的是在给定原始图像x和y以及分割掩模m,生成粗糙结果z=m⊙x+(1-m)⊙y=<O,By>的情况下,生成“更平滑”、更自然的图像我们已经用以四种不同方式实现的增强网络进行了实验:
·黑盒增强:Genh(x,y,m)输出最终的改善图像;
·掩模增强:Genh(x,y,m)输出更好地将对象O和新的背景By适配在一起的新的分割掩模m';
·颜色增强:Genh(x,y,m)输出每像素每通道乘法器γ⊙z;权重γ在具有额外的MSE损失的情况下被归一化为接近1;
·混合增强:Genh(x,y,m)输出新掩模m'和乘法器γ⊙z两者;
在任何情况下,我们通过Genh(x,y,m)表示在Genh的所有输出已经相应地被应用于z之后的最终的改善图像。
我们用以下损失函数(由图1上的圆角矩形示出)端到端地训练交换网络。
对象重建损失旨在确保一致性和训练稳定性。被实现为源图像x=(O,Bx)与之间的平均绝对差。
其中,且即
是将交换网络应用于x和y两次的结果。
对抗性对象损失旨在增加的合理性。用专用鉴别器网络Dobj来实现。还具有使由分割掩模m=Gseg(x)覆盖的区域最大化的副作用。我们将该损失应用于具有对象的所有图像:真实图像x和“假的”图像和再次,除了层数之外,鉴别器具有与CycleGAN[30]中相同的架构,其中,我们已经发现更深的鉴别器工作得更好。我们再次使用由LSGAN[16]启发的MSK损失:
掩模一致性损失旨在使分割网络相对于背景不变。它被实现为m=Gseg(x)(从x=<O,Bx>提取的掩模)与(从提取的掩模)之间的平均绝对距离:
该掩模基本上是与提取该掩模的画面相同尺寸的黑白画面。掩模上的白色像素与图像的选择区域(在这种情况下描绘对象的像素)相应,黑色像素与背景相应。平均绝对距离是平均所有像素的像素值的差的模数。重新提取掩模以确保提取掩模的神经网络精确地响应于对象的形状,而不响应于对象后面的背景(换句话说,同一对象的掩模必须总是相同的)。
最后,除了上面定义的损失函数之外,我们还使用了标识损失,其中,标识损失是CycleGAN[30]中提出的构思。我们介绍了两种不同的标识损失的实例:
·对象增强标识损失使增强网络Genh对真实图像的结果更接近标识:是Genh(x)与x本身之间的平均距离:
·背景标识损失尝试确保我们的切割和修复架构不对不包含对象的图像做任何事情:对于图像我们找到分割掩模Gseg(y),从y减去分割掩模Gseg(y)以得到(1-Gseg(y))⊙y,应用修复Ginp,然后使原始y与结果之间的平均距离最小化:
整体SEIGAN损失函数是上面定义的所有损失函数的线性组合:
以经验为主选择系数。
在实验期间,我们注意到几种有趣的效果。首先,原始图像x=<O,Bx>和在合并之前可能具有不同的比例和宽高比。利用双线性插值将它们重新缩放到相同的形状将在低级纹理中引入显著差异,而对于鉴别器,这将非常容易识别为假,从而阻止GAN收敛。
[18]的作者面临相同的问题,并通过他们用于创建训练样本的特殊程序来解决该问题:他们仅从同一图像获取前景区域和背景区域以确保相同的比例和宽高比,这减少了多样性并使更少的图像适合于训练集。在我们的设置中,通过单独的增强网络来解决这个问题,因此我们在找到合适的训练数据方面具有较少的限制。
另一有趣的效果是当针对MAE或MSE重建损失来优化修复时分割掩模中的低对比度。低对比度掩模(即,具有大约0.5而不是接近0或1的许多值的m)使得关于对象的信息从原始图像“泄漏”并且便于重建。之前其他研究人员已经注意到类似的效果,并且在CycleGAN架构中,甚至已经用于隐写术[4]。我们首先通过简单的阈值处理将软分割掩模转换为硬掩模来解决这个问题。稍后,我们发现针对纹理损失优化图像修复是产生比阈值处理更好的结果的更简洁的方案。
对于分割网络Gseg,我们使用来自CycleGAN[30]的架构,其中,该架构本身是来自[10]的架构的适配。为了更好的性能,我们用双线性上采样替换ConvTranspose层。此外,在网络的最后一层之后,我们使用logistic、sigmoid作为激活函数。
对于增强网络Genh,我们使用U-net架构[20],由于它既能够处理高分辨率的图像,又能够在源图像中发生小的改变。这对于我们的设置是重要的,因为我们不想在增强网络中显著改变图像内容,而是仅以更智能的方式来“平滑”粘贴的图像的边界。
图5,该图描绘了用作“分割网络”和“细化网络”的U-Net神经网络的架构。矩形-神经网络的层。整体架构存在于图的左侧部分中。图的右侧部分包含对左侧部分中使用的块的更详细的描述。箭头表示数据流(即,一个块的输出作为输入被馈送到另一个块)。Conv2d表示卷积层;BatchNorm2d表示批归一化层;ReLU-线性整流单元;ReflectionPad-利用反射填充像素;ConvTranspose2d-解卷积层。
数据准备
我们的实验的主要部分是在创造共用许可下对在Flickr上公开可用的图像进行的。我们使用查询“狗”来收集初始图像。然后,我们使用预训练的更快的R-CNN来检测所有对象(包括狗)和没有任何对象的所有区域。然后,我们构建两个数据集{<O,B1>}(来自具有狗的区域)和{(B2)}(来自没有任何类的对象的区域)。在数据收集之后,我们进行数据滤波程序,以便获得没有任何外来对象的图像区域。
如下执行滤波程序。首先,我们使用更快的R-CNN[19](在MSCOCO[14]上预先训练的)来检测图像上的所有对象。然后,根据以下规则获得输入图像的裁剪:
1、在重新缩放之后,对象的尺寸等于64×64,并且最终裁剪的尺寸等于128×128;
2、对象位于裁剪的中心;
3、不存在与给定裁剪相交的其它对象;
4、裁剪的对象的源尺寸大于整个源图像的(按最小边)的60%并且不大于整个源图像的(按最长边)的40%。
前述示例性实施例是示例,并且将不被解释为限制。此外,示例性实施例的描述旨在是说明性的,而不是限制权利要求的范围,并且许多替换物、修改和变化对于本领域技术人员将是显而易见的。
参考文献
[1]J A.Almahairi.S.Rajeswar,A.Sordoni,R Bachman,andA.Courville.Augmented cyclegan:Learning many-to-many mappings from unpaiieddata.arXiv preprint arXiv.l802.10151.2018.
[2]K.Bousmalis.A.Iipan.P.Wohlhait.Y.Bai.M.Kelcey.M.Kalakrishnan.LDowns.J.I bar/.P.Pastor.K.Konolige.et al.Using simulation and domainadaptation to improve efficiency of deep robotic grasping.In 2018IEEEInternational Conference on Robotics and Automation(ICRA),pages 4243-4250.IEEE,2018.
[3]Y.Choi.M.Choi.M.Kim.J.-W.Ha.S.Kim.and J.Choo.Stargan:Unifiedgenerative adversarial networks for multi-domain image-to-imagetranslation.arXiv preprint.1711,2017.
[4]C.Chu.A.Zhmoginov.and M.Sandler.Cyclegan:a master ofsteganography.arXiv preprint arXiv:1712.02950,2017.
[5]M.Cordts.M.6mran.S.Ramos,T.Rehfeld,M.Enzweiler,R.Benenson.U.Franke.S.Roth,and B.Schiele.The cityscapes dataset for semanticurban scene understanding.In Proc.of the IEEE Conference on Computer Visionand Pattern Recognition(CVPR).2016.
[6]I.Goodfellow,J.Pouget-Abadie.M.Miiza,B.Xu,D.Warde-Farley.S.Ozair.A.Courville.and Y.Bengio.Generative adversarial nets.InAdvances in neural information processing systems,pages 2672-2680,2014.
[7]V.Gupta and S.Raman.Automatic trimap generation for imagematting.In Signal and Information Processing(ICon-SIP).InternationalConference on.pages 1-5.IEEE.2016.
[8]H.Huang.X.Fang.Y.Ye.S.Zhang,and P.L Rosin Prac-tical automaticbackground substitution for live video.Computational Visual Media,3(3):273-284.2017.
[9]X.Ji,J.F.Henriques,and A.Vedaldi.Invariant informationdistillation for unsupervised image segmentation and clustering.arXivpreprint arXiv:1807.06653,2018.
[10]J.Johnson,A.Alahi,and F.Li.Perceptual losses for real-time styletransfer and super-resolution.CoRR,abs/1603.08155,2016.
[11]S.Kazemzadeh,V.Ordonez,M.Matten,and T.Berg.Referitgame:Referringto objects in photographs of natural scenes.In Proceedings of the2014conference on empirical methods in natural language processing{EMNLP),pages 787-798,2014.
[12]A.Khoreva,R.Benenson,J.H.Hosang,M.Hein,and B.Schiele.Simple doesit:Weakly supervised instance and semantic segmentation.In CVPR,volume 1,page3,2017.
[13]R.Krishna,Y.Zhu,O.Groth,J.Johnson,K.Hata,J.Kravitz,S.Chen,Y.Kalantidis,L.-J.Li,D.A.Shamma,M.Bernstein,and L Fei-Fei.Visual genome:Connecting language and vision using crowdsourced dense imageannotations.2016.
[14]T.-Y.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,and C.L.Zitnick.Microsoft coco:Common objects in context.In Europeanconference on computer vision,pages 740-755.Springer,2014.
[15]M.-Y.Liu,T.Breuel,and J.Kautz.Unsupervised image-to imagetranslation networks.In Advances in Neural Information Processing Systems,pages 700-708,2017.
[16]X.Mao,Q.Li,H.Xie,R.Lau,Z.Wang,and S.P.Smolley.Least squaresgenerative adversarial networks,arxiv preprint.arXiv preprint ArXiv:1611.04076,2(5),2016.
[17]B.A.Plummer,L.Wang,С.M.Cervantes,J.СCaicedo,J.Hockenmaier,andS.Lazebnik.Flickr30k entities:Collecting region-to-phrase correspondences forricher image-to-sentence models.In Proceedings of the IEEE internationalconference on computer vision,pages 2641-2649,2015.
[18]T.Remez,J.Huang,and M.Brown.Learning to segment via cut-and-paste.arXiv preprint arXiv:1803.06414,2018.
[19]S.Ren,K.He,R.Girshick,and J.Sun.Faster r-cnn:Towards real-timeobject detection with region proposal networks.In Advances in neuralinformation processing systems,pages 91-99,2015.
[20]O.Ronneberger,P Fischer,and T.Brox.U-net:Convolutional networksfor biomedical image segmentation.CoRR,abs/1505.04597,2015.
[21]С.Rother,V.Kolmogorov,and A.Blake.Grabcut:Interactive foregroundextraction using iterated graph cuts.In ACM transactions on graphics(TOG),volume 23,pages 309-314.ACM,2004.
[22]Т.-C.Wang,M.-Y.Liu,J.-Y.Zhu,A.Tao,J.Kautz,and B.Catanzaro.High-resolution image synthesis and semantic manipulation with conditionalgans.arXiv preprint arXiv:1711.11585,2017.
[23]Z.Wu,R.Chang,J.Ma,C.Lu,and C.-K.Tang.Annotation-free and one-shotlearning for instance segmentation of homogeneous object clusters.arXivpreprint arXiv:1802.00383,2018.
[24]X.Xia and B.Kulis.W-net:A deep model for fully unsupervised imagesegmentation.arXiv preprint arXiv:1711.08506,2017.
[25]W.Xian,P.Sangkloy,J.Lu,СFang,F.Yu,and J.Hays.Texturegan:Controlling deep image synthesis with texture patches.CoRR,abs/1706.02823,2017.
[26]N.Xu,B.L.Price,S.Cohen,and T.S.Huang.Deep image matting.In CVPR,volume 2,page 4,2017.
[27]Z.Yan,X.Li,M.Li,W.Zuo,and S.Shan.Shift-net:Image inpainting viadeep feature rearrangement.arXiv preprint arXiv:1801.09392,2018.
[28]L.Yu,Z.Lin,X.Shen,J.Yang,X.Lu,M.Bansal,and T.L.Berg.Mattnet:Modular attention network for referring expression comprehension.InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018.
[29]Y.Zhang,L.Yuan,Y.Guo,Z.He,I.-A.Huang,and H.Lee.Discriminativebimodal networks for visual localization and detection with natural languagequeries.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2017.
[30]J.Zhu,T.Park,P.Isola,and A.A.Efros.Unpaired image-to-imagetranslation using cycle-consistent adversarial networks.CoRR,abs/1703.10593,2017.
[31]J.-Y.Zhu,R.Zhang,D.Pathak,T.Darnell,A.A.Efros,O.Wang,andE.Shechtman.Toward multimodal image-to-image translation.In Advances inNeural Information Processing Systems,pages 465-176,2017.
Claims (15)
1.一种用于执行自动图像处理的计算系统,包括:
第一神经网络,用于通过经由分割掩模m从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模m从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;
第二神经网络,用于通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像的增强版本;
第三神经网络,用于通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像
其中,第一神经网络、第二神经网络和第三神经网络被组合成用于顺序执行分割、增强和修复并且用于同时学习的神经网络的通用架构,其中,所述神经网络的通用架构接受图像并且输出相同尺寸的处理后的图像。
2.如权利要求1所述的系统,其中,第一神经网络、第二神经网络和第三神经网络是创建图像和图像并转换图像和图像的生成器。
3.如权利要求2所述的系统,还包括:两个神经网络,被配置为估计图像的合理性的鉴别器。
4.如权利要求3所述的系统,其中,第一鉴别器是尝试在参考真实背景图像与修复的背景图像之间进行区分的背景鉴别器;第二鉴别器是尝试在参考真实对象O图像与增强的对象O图像之间进行区分的对象鉴别器。
5.如权利要求2至4中任一项权利要求所述的系统,其中,第一神经网络和第二神经网络构成交换网络。
6.如权利要求5所述的系统,其中,所述交换网络被配置为利用损失函数进行端到端训练,以构建具有粘贴的分割对象O的图像的增强版本。
7.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于确保一致性和训练稳定性的对象重建函数,并且被实现为图像x与通过对图像x应用两次所述交换网络而获得的图像之间的平均绝对差。
8.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于增加图像的合理性的对抗性对象函数,并且所述一个损失函数是利用专用鉴别器网络来实现的。
9.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于使第一神经网络相对于背景不变的掩模一致性函数,并且被实现为从图像x提取的掩模与从图像提取的掩模之间的平均绝对距离。
10.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于迫使第二神经网络产生更接近真实图像的图像的对象增强标识函数,并且是通过对图像x应用第二神经网络获得的图像Genh(x)与x本身之间的平均绝对距离。
11.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是用于确保所述通用架构对不包含对象的图像不做任何处理的背景标识函数。
12.如权利要求6所述的系统,其中,所述损失函数中的一个损失函数是整体损失函数,其中,所述整体损失函数是对象重建函数、对抗性对象函数、掩模一致性函数、对象增强标识函数、背景标识函数的线性组合。
13.如权利要求1所述的系统,其中,所述分割掩模m由第一神经网络根据图像x被预测出。
14.一种通过以下步骤进行自动图像处理的方法:
使用第一神经网络,通过经由分割掩模m从包含对象O和背景Bx的原始图像x对对象O进行分割,并且使用所述掩模m从图像x切除分割对象O并将分割对象O粘贴到仅包含背景By的图像y上来形成粗糙图像z;
使用第二神经网络,通过基于原始图像x和y以及所述掩模m对粗糙图像z进行增强来构建具有粘贴的分割对象O的图像的增强版本;
使用第三神经网络,通过对使用所述掩模m将图像x的像素置零而获得的图像进行修复来恢复不具有去除的分割对象O的仅有背景的图像
输出相同尺寸的图像和图像
15.如权利要求14所述的方法,其中,第一神经网络、第二神经网络和第三神经网络是创建图像和图像并转换图像和图像的生成器。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018139928 | 2018-11-13 | ||
RU2018139928 | 2018-11-13 | ||
RU2019104710A RU2710659C1 (ru) | 2019-02-20 | 2019-02-20 | Совместная неконтролируемая сегментация объектов и подрисовка |
RU2019104710 | 2019-02-20 | ||
PCT/KR2019/014916 WO2020101246A1 (en) | 2018-11-13 | 2019-11-05 | Joint unsupervised object segmentation and inpainting |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113016005A CN113016005A (zh) | 2021-06-22 |
CN113016005B true CN113016005B (zh) | 2024-09-06 |
Family
ID=70731576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980074975.XA Active CN113016005B (zh) | 2018-11-13 | 2019-11-05 | 联合无监督对象分割与修复 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210383242A1 (zh) |
EP (1) | EP3830792A4 (zh) |
CN (1) | CN113016005B (zh) |
WO (1) | WO2020101246A1 (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176000A1 (en) | 2017-03-23 | 2018-09-27 | DeepScale, Inc. | Data synthesis for autonomous control systems |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
US11205093B2 (en) | 2018-10-11 | 2021-12-21 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
US11475246B2 (en) * | 2019-04-02 | 2022-10-18 | Synthesis Ai, Inc. | System and method for generating training data for computer vision systems based on image segmentation |
KR102159052B1 (ko) * | 2020-05-12 | 2020-09-23 | 주식회사 폴라리스쓰리디 | 영상 분류 방법 및 장치 |
CN111833238B (zh) * | 2020-06-01 | 2023-07-25 | 北京百度网讯科技有限公司 | 图像的翻译方法和装置、图像翻译模型的训练方法和装置 |
CN111932431B (zh) * | 2020-07-07 | 2023-07-18 | 华中科技大学 | 基于水印分解模型的可见水印去除方法和电子设备 |
US20220067983A1 (en) * | 2020-08-28 | 2022-03-03 | Nvidia Corporation | Object image completion |
EP4200795A1 (en) * | 2020-10-14 | 2023-06-28 | Google LLC | Systems and methods for inpainting images at increased resolution |
US11620737B2 (en) | 2021-03-22 | 2023-04-04 | Samsung Electronics Co., Ltd. | System and method for indoor image inpainting under multimodal structural guidance |
CN113034517B (zh) * | 2021-03-31 | 2023-02-14 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
WO2022245013A1 (ko) * | 2021-05-18 | 2022-11-24 | 삼성전자 주식회사 | 이미지 인페인팅을 수행하는 전자 장치 및 그 동작 방법 |
CN113569648B (zh) * | 2021-06-29 | 2024-08-02 | 深圳市捷顺科技实业股份有限公司 | 一种车辆挪位记录的方法及装置 |
CN113657125B (zh) * | 2021-07-14 | 2023-05-26 | 内蒙古工业大学 | 一种基于知识图谱的蒙汉非自回归机器翻译方法 |
US20230044969A1 (en) * | 2021-08-06 | 2023-02-09 | Lemon Inc. | Video matting |
KR102600475B1 (ko) * | 2021-08-25 | 2023-11-08 | 금오공과대학교 산학협력단 | 제품 결함 검출 학습을 위한 딥러닝 기반 데이터 증강 방법 |
WO2023126914A2 (en) * | 2021-12-27 | 2023-07-06 | Yeda Research And Development Co. Ltd. | METHOD AND SYSTEM FOR SEMANTIC APPEARANCE TRANSFER USING SPLICING ViT FEATURES |
US20230259587A1 (en) * | 2022-02-14 | 2023-08-17 | Adobe Inc. | Learning parameters for generative inpainting neural networks utilizing object-aware training and masked regularization |
CN114549369B (zh) * | 2022-04-24 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 数据修复方法、装置、计算机及可读存储介质 |
US11880961B2 (en) * | 2022-05-13 | 2024-01-23 | PicsArt, Inc. | Spectral hint-based inpainting of images |
US20240005387A1 (en) * | 2022-07-01 | 2024-01-04 | Warby Parker Inc. | Systems and methods for spectacle removal and virtual try-on |
CN116523799B (zh) * | 2023-07-03 | 2023-09-19 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
CN117557675B (zh) * | 2024-01-12 | 2024-04-30 | 北京航空航天大学杭州创新研究院 | 一种深度学习mri图像加速重建方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160062571A (ko) * | 2014-11-25 | 2016-06-02 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
CN108182657A (zh) * | 2018-01-26 | 2018-06-19 | 深圳市唯特视科技有限公司 | 一种基于循环生成对抗网络的面部图像转换方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9396523B2 (en) * | 2013-07-24 | 2016-07-19 | Microsoft Technology Licensing, Llc | Image restoration cascade |
US9972092B2 (en) * | 2016-03-31 | 2018-05-15 | Adobe Systems Incorporated | Utilizing deep learning for boundary-aware image segmentation |
US9760978B1 (en) * | 2016-05-09 | 2017-09-12 | Adobe Systems Incorporated | Missing region prediction |
-
2019
- 2019-11-05 WO PCT/KR2019/014916 patent/WO2020101246A1/en unknown
- 2019-11-05 EP EP19884513.3A patent/EP3830792A4/en active Pending
- 2019-11-05 US US17/277,118 patent/US20210383242A1/en active Pending
- 2019-11-05 CN CN201980074975.XA patent/CN113016005B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160062571A (ko) * | 2014-11-25 | 2016-06-02 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
CN108182657A (zh) * | 2018-01-26 | 2018-06-19 | 深圳市唯特视科技有限公司 | 一种基于循环生成对抗网络的面部图像转换方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020101246A1 (en) | 2020-05-22 |
EP3830792A4 (en) | 2021-12-01 |
EP3830792A1 (en) | 2021-06-09 |
US20210383242A1 (en) | 2021-12-09 |
CN113016005A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113016005B (zh) | 联合无监督对象分割与修复 | |
Sun et al. | Fenerf: Face editing in neural radiance fields | |
Wu et al. | A survey of image synthesis and editing with generative adversarial networks | |
Song et al. | Geometry-aware face completion and editing | |
CN110111236B (zh) | 基于渐进式对抗生成网络的多目标草图生成图像的方法 | |
US20210241500A1 (en) | Method and system for prov iding photorealistic changes for digital image | |
Ward et al. | Depth director: A system for adding depth to movies | |
Liu et al. | Structure-guided arbitrary style transfer for artistic image and video | |
Ostyakov et al. | Seigan: Towards compositional image generation by simultaneously learning to segment, enhance, and inpaint | |
CN104715451A (zh) | 一种基于颜色及透明度一致优化的图像无缝融合方法 | |
Zhao et al. | Selective region-based photo color adjustment for graphic designs | |
CN113870404B (zh) | 一种3d模型的皮肤渲染方法及显示设备 | |
CN112734914A (zh) | 一种增强现实视觉的图像立体重建方法及装置 | |
WO2024131565A1 (zh) | 服装图像提取方法及其装置、设备、介质、产品 | |
Xu et al. | Convolutional neural network for 3d object recognition using volumetric representation | |
Li et al. | Advances in 3d generation: A survey | |
Parmar et al. | One-step image translation with text-to-image models | |
RU2710659C1 (ru) | Совместная неконтролируемая сегментация объектов и подрисовка | |
Ramanarayanan et al. | Constrained texture synthesis via energy minimization | |
Sormann et al. | Graph cut based multiple view segmentation for 3d reconstruction | |
Hu et al. | Cloth texture preserving image-based 3D virtual try-on | |
Fu et al. | Fast accurate and automatic brushstroke extraction | |
WO2024099026A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
Gu et al. | EgoLifter: Open-world 3D Segmentation for Egocentric Perception | |
Liang et al. | Image-based rendering for ink painting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |