CN117058007A - 利用类特定修复神经网络的数字图像中的对象类修复 - Google Patents
利用类特定修复神经网络的数字图像中的对象类修复 Download PDFInfo
- Publication number
- CN117058007A CN117058007A CN202310157677.5A CN202310157677A CN117058007A CN 117058007 A CN117058007 A CN 117058007A CN 202310157677 A CN202310157677 A CN 202310157677A CN 117058007 A CN117058007 A CN 117058007A
- Authority
- CN
- China
- Prior art keywords
- class
- repair
- modulation
- specific
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 255
- 230000008439 repair process Effects 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 claims abstract description 64
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 55
- 230000011218 segmentation Effects 0.000 claims description 52
- 238000009877 rendering Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 29
- 238000010606 normalization Methods 0.000 description 25
- 238000012549 training Methods 0.000 description 24
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 11
- 230000009471 action Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 230000008485 antagonism Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 235000017274 Diospyros sandwicensis Nutrition 0.000 description 5
- 241000282838 Lama Species 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 235000006506 Brasenia schreberi Nutrition 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013403 standard screening design Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例涉及利用类特定修复神经网络的数字图像中的对象类修复。本公开涉及利用类特定级联调制修复神经网络生成修复数字图像的系统、方法和非暂态计算机可读介质。例如,所公开的系统利用包括级联调制解码器层的类特定级联调制修复神经网络来生成描绘特定目标对象类的替换像素。举例来说,响应于用户选择替换区域和目标对象类,所公开的系统利用与目标对象类相对应的类特定级联调制修复神经网络来生成描绘替换区域内的目标对象类的实例的修复数字图像。此外,在一个或多个实施例中,所公开的系统训练与各种目标对象类(诸如,天空对象类、水对象类、地面对象类或人类对象类)相对应的类特定级联调制修复神经网络。
Description
背景技术
在数字图像编辑领域,计算机实现的模型在从随机采样的种子或不完整的掩蔽数字图像产生逼真图像方面变得越来越有效。事实上,生成性对抗网络(“GAN”)或补丁匹配模型已经彻底改变了数字图像合成过程,实现了复杂场景的真实感绘制,并且用缺失或有缺陷的像素修复数字图像。然而,尽管利用这些模型的常规数字图像系统取得了进步,但常规系统仍然存在很多缺点,特别是在实现计算设备的准确性、效率和灵活性方面。
发明内容
本公开描述了系统、方法和非暂态计算机可读介质的一个或多个实施例,其通过利用类特定修复神经网络修复数字图像以描绘特定对象类来解决本领域中的前述或其他问题中的一个或多个问题。特别地,在一个或多个实现中,所公开的系统利用神经网络设计,该神经网络设计包括从具有孔的输入图像中提取多尺度特征表示的编码器和在每个分辨率等级处具有级联调制层的解码器。例如,在一个或多个实施例中,在解码器的每个级联调制层处,所公开的系统应用全局调制以执行粗略语义感知结构合成,然后利用空间调制以空间自适应方式来调节特征图。所公开的系统通过从训练数字图像中掩蔽特定对象类(诸如,天空区域)来训练一个或多个修复神经网络。因此,级联调制修复神经网络学习用描绘特定对象类的像素来修复数字图像的掩蔽区域。所公开的系统可以在各种用户界面应用中利用这样的类特定修复神经网络,以高效、灵活和准确地重新生成或合成数字图像中的目标对象类。
附图说明
本公开通过参考附图以附加的特异性和细节描述了本公开的一个或多个实施例。以下段落简要描述了这些附图,在附图中:
图1示出了根据一个或多个实施例的类特定图像修复系统在其中操作的示例系统环境;
图2示出了根据一个或多个实施例的利用类特定级联调制修复神经网络来生成修复数字图像的概述;
图3示出了根据一个或多个实施例的级联调制修复神经网络的示例架构;
图4示出了根据一个或多个实施例的级联调制修复神经网络的解码器的级联调制层的示例架构;
图5示出了根据一个或多个实施例的在级联调制修复神经网络中利用位置编码的示例架构;
图6示出了根据一个或多个实施例的训练类特定级联调制修复神经网络的概述;
图7示出了根据一个或多个实施例的训练类特定级联调制修复神经网络的流程图;
图8A至图8C示出了根据一个或多个实施例的用于生成修复数字图像的用户界面;
图9A至图9C示出了根据一个或多个实施例的用于生成修复数字图像的附加用户界面;
图10示出了根据一个或多个实施例的利用被训练以生成针对数字图像的天空区域的类特定级联调制修复神经网络来生成修复数字图像的示例结果;
图11示出了根据一个或多个实施例的实验结果表;
图12示出了根据一个或多个实施例的附加实验结果表;
图13示出了根据一个或多个实施例的类特定图像修复系统的示意图;
图14示出了根据一个或多个实施例的用于利用类特定级联调制修复神经网络生成修复数字图像的一系列动作的流程图;以及
图15示出了根据一个或多个实施例的示例计算设备的框图。
具体实施方式
本公开描述了利用类特定修复神经网络生成修复数字图像的类特定图像修复系统的一个或多个实施例。在一个或多个实施例中,类特定图像修复系统利用级联调制解码器层,该级联调制解码器层将推断分解为多个阶段(例如,全局预测和局部细化)。例如,在每个解码器层中,类特定图像修复系统从捕获全局范围图像结构的全局码调制开始,然后是细化全局预测的空间自适应调制。此外,类特定图像修复系统利用独特的方法训练类特定修复神经网络。具体地,类特定图像修复系统利用全景分割算法生成类特定数字图像,然后利用带注释的类特定区域作为掩模区域来训练类特定修复神经网络。通过使用掩蔽条件下的对抗性损失进行训练,类特定图像修复系统学习类特定修复神经网络的参数,该神经网络能够准确、高效并且灵活地生成描绘特定目标对象类的修复数字图像。
如前所述,在一个或多个实现中,类特定图像修复系统利用级联调制修复神经网络。例如,类特定图像修复系统利用多个卷积神经网络编码器层来处理不同尺度/分辨率的数字图像,以生成编码特征向量。此外,在一个或多个实现中,类特定图像修复系统利用这些编码特征向量来生成表示数字图像的全局特征的图像编码(例如,全局特征码或其他特征向量)。如上所述,在一个或多个实现中,类特定图像修复系统利用包括傅立叶卷积块的编码器层来扩展编码器的接收场。
此外,类特定图像修复系统利用独特的级联调制解码器架构来生成修复数字图像。举例来说,每个级联调制层包括全局调制块和附加调制块(诸如,空间调制块或另一全局调制块)。在一个或多个实施例中,这些调制块实现不同调制操作以生成不同特征图表示。因此,例如,全局调制块将基于全局特征码的调制应用于输入全局特征图,以生成新的全局特征图。类似地,空间调制块可以将空间调制(例如,基于空间张量以及全局特征码)应用于输入局部特征图,以生成新的局部特征图。
在一些实施例中,类特定图像修复系统102利用针对类特定修复神经网络的不同架构。例如,在一个或多个实现中,类特定图像修复系统102利用修复神经网络,该修复神经网络包括编码器层和解码器层,而没有级联调制解码器层。因此,类特定图像修复系统102可以利用各种类特定修复神经网络。
如上所述,类特定图像修复系统还学习针对类特定修复神经网络的参数。例如,类特定图像修复系统利用全景分割模型处理数字图像的存储库,以分割与数字图像中描绘的特定类相对应的对象。类特定图像修复系统过滤那些描绘目标对象类的数字图像,并且利用相应掩模来训练类特定修复神经网络。具体地,类特定图像修复系统利用类特定修复神经网络从类分割数字图像生成修复数字图像。然后,类特定图像修复系统利用鉴别器网络以生成针对修复数字图像的真实性预测。类特定图像修复系统从真实性预测确定对抗性损失,并且利用对抗性损失来修改类特定修复神经网络的参数。
在一个或多个实施例中,类特定图像修复系统在训练和实现类特定修复神经网络时使用位置编码。具体地,类特定图像修复系统确定反映类特定修复神经网络的不同层的特征图的傅立叶特征的位置编码。类特定图像修复系统将这些位置编码注入类特定修复神经网络的输入和网络的每个层(即,编码器层和解码器层)以增强模型的结构预测能力。
一旦经过训练,类特定图像修复系统还利用类特定修复神经网络以生成修复数字图像。具体地,类特定图像修复系统利用各种用户界面和相应工作流程,以利用类特定修复神经网络来生成描绘目标对象类的修复数字图像。例如,类特定图像修复系统为用户界面提供初始数字图像。响应于用户与数字图像的交互(例如,绘制新天空区域或分割选择以替换现有天空区域),类特定图像修复系统利用类特定修复神经网络来在目标对象类的实例中生成替换像素。因此,类特定图像修复系统102可以生成反映输入中完全不存在的目标对象的替换区域(例如,从输入图像中掩蔽)。
如上所述,常规系统有很多不足或缺点,特别是在实现计算设备的准确性、灵活性和效率方面。例如,当处理复杂图像中的大洞时,常规系统通常难以生成合理的图像结构。举例来说,常规系统通常生成带有不真实的内容和视觉伪影的修复数字图像。例如,尽管补丁匹配方法对于生成静态纹理或完成简单形状通常是有效的,但它们不能产生新的纹理或图像结构。类似地,深度学习方法通常难以生成在孔内和孔外与现有数字内容一致的内容。换言之,常规系统难以从不完整的数字图像中推断语义线索,同时在全局范围内传播低级视觉特征。
此外,常规系统还难以生成针对输入中完全缺失的语义区域的替换像素。例如,常规系统通常设计为从已知区域借用像素。因此,这些系统难以准确地完成输入数字图像中缺失(或掩蔽)的语义区域。
这些不准确通常是由于常规系统的不灵活造成的。例如,修复大洞的不准确部分地是由于缺乏灵活的网络结构而无法捕获图像的长期依赖性和高级语义。因此,例如,补丁匹配方法缺乏建模高级语义以完成孔内的新语义结构的机制。类似地,深度学习方法缺乏获取语义信息以完成全局结构的结构化方法。事实上,最近的一种深度学习方法(ShengyuZhao,Jonathan Cui,Yilun Sheng,Yue Dong,Xiao Liang,Eric I Chang,and Yan Xu,inLarge scale image completion via co-modulated generative adversarial networks(通过联合调制生成对抗网络完成大规模图像),arXiv preprint arXiv:2103.10428(2021)(下文中称为“CoModGAN”))利用联合调制机制,该调制机制利用全局码调制对编码图像特征进行解码。然而,这种方法在恢复空间或其他特征细节方面受到限制,并且利用跳过连接将编码器生成的无效上下文特征传递给孔内的解码器。此外,很多新的修复模型不灵活,因为它们与最新的GAN架构不兼容,例如Tero Karras、Samuli Laine、MiikaAittala、Janne Hellsten、Jaakko Lehtinen和Timo Aila在“Analyzing and improvingthe image quality of StyleGAN(分析和改进StyleGAN的图像质量),Proc.CVPR(2020)(下文中称为StyleGan2)”中描述的架构,其通过引用整体并入本文。
此外,常规系统的编码方法也不准确。事实上,一些常规系统利用全卷积模型,该模型在编码器的早期阶段受到有效接收场缓慢增长的影响。因此,利用编码器内的跨卷积可以在孔区域内生成无效特征,这使得解码阶段的特征校正更具挑战性。因此,常规系统在利用卷积编码器架构时通常会生成附加的不准确性。
此外,常规系统通常不灵活,并且无法在生成替换像素时生成特定目标对象类。事实上,常规的生成模型通常不知道在修复数字图像时生成的特定对象。因此,这些模型无法生成与特定上下文所需要的目标对象类一致的替换像素。已经开发了用于在数字图像内插入天空区域的一些常规系统。然而,常规的系统往往无法生成新的、新颖的天空,而只能复制或拷贝现有天空图像。此外,常规系统与非天空区域存在兼容性问题。特别地,常规系统插入的天空区域与数字图像的几何、照明和其他视觉特征相冲突。
此外,常规系统通常效率低下,并且需要大量的计算机资源来实现。事实上,试图改善刚刚讨论的准确性和灵活性的系统往往会进一步加剧这些效率低下的问题。举例来说,提高深度学习方法的准确性通常会导致附加的学习参数和存储器中的附加计算资源以及训练和实现深度学习模型的处理能力。
在一个或多个实施例中,与常规系统相比,类特定图像修复系统提供了多种改进或优点。例如,通过利用级联调制修复神经网络,类特定图像修复系统的一个或多个实施例生成更真实和准确的修复数字图像。如下面更详细地解释的(例如,关于图11),实验结果表明,相对于常规系统,类特定图像修复系统的示例实施例显著提高了准确性。
此外,类特定图像修复系统能够准确地生成输入数字图像中完全不存在(例如,被掩蔽)的语义区域(诸如,天空区域)。事实上,通过利用类特定修复神经网络,类特定图像修复系统102可以完全替换数字图像中的天空区域(或其他语义区域),同时将新区域与数字图像的其余部分的上下文特征精确匹配。
如上所述,在一个或多个实施例中,类特定图像修复系统利用级联调制解码器层。例如,在一些实现中,这些级联调制解码器层包括全局码调制(捕获全局范围图像结构)和空间自适应调制(以空间变化方式细化全局预测)。因此,与常规系统不同,在一个或多个实现中,类特定图像修复系统提供了机制来校正失真的局部细节,以使修复像素与图像的其余部分在全局和局部上保持一致。此外,在一些实施例中,类特定图像修复系统利用调制块(例如,没有实例归一化)以使设计与更新的GAN架构(诸如,StyleGAN2)兼容。
此外,在一个或多个实施例中,类特定图像修复系统还利用独特的编码架构来提高准确性。例如,类特定图像修复系统利用编码器层内的快速傅立叶卷积块,在早期阶段扩展编码器的接收场,以允许网络编码器更好地捕获全局结构。事实上,类特定图像修复系统102利用每个编码器层(在不同分辨率下)处的快速傅立叶卷积块在早期阶段传播特征,这避免了在孔内生成无效特征并且改善了结果。
在一个或多个实施例中,类特定图像修复系统通过利用位置编码进一步提高了准确性。事实上,如上所述,类特定图像修复系统生成位置编码,位置编码反映针对每个特征图的傅立叶特征。类特定图像修复系统利用这些位置编码作为修复神经网络的输入,并且在编码器层和解码器层处增强结构化预测准确性。
此外,类特定图像修复系统提高了为描绘特定目标对象类的一个或多个实例的数字图像生成替换像素的准确性和灵活性。事实上,与生成通用替换像素不同,类特定图像修复系统在生成描绘期望对象类的替换像素方面提供了改进的准确性和灵活性。因此,在一个或多个实现中,客户端设备选择目标对象类,并且类特定图像修复系统利用对应类特定修复神经网络来生成描绘期望对象类的一个或多个实例的替换像素。此外,通过利用类特定修复神经网络,类特定图像修复系统利用数据驱动的生成模型,以生成与周围图像内容一致的各种新颖区域。
此外,类特定图像修复系统在不牺牲效率的情况下提高了准确性和灵活性。实际上,如下文更详细地讨论的(例如,关于图12),在一个或多个实现中,类特定图像修复系统相对于常规系统提高了准确性,而不增加用于生成修复数字图像的参数的数目(在某些情况下,减少了参数的数目)。因此,与常规系统相比,类特定图像修复系统提高了准确性而不牺牲(在某些情况下,提高)计算机存储器和处理能力。
现在将参考附图提供关于类特定图像修复系统的更多细节。例如,图1示出了根据一个或多个实施例的用于实现类特定图像修复系统102的示例系统环境的示意图。关于图1描述了类特定图像修复系统102的概述。此后,将结合后续附图提供类特定图像修复系统102的组件和过程的更详细描述。
如图所示,环境包括(多个)服务器104、客户端设备108、数据库112和网络114。环境的组件中的每个组件都经由网络114通信,并且网络114是计算设备通过其进行通信的任何合适的网络。下面结合图12更详细地讨论示例网络。
如上所述,环境包括客户端设备108。客户端设备108是各种计算设备中的一种计算设备,包括智能电话、平板计算机、智能电视、台式计算机、笔记本计算机、虚拟现实设备、增强现实设备、或关于图12描述的另一计算设备。尽管图1示出了客户端设备108的单个实例,但在一些实施例中,环境包括多个不同客户端设备,每个客户端设备与不同用户(例如,数字图像编辑器)相关联。客户端设备108经由网络114与(多个)服务器104通信,客户端设备108向(多个)服务器104提供指示客户端设备交互(例如,数字图像选择、请求生成或修改数字图像的用户交互、或其他输入)的信息,并且从(多个)服务器104接收信息,诸如生成的修复数字图像。因此,在某些情况下,(多个)服务器104上的类特定图像修复系统102基于经由客户端设备108进行的客户端设备交互来提供和接收信息。
如图1所示,客户端设备108包括客户端应用110。特别地,客户端应用110是web应用、安装在客户端设备108上的本地应用(例如,移动应用、桌面应用等)、或基于云的应用,由(多个)服务器104在该应用中执行功能中的全部或部分功能。基于来自客户端应用110的指令,客户端设备108向用户呈现或显示信息,包括数字图像,诸如修复数字图像、掩蔽数字图像、和/或用于生成和编辑数字图像的可选择选项(例如,指示要移除和/或修复的对象)。在某些情况下,客户端应用110包括类特定图像修复系统102和/或类特定级联调制修复神经网络116a至116n(或其他类特定修复神经网络)的全部或部分。
如图1所示,环境包括(多个)服务器104。(多个)服务器104生成、跟踪、存储、处理、接收和传输电子数据,例如客户端设备交互和/或数字图像像素的指示。例如,(多个)服务器104以客户端设备交互的指示的形式从客户端设备108接收数据,以生成修复数字图像。作为响应,(多个)服务器104向客户端设备108传输数据,以使客户端设备108基于客户端设备交互显示或呈现修复数字图像。
在一些实施例中,(多个)服务器104与客户端设备108通信,以经由网络114传输和/或接收数据,包括客户端设备交互、修复数字图像和/或其他数据。在一些实施例中,(多个)服务器104包括分布式服务器,其中(多个)服务器104包括跨网络114并且位于不同物理位置的多个服务器设备。(多个)服务器104包括内容服务器、应用服务器、通信服务器、web托管服务器、多维服务器或机器学习服务器。(多个)服务器104进一步访问并且利用数据库112来存储和取回信息,例如生成性修复神经网络(例如,类特定级联调制修复神经网络116a至116n)、存储的用于训练的样本数字图像、和/或生成的修复数字图像。
如图1进一步所示,(多个)服务器104还包括作为数字内容编辑系统106的部分的类特定图像修复系统102。例如,在一个或多个实现中,数字内容编辑设备106能够存储、生成、修改、编辑、增强、提供、分发和/或共享数字内容,诸如数字图像。例如,数字内容编辑系统106经由客户端应用110为客户端设备108提供用于生成和修改数字图像的工具。
在一个或多个实施例中,(多个)服务器104包括类特定图像修复系统102的全部或部分。例如,类特定图像修复系统102在(多个)服务器上操作,以训练生成性修复神经网络以生成修复数字图像。在某些情况下,类特定图像修复系统102在(多个)服务器104本地或从另一网络位置(例如,数据库112)利用类特定级联调制修复神经网络,该神经网络包括一个或多个组成神经网络,例如编码器神经网络、生成器神经网络和/或鉴别器神经网络。
在某些情况下,客户端设备108包括类特定图像修复系统102的全部或部分。例如,客户端设备106从(多个)服务器104生成、获取(例如,下载)或利用类特定图像修复系统102的一个或多个方面,例如类特定级联调制修复神经网络116a至116n。实际上,在一些实现中,如图1所示,类特定图像修复系统102整体或部分位于客户端设备108上。例如,类特定图像修复系统104包括允许客户端设备108与(多个)服务器104交互的web托管应用。举例来说,在一个或多个实现中,客户端设备108访问由(多个)服务器104支持和/或托管的网页。
在一个或多个实施例中,客户端设备108和(多个)服务器104一起工作以实现类特定图像修复系统102。例如,在一些实施例中,(多个)服务器104训练本文中讨论的一个或多个神经网络并且将一个或多个神经网络提供给客户端设备108以供实现(例如,在客户端设备108处生成修复数字图像)。在一些实施例中,(多个)服务器104训练一个或多个神经网络,客户端设备108请求修复数字图像,(多个)服务器104利用一个或多个神经网络来生成修复数字图像并且将修复数字图像提供给客户端设备108。此外,在一些实现中,客户端设备108帮助训练一个或多个神经网络。
尽管图1示出了环境的特定布置,但在一些实施例中,环境具有不同组件布置和/或可以具有不同数目或组件集合。例如,如上所述,类特定图像修复系统102由客户端设备108实现(例如,完全或部分位于其上)。此外,在一个或多个实施例中,客户端设备108绕过网络114直接与类特定图像修复系统102通信,类特定级联调制修复神经网络116a至116n存储在数据库112中,由(多个)服务器104、客户端设备108或第三方设备维护。
如前所述,在一个或多个实施例中,类特定图像修复系统102利用类特定级联调制修复神经网络来生成修复数字图像。例如,图2示出了根据一个或多个实施例的类特定图像修复系统102,类特定图像修复系统102利用类特定级联调制修复神经网络116a至116n中的一个或多个神经网络从具有替换区域204的数字图像202生成修复数字图像208。
如图2所示,类特定图像修复系统102标识具有替换区域204的数字图像202。在一个或多个实施例中,类特定图像修复系统102基于客户端设备处的一个或多个用户交互来标识数字图像202。例如,客户端设备可以选择数字图像(例如,从存储在客户端设备或远程服务器处的数字图像存储库中)。此外,类特定图像修复系统102可以接收要替换、修复或填充的数字图像的区域的选择的指示。
例如,替换区域204可以包括数字图像内要用替换像素替换、覆盖或填充的区域、部分、掩模或孔。在一些实施例中,类特定图像修复系统102基于用户对要从数字图像中移动、移除、覆盖或替换的像素的选择来标识替换区域204。举例来说,客户端设备可以选择数字图像的分散注意力或不期望的对象或区域。类特定图像修复系统102可以删除或移除干扰或不期望的对象或区域,并且生成替换像素。在某些情况下,类特定图像修复系统102通过经由分割模型(例如,标识要移动或移除的对象的分割神经网络)生成数字图像掩模来标识替换区域204。
类特定图像修复系统102可以以多种方式标识替换区域204。在一些实施例中,类特定图像修复系统102应用分割算法。举例来说,类特定图像修复系统102应用前景、背景或显著对象分割模型。类似地,在一些实施例中,类特定图像修复系统102应用全景分割算法。在一些实施例中,类特定图像修复系统102应用用户选择分割算法,该算法经由数字图像根据正、负、边界或区域输入来分割数字对象。在一些实现中,类特定图像修复系统102提供用于显示的各种分割对象,并且接收用户对作为替换区域204的分割对象中的一个分割对象的选择。
此外,在一个或多个实现中,类特定图像修复系统102还接收目标对象类的指示。例如,类特定图像修复系统102利用与目标对象类相关联的工具(例如,天空填充工具或水填充工具)接收对替换区域204的选择。因此,在一些实施例中,类特定图像修复系统102经由相同用户交互(例如,用于选择现有天空并且指示希望用新天空替换替换区域的天空替换分割工具)接收替换区域204和对应目标对象类的选择。在一些实施例中,类特定图像修复系统102标识替换区域(例如,利用分割算法),并且接收标识用于替换替换区域的目标对象类的单独用户交互(例如,从多个目标对象可选择元素中选择地面目标对象)。
在一些实现中,类特定图像修复系统102自动确定目标对象类。例如,类特定图像修复系统102可以确定与替换区域中或周围的像素相对应的分类。在一个或多个实施例中,类特定图像修复系统102利用分类来智能地确定目标对象类。因此,例如,类特定图像修复系统102可以确定替换区域204先前描绘天空像素(或周围像素指示天空区域)。作为响应,类特定图像修复系统102可以利用类特定级联调制修复神经网络116a来生成新天空。
如图所示,类特定图像修复系统102利用类特定级联调制修复神经网络116a来生成针对替换区域204的替换像素,类特定级联调制修复神经网络116a生成描绘目标对象类的实例的替换像素(例如,响应于天空目标对象类的指示而描绘新天空)。在一些实施例中,术语神经网络是指基于输入来训练和/或调节以生成预测、确定分类或近似未知函数的机器学习模型。例如,神经网络包括相互连接的人工神经元模型(例如,分层组织),这些神经元进行通信并且学习近似复杂函数,并且基于提供给神经网络的多个输入生成输出(例如,生成的数字图像)。在某些情况下,神经网络是指算法(或算法集),它实现深度学习技术,以对数据中的高级抽象进行建模。例如,神经网络包括卷积神经网络、递归神经网络(例如,LSTM)、图形神经网络、生成性对抗神经网络或其他架构。
与此相关,生成性对抗神经网络(或“GAN”)包括神经网络,该神经网络通过对抗性过程进行调节或训练,以生成输出数字图像(例如,从输入数字图像)。在某些情况下,生成性对抗神经网络包括多个组成神经网络,诸如编码器神经网络和一个或多个解码器/生成器神经网络。例如,编码器神经网络从噪声向量或数字图像中提取潜在码。生成器神经网络(或生成器神经网络的组合)通过组合提取的潜在码(例如,来自编码器神经网络)来生成修改后的数字图像。在训练期间,与生成器神经网络竞争,鉴别器神经网络通过确定生成的数字图像是真实的(例如,来自存储的数字图像集)还是假的(例如,不是来自存储的数字图像集)来分析生成的数字图像以生成真实性预测。鉴别器神经网络还使类特定图像修复系统102修改编码器神经网络和/或一个或多个生成器神经网络的参数,以最终生成数字图像,该数字图像欺骗鉴别器神经网络以使其指示生成的数字图像是真实的数字图像。
沿着这些路线,生成性对抗性神经网络是指具有特定架构或特定目的的神经网络,诸如生成性修复神经网络。例如,生成性修复神经网络包括生成性对抗神经网络,该网络用替换像素修复或填充数字图像的像素。在某些情况下,生成性修复神经网络通过填充孔区域(由数字图像掩模表示)来修复数字图像,这些孔区域包括被确定或以其他方式指定为有缺陷、缺失或不期望的像素。实际上,如上所述,在一些实施例中,数字图像掩模使用分割或掩模来限定替换区域,该分割或掩模指示、叠加、覆盖或勾勒数字图像中要移除或替换的像素。
因此,类特定级联调制修复神经网络116a包括生成性修复神经网络,该网络利用具有一个或多个级联调制解码器层的解码器(例如,被训练以生成与目标对象类相对应的替换像素)。事实上,如图2所示,类特定级联调制修复神经网络116a包括多个级联调制解码器层210至216。例如,级联调制解码层包括至少两个连接(例如,级联)调制块,该调制块用于在生成修复数字图像时调制输入信号。举例来说,级联调制解码器层可以包括第一全局调制块和第二全局调制块。类似地,级联调制解码器层可以包括第一全局调制块(其分析全局特征并且利用全局空间不变方法)和第二空间调制块(其利用空间变化方法分析局部特征)。下面将提供关于调制块的附加细节(例如,关于图3、图4)。
如图所示,在一个或多个实现中,类特定图像修复系统102训练多个类特定级联调制修复神经网络116a至116n。事实上,类特定图像修复系统102训练不同类特定级联调制修复神经网络116a至116n以生成描绘不同目标对象类的修复数字图像。例如,第一类特定级联调制修复神经网络116a对应于天空对象类,第二类特定级联调制修复神经网络114b对应于地面对象类,第三类特定级联调制修复神经网络118n对应于人类对象类。类特定图像修复系统102还可以训练与不同目标对象类(例如,水对象类、冰对象类、山对象类、汽车对象类、建筑/结构对象类、道路对象类、树对象类、狗对象类或猫对象类)相对应的类特定级联调制修复神经网络。
如图所示,类特定图像修复系统102利用类特定级联调制修复神经网络116a(和级联调制解码器层210至216)来生成修复数字图像208。具体地,类特定级联调制修复神经网络116a通过生成针对与目标对象类相对应的替换区域204的替换像素来生成修复数字图像208。如图所示,替换区域204现在被填充有描绘目标对象类(例如,天空)的真实感实例的替换像素,以代替替换区域204。
如上所述,在一个或多个实现中,类特定图像修复系统102利用独特的级联调制修复神经网络,该神经网络包括级联调制解码器层以生成修复数字图像。图3示出了根据一个或多个实施例的级联调制修复神经网络302的示例架构。
如图所示,级联调制修复神经网络302包括编码器304和解码器306。特别地,编码器304包括不同尺度/分辨率的多个卷积层308a至308n。类特定图像修复系统102将数字图像输入310(例如,数字图像的编码)馈送到第一卷积层308a中,以生成较高尺度(例如,较低分辨率)的编码特征向量。第二卷积层308b以较高尺度(较低分辨率)处理编码特征向量,并且生成附加编码特征向量(以又一较高尺度/较低分辨率)。类特定图像修复系统102迭代地生成这些编码特征向量,直到到达最终/最高尺度卷积层308n并且生成数字图像的最终编码特征向量表示。
如图所示,在一个或多个实施例中,类特定图像修复系统102从编码器304的最终编码特征向量生成全局特征码。全局特征码包括从全局(例如,高等级、高尺度、低分辨率)角度对数字图像的特征表示。特别地,全局特征码可以包括以最高尺度/最低分辨率反映编码特征向量(或满足阈值尺度/分辨率的不同编码特征向量)的数字图像的表示。
如图所示,在一个或多个实施例中,类特定图像修复系统102将神经网络层(例如,全连接层)应用于最终编码特征向量,以生成样式码312(例如,样式向量)。此外,类特定图像修复系统102通过将样式码312与随机样式码314组合来生成全局特征码。特别地,类特定图像修复系统102利用神经网络层(例如,多层感知器)处理输入噪声向量来生成随机样式码。神经网络层将输入噪声向量映射到随机样式码314。类特定图像修复系统102将随机样式码324与样式码312组合(例如,连接、添加或相乘)以生成全局特征码316。尽管图3示出了生成全局特征码316的特定方法,但是类特定图像修复系统102可以利用各种不同方法来生成表示编码器304的编码特征向量的全局特征码(例如,没有样式码312和/或随机样式码314)。
如上所述,类特定图像修复系统102可以利用编码器304生成图像编码。图像编码是指数字图像的编码表示。因此,图像编码可以包括一个或多个编码特征向量、样式码和/或全局特征码。
在一个或多个实施例中,类特定图像修复系统102利用多个傅立叶卷积编码器层来生成图像编码(例如,编码特征向量、样式码312和/或全局特征码316)。例如,傅立叶卷积编码器层(或快速傅立叶卷积)包括卷积层,该卷积层包括卷积单元内的非局部接收场和交叉尺度融合。特别地,快速傅立叶卷积可以在单个运算单元中包括三种计算:进行小核卷积的局部分支、处理光谱堆叠图像块的半全局分支、和处理图像级光谱的全局分支。这三个分支互补地处理不同的尺度。此外,快速傅立叶卷积可以包括用于跨尺度融合的多分支聚合过程。例如,在一个或多个实施例中,类特定图像修复系统102利用快速傅立叶卷积层,如LuChi、Borui Jiang和Yadong Mu在“Fast fourier convolution,Advances in NeuralInformation Processing Systems(快速傅里叶卷积,神经信息处理系统的进展),33(2020)”中所述,其通过引用整体并入本文。
具体地,在一个或多个实施例中,类特定图像修复系统102利用针对编码器卷积层308a至308n中的每个卷积层的傅立叶卷积编码器层。因此,类特定图像修复系统102利用具有不同尺度/分辨率的不同傅立叶卷积编码器层来生成具有改进的、非局部接收场的编码特征向量。
编码器304的操作也可以用变量或等式来描述,以演示级联调制修复神经网络302的功能。例如,如上所述,级联调制修复神经网络302是编码器解码器网络,在其解码阶段具有用于图像修复的拟议级联调制块。具体地,级联调制修复神经网络302从编码器E开始,编码器E将部分图像和掩模作为输入,以产生从输入分辨率到分辨率4×4的多尺度特征图:
其中是在尺度1≤i≤L下生成的特征(并且L是最高尺度或分辨率)。编码器由具有剩余连接的一组跨距2卷积实现。
在生成最高尺度特征之后,全连接层和l2归一化产生全局样式码以全局地表示输入。与编码器并行,基于MLP的映射网络从归一化随机高斯噪声z产生随机样式码w,以模拟生成过程的随机性。此外,类特定图像修复系统102将w与s结合以产生用于解码的最终全局码g=[s;w]。如上所述,类特定图像修复系统102可以利用最终全局码作为数字图像的图像编码。
如上所述,在某些实现中,全卷积模型的有效接收场增长缓慢,尤其是在网络的早期阶段。因此,利用编码器内的跨卷积可以在孔区域内生成无效特征,使得解码阶段的特征校正更具挑战性。快速傅立叶卷积(FFC)可以帮助早期层实现覆盖整个图像的接收场。然而,常规系统仅在瓶颈层使用FFC,这在计算上要求很高。此外,浅瓶颈层不能有效地捕获全局语义特征。因此,在一个或多个实现中,类特定图像修复系统102用针对编码器层的FFC替换编码器中的卷积块。FFC使编码器能够在早期阶段传播特征,从而解决在孔内生成无效特征的问题,这有助于改善结果。
如图3进一步所示,级联调制修复神经网络302还包括解码器306。如图所示,解码器306包括多个级联调制层320a至320n。级联调制层320a至320n处理输入特征(例如,输入全局特征图和输入局部特征图)以生成新的特征(例如,新的全局特征图以及新的局部特征图)。特别地,级联调制层320a至320n中的每个级联调制层以不同尺度/分辨率操作。因此,第一级联调制层320a以第一分辨率/尺度获取输入特征,并且以较低尺度/较高分辨率生成新特征(例如,经由作为一个或多个调制操作的部分的上采样)。类似地,附加的级联调制层以较低尺度/较高分辨率操作,直到以输出尺度/分辨率(例如,最低尺度/最高分辨率)生成修复数字图像。
此外,级联调制层中的每个级联调制层包括多个调制块。例如,关于图3,第一级联调制层320a包括全局调制块和空间调制块。具体地,类特定图像修复系统102针对全局调制块的输入特征执行全局调制。此外,类特定图像修复系统102针对空间调制块的输入特征执行空间调制。通过在每个级联调制层内执行全局调制和空间调制两者,类特定图像修复系统102细化全局位置以生成更准确的修复数字图像。
如图所示,级联调制层3320a至320n级联,因为全局调制块被馈送到空间调制块中。具体地,类特定图像修复系统102基于在全局调制块处生成的特征在空间调制块处执行空间调制。举例来说,在一个或多个实施例中,类特定图像修复系统102利用全局调制块以生成中间特征。类特定图像修复系统102然后利用卷积层(例如,2层卷积仿射(affine)参数网络)将中间特征转换为空间张量。然后,类特定图像修复系统102利用空间张量来调制由空间调制块分析的输入特征。
例如,图4提供了根据一个或多个实施例的关于全局调制块和空间调制块的操作的附加细节。具体地,图4示出了全局调制块402和空间调制块403。如图4所示,全局调制块412包括第一全局调制操作404和第二全局调制操作416。此外,空间调制块413包括全局调制操作401和空间调制操作410。
例如,调制块(或调制操作)包括用于根据一个或多个条件来调制(例如,缩放或移位)输入信号的计算机实现的过程。举例来说,调制块包括放大某些特征,同时抵消/归一化这些放大以保留生成模型内的操作。因此,例如,调制块(或调制操作)可以包括调制层、卷积层和归一化层。调制层缩放卷积的每个输入特征,并且归一化从卷积的输出特征图的统计信息中移除缩放的影响。
事实上,由于调制层修改特征统计信息,调制块(或调制操作)通常包括一种或多种方法来处理这些统计变化。例如,调制块(或调制操作)可以包括利用批量归一化或实例归一化来归一化特征的计算机实现的过程。调制通过根据从输入条件中预测的仿射参数缩放和移位归一化激活来实现。类似地,一些调制过程用解调过程代替特征归一化。因此,调制块(或调制操作)可以包括调制层、卷积层和解调层。例如,在一个或多个实施例中,调制块(或调制操作)包括StyleGan2中描述的调制方法。调制块可以包括一个或多个调制操作。
此外,全局调制块(或全局调制操作)是指以空间不变的方式调制输入信号的调制块(或调制操作)。例如,全局调制块(或全局调制操作)根据数字图像的全局特征(例如,不在特征图或图像的坐标上在空间上变化)执行调制。因此,例如,全局调制块包括根据编码器生成的图像编码(例如,全局特征码)调制输入信号的调制块。全局调制块可以包括多个全局调制操作。
空间调制块(或空间调制操作)是指以空间变化方式(例如,根据空间变化的特征图)调制输入信号的调制块(或调制操作)。特别地,空间调制块(或空间调制操作)可以利用空间张量以空间变化方式调制输入信号。因此,在一个或多个实施例中,全局调制块应用全局调制,其中仿射参数在空间坐标上是一致的。空间调制块应用跨空间坐标而变化的空间变化仿射变换。在一些实施例中,空间调制块可以包括与另一调制操作(例如,全局调制操作和空间调制操作)相结合的空间调制操作两者。
例如,空间调制操作可以包括空间自适应调制,如Taesung Park、Ming Yu Liu、Ting Chun Wang和Jun Yan Zhu在“Semantic image synthesis with spatially-adaptive normalization(具有空间自适应归一化的语义图像合成),Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition(2019)”中所述,其通过引用整体并入本文(下文称为Taesung)。在一些实施例中,空间调制操作利用与Taesung不同架构的空间调制操作,包括调制卷积解调管线,如下文更详细描述的。
因此,关于图4,类特定图像修复系统102利用全局调制块402。如图所示,全局调制块412包括第一全局调制操作404和第二全局调制操作416。具体地,第一全局调制操作404处理输入全局特征图412。例如,输入全局特征图412包括由级联调制修复神经网络生成的反映全局特征(例如,高级特征或与整个数字图像相对应的特征)的特征向量。因此,例如,全局特征图412包括反映从级联解码器层的先前全局调制块生成的全局特征的特征向量。全局特征图412还可以包括与由编码器生成的编码特征向量相对应的特征向量(例如,在第一解码器层,类特定图像修复系统102可以利用编码特征向量、样式码、全局特征码、常量、噪声向量或其他特征向量作为输入)。
如图所示,第一全局调制操作404包括调制层404a、上采样层404b、卷积层404c和归一化层404d。具体地,类特定图像修复系统102利用调制层404a基于全局特征码414(例如,全局特征码316)对初始全局特征图412执行全局调制。具体地,类特定图像修复系统102将神经网络层(即,全连接层)应用于全局特征码414以生成全局特征向量416。类特定图像修复系统102随后利用全局特征向量406调制初始全局特征图412。
此外,类特定图像修复系统102应用上采样层404b(例如,修改分辨率尺度)。此外,类特定图像修复系统102应用卷积层404c。此外,类特定图像修复系统102应用归一化层404d以完成第一全局调制操作404。如图所示,第一全局调制操作404生成全局中间特征418。特别地,在一个或多个实施例中,类特定图像修复系统102通过将第一全局调制操作404的输出与编码特征向量420(例如,来自具有匹配尺度/分辨率的编码器的卷积层)组合(例如,连接)来生成全局中间特征418。
如图所示,类特定图像修复系统102还利用第二全局调制操作406。具体地,类特定图像修复系统将第二全局调节操作406应用于全局中间特征418以生成新的全局特征图422。具体地,类特定图像修复系统102将全局调制层406a应用于全局中间特征418(例如,基于全局特征向量416)。此外,类特定图像修复系统102应用卷积层406b和归一化层406c,以生成新的全局特征图422。如图所示,在一些实施例中,类特定图像修复系统102在生成新的全局特征图424时应用空间偏移。
此外,如图4所示,类特定图像修复系统102利用空间调制块403。特别地,空间调制块413包括全局调制操作408和空间调制操作410。全局调制操作418处理输入局部特征图424。例如,输入局部特征图424包括由级联调制修复神经网络生成的反映局部特征(例如,低等级、特定或空间变化特征)的特征向量。因此,例如,局部特征图424包括反映从级联解码器层的先前空间调制块而生成的局部特征的特征向量。全局特征图412还可以包括与编码器生成的编码特征向量相对应的特征向量(例如,在第一解码器层,类特定图像修复系统102可以利用编码特征向量、样式码、噪声向量或其他特征向量)。
如图所示,类特定图像修复系统102利用全局调制操作408从局部特征图424生成局部中间特征426。具体地,类特定图像修复系统104应用调制层408a、上采样层408b、卷积层408c和归一化层408d。此外,在一个或多个实施例中,类特定图像修复系统102将空间偏移和广播噪声应用于全局调制操作408的输出,以生成局部中间特征426。
如图4所示,类特定图像修复系统102利用空间调制操作410生成新的局部特征图428。实际上,空间调制操作420基于全局中间特征418来调制局部中间特征426。具体地,类特定图像修复系统102从全局中间特征418生成空间张量430。例如,类特定图像修复系统102应用卷积仿射参数网络来生成空间张量430。特别地,类特定图像修复系统102应用卷积仿射参数网络来生成中间空间张量。类特定图像修复系统102将中间空间张量与全局特征向量416组合以生成空间张量430。类特定图像修复系统102利用空间张量420来调制局部中间特征426(利用空间调制层410a)并且生成调制张量。
如图所示,类特定图像修复系统102还将卷积层410b应用于调制张量。尤其是,卷积层410b从调制张量生成卷积特征表示。此外,类特定图像修复系统102将归一化层410c应用于卷积特征表示以生成新的局部特征图428。
尽管示出为归一化层410c,但在一个或多个实施例中,类特定图像修复系统102应用解调层。例如,类特定图像修复系统102应用调制卷积解调流水线(例如,一般归一化而非实例归一化)。这种方法可以避免由实例归一化引起的潜在伪影(例如,水滴伪影)。事实上,解调/归一化层包括通过统一解调/归一化值(例如,通过统一标准偏差而不是基于特征图的内容利用数据相关常数归一化的实例归一化)缩放每个输出特征图的层。
如图4所示,在一些实施例中,类特定图像修复系统102还将移位张量432和广播噪声应用于空间调制操作410的输出。例如,空间调制操作420生成归一化/解调特征。类特定图像修复系统102还通过将仿射参数网络应用于全局中间特征418来生成移位张量432。类特定图像修复系统102组合归一化/解调特征、移位张量422和/或广播噪声以生成新的局部特征图428。在一个或多个实施例中,如图所示,类特定图像修复系统102还组合噪声调制以生成新的局部特征图428。
在生成新的全局特征图422和新的局部特征图428之后,类特定图像修复系统102前进到解码器中的下一级联调制层。例如,类特定图像修复系统102利用新的全局特征图422和新的局部特征图428作为不同尺度/分辨率的附加级联调制层的输入特征。类特定图像修复系统102然后利用附加级联调制层来生成附加特征图(例如,利用附加全局调制块和附加空间调制块)。类特定图像修复系统102可以利用级联调制层迭代地处理特征图,直到达到最终尺度/分辨率以生成修复数字图像。
尽管图4示出了全局调制块402和空间调制块403,但在一些实施例中,类特定图像修复系统102利用全局调制块,随后是(例如,级联到)另一全局调制块。例如,类特定图像修复系统102用附加的全局调制块替换空间调制块403。在这样的实施例中,类特定图像修复系统102用跳过连接替换图4所示的APN(和空间张量)和相应空间调制。例如,类特定图像修复系统102利用全局中间特征来对局部中间向量执行全局调制。因此,类特定图像修复系统102可以利用第一全局调制块和第二全局调制块。
如上所述,解码器也可以用变量和等式来描述,以说明级联调制修复神经网络的操作。例如,如上所述,解码器堆叠一系列级联调制块以对输入特征图进行上采样。每个级联调制块将全局码g作为输入,以根据局部图像的全局表示来调制特征。此外,类特定图像修复系统102提供了用于在预测全局结构之后校正局部误差的机制。
具体地,类特定图像修复系统102利用级联调制块来解决全局和局部生成相干特征的挑战。在高等级上,类特定图像修复系统102遵循以下方法:i)分解全局和局部特征以从全局结构中分离局部细节,ii)从全局结构预测局部细节的全局和空间调制的级联。在一个或多个实现中,类特定图像修复系统102利用从全局码生成的空间调制来进行更好的预测(例如,并且丢弃实例归一化以使设计与StyleGAN2兼容)。
更具体地,级联调制将来自先前尺度的全局和局部特征和/>以及全局码g作为输入,并且以下一尺度/分辨率产生新的全局特征/>和本地特征/>为了从/>产生新的全局码/>类特定图像修复系统102利用包括调制卷积解调过程的全局码调制级。这将生成上采样特征X。
由于全局向量g在表示2d视觉细节方面的表达能力有限、以及孔内外的不一致特征,全局调制可以生成与上下文不一致的失真特征(如关于图5更详细地讨论的)。为了进行补偿,类特定图像修复系统102利用生成更精确特征的空间调制。具体地,空间调制将X作为空间码并且将g作为全局码以空间自适应方式调制输入局部特征
此外,类特定图像修复系统102利用独特的空间调制解调机制来避免常规系统中的实例归一化所导致的潜在“水滴”伪影。如图所示,空间调制遵循调制卷积解调流水线。
特别地,对于空间调制,类特定图像修复系统102通过两层卷积仿射参数网络(APN)从特征X生成空间张量A0=APN(Y)。同时,类特定图像修复系统102从具有全连接层(fc)的全局码g生成全局向量α=fc(g)以捕获全局上下文。类特定图像修复系统102生成最终空间张量A=A0+α作为A0和α的广播总和,以用于用逐元素乘积缩放块的中间特征Y:
此外,对于卷积,调制张量与3×3可学习内核K进行卷积,得到:
对于空间感知解调,类特定图像修复系统102应用解调步骤来计算归一化输出具体地,类特定图像修复系统102可以假定输入特征Y是具有单位方差的独立随机变量,并且在调制之后,输出的预期方差不变,即/>因此,这给出了解调计算:
其中是解调系数。类特定图像修复系统102可以用标准张量运算来实现上述等式。
在一个或多个实现中,类特定图像修复系统102还添加空间偏移和广播噪声。例如,类特定图像修复系统102将归一化特征添加到由另一仿射参数网络(APN)从特征X以及广播噪声n产生的移位张量B=APN(X),以产生新的局部特征/>
如上所述,在一些实施例中,类特定图像修复系统102还调制噪声。具体地,类特定图像修复系统102从正态分布中采样噪声并且通过3×3卷积计算噪声调制因子强度/>并且生成调制噪声n′。然后,类特定图像修复系统102根据下式通过添加空间偏差和噪声来确定局部特征:
例如,考虑空间调制操作410的以下示例伪码。具体地,仿射参数网络(APN)被实现为3层卷积网络,该卷积网络将X作为输入以生成缩放参数A和移位参数B。
def APN(X):
#1×1输入层
tl=self.conV1_1x1(X)
#3×3+1×1中间层
t2=self.conV2_3x3(t1)
t2=t2+self.conv2_1x1(t1)
#1×1输出层
A=self.conv_A_1x1(t)
B=self.conv_B_1x1(t)
return A,B
接下来,空间调制将特征图X、Y和全局码g作为输入来调制Y:
import torch.nn.functional as F
def spatial_mod(X,Y,g,W,noise):
bs=X.size(0)#批次大小
#获取空间码
A,B=self.APN(X)
#与全局码合并
A=A+self.fc(g).reshape(bs,-1,1,1)
#空间调制
Y=Y.mul(A)
#conv
Y=F.conv2d(Y,w)
#空间感知归一化
w=w.unsqueeze(0)
A_avg_var=A.square().mean([2,3])
reshape(bs,1,-1,1,1)
D=(w.square().mul(A_avg_var)
.sum(dim=[2,3,4])+1e-8
).rsqrt()
Y=Y.mul(D.reshape(bs,-1,1,1))
#添加偏置和噪声
Y=Y+B+noise
return Y
在一个或多个实施例中,类特定图像修复系统102使用如“DIGITAL IMAGEINPAINTING UTILIZING A CASCADED MODULATION INPAINTING NEURAL NETWORK(利用级联调制修复神经网络进行数字图像修复),App.No.17/661,985,filed on May 4,2022”中所述的神经网络,其通过引用并入本文。
如上所述,在一个或多个实施例中,类特定图像修复系统102还利用位置编码来增强结构预测。例如,图5示出了根据一个或多个实施例生成和利用位置编码。具体地,图5示出了将位置编码502a至502n插入级联调制修复神经网络302的各个层中。
位置编码包括序列中项目的地点或位置的数字表示。特别地,位置编码包括序列中项位置的有限维表示(例如,向量或张量)。因此,模型可以利用位置编码来确定值在序列中的地点或位置。因此,在一个或多个实现中,位置编码与所讨论的序列具有相同的维度。例如,位置编码的尺寸与特征向量或特征图(例如,全局特征图或局部特征图)的分辨率/尺寸匹配。为了解决可变长度和尺度问题,在一个或多个实施例中,类特定图像修复系统102利用位置编码,该位置编码包括有限长度/维度和固定值范围(例如,在一组预定值之间)的矩阵或其他数字表示。
在一个或多个实现中,类特定图像修复系统102利用傅立叶特征作为位置编码。例如,类特定图像修复系统102利用以下傅立叶特征对条目(例如,特征图中的条目)进行位置编码:
PE=[sin(ω0i)、cos(ω0i),...,sin(ω0j)、cos(ω0i),...,]
ω0=1/size
ω1=2/siz
ω2=3/size
ωn=1
其中i是序列中的离散水平位置(例如,在特征图中),j是序列中(例如,特征图中的离散垂直位置),ω是用于对位置进行编码的变化频率(从1/size到1),n是位置编码(和对应特征图)的维度。因此,sin(ω0i)、cos(ω0i)、……、分量反映特征地图的条目的高度尺寸,而sin(ω0j)、sin(ω0j)、……、分量是指特征图的条目的宽度尺寸。如上所述,在一个或多个实现中,位置编码的总维度与对应序列(例如,特征图)的分辨率/维度匹配。因此,级联调制修复神经网络302的每个层可以利用具有与该层的特征向量匹配的维度的位置编码。
在一个或多个实施例中,上述位置编码等式反映了单个条目的位置编码。因此,在一个或多个实现中,类特定图像修复系统102生成位置编码,该位置编码包括特征图的条目(例如,向量)的个体位置编码矩阵。在一个或多个实施例中,类特定图像修复系统102将个体位置编码与特征图的个体条目(例如,特征向量)组合(例如,连接、相加、相乘等)。
例如,位置编码502a至502b包括与网络的每个对应层处的特征向量相对应的每个条目的位置编码。例如,在一个或多个实现中,类特定图像修复系统102利用第一编码器层308a来处理512×512输入特征集。类特定图像修复系统102将输入特征向量与维度与第一编码器层308a相对应的位置编码502a(例如,512×512位置编码)组合。
如图所示,第一编码器层308a生成特征向量,该特征向量然后由第二编码器层308以不同分辨率/维度(例如,256×256)分析该特征向量。类特定图像修复系统102生成维度与第二编码器层308b相对应的位置编码502b。此外,类特定图像修复系统102将位置编码502b与由第一编码器层308a生成的特征向量组合。然后,第二编码器层308b处理该组合的位置特征向量。此外,如图所示,类特定图像修复系统102利用类似的方法来生成和利用具有附加编码器层308c、308n的位置编码502c、502d。
此外,类特定图像修复系统102还生成并且利用级联调制解码器层502e至502n的位置编码。例如,类特定图像修复系统102将位置编码502e至502n与级联调制解码器层502e至502n的每层处的全局特征图和局部特征图相结合。具体地,类特定图像修复系统102生成具有与级联解码器层320a至320n的分辨率/维度相对应的不同维度的位置编码502e至502n。举例来说,在一个或多个实施例中,如果级联解码器层320b具有8×8的分辨率/维度,则类特定图像修复系统102利用8×8位置编码来进行位置编码502e。
在一个或多个实现中,类特定图像修复系统102将来自编码器层的位置编码中的一个或多个位置编码重新用于解码器层。例如,类特定图像修复系统102对第一编码器层308a使用与最后的解码器层320n相同的维度。由于它们具有相同维度,在一个或多个实现中,类特定图像修复系统102对位置编码502a和位置编码502n使用相同位置编码。在其他实施例中,类特定图像修复系统102生成单独的位置编码。
如上所述,在一个或多个实施例中,类特定图像修复系统102还利用独特的方法来训练类特定级联调制修复神经网络。例如,图6示出了根据一个或多个实施例的训练类特定级联调制修复神经网络的类特定图像修复系统102的概述。
具体地,图6示出了类特定图像修复系统102在训练类特定级联调制修复神经网络时执行的一系列动作。实际上,如图所示,类特定图像修复系统102执行接收描绘对象类的数字图像的动作602。例如,在一个或多个实现中,类特定图像修复系统102通过访问训练数字图像的存储库来执行动作602。类特定图像修复系统102可以通过利用分割模型来标识描绘对象类的训练数字图像,诸如标识对象和对应对象分割的全景分割模型。
此外,如图6所示,类特定图像修复系统102还执行生成预测的修复数字图像的动作606。例如,类特定图像修复系统102通过将描绘对象类的数字图像提供给级联调制修复神经网络并且生成修复数字图像来执行动作606。在一些实现中,类特定图像修复系统102利用类分割数字图像,该类分割数字图像从数字图像中阻挡、掩蔽或分割对象类的实例。例如,类特定图像修复系统102利用由全景分割模型确定的掩模来阻挡或移除描绘对象类的实例的像素以生成类分割数字图像。类特定图像修复系统102然后利用级联调制修复神经网络从类分割数字图像生成预测的修复数字图像。
如图所示,类特定图像修复系统102还执行修改级联调制修复神经网络的参数以生成类特定级联调制修复神经网络608的动作606。特别地,类特定图像修复系统102利用预测的修复数字图像(来自动作604)来修改级联调制修复神经网络的参数。例如,如图所示,类特定图像修复系统102通过利用解码器神经网络从修复数字图像确定对抗性损失。举例来说,类特定图像修复系统102通过利用解码器神经网络生成真实性预测,并且从真实性预测确定对抗性损失。然后,类特定图像修复系统102从对抗性损失中学习级联调制修复神经网络的参数。
如图所示,通过以这种方式修改级联调制修复神经网络的参数,类特定图像修复系统102生成类特定级联调制修复神经网络608。事实上,通过利用类分割数字图像来训练类特定级联调制修复神经网络,类特定级联调制修复神经网络学习生成描绘特定对象类的修复数字图像。
类特定图像修复系统102可以生成各种不同类特定级联调制修复神经网络。事实上,如图所示,类特定图像修复系统102可以生成类特定级联调制修复神经网络,该神经网络被训练以生成天空对象类、地面对象类、水对象类和/或人类对象类。类特定图像修复系统102可以响应于对修复数字图像的特定请求而从多个类特定级联调制修复神经网络中选择适当的类特定级联调制修复神经网络。例如,如果客户端设备标识具有天空对象类指示的替换区域,则类特定图像修复系统102可以选择被训练以生成天空区域(例如,从天空特定类分割数字图像)的类特定级联调制修复神经网络。类似地,响应于客户端设备选择具有地面对象类指示的替换区域,类特定图像修复系统102可以选择被训练以生成地面区域(例如,从地面特定类分割数字图像)的类特定级联调制修复神经网络。
例如,图7提供了根据一个或多个实施例的关于训练类特定级联调制修复神经网络的类特定图像修复系统102的附加细节。如图所示,类特定图像修复系统102标识数字图像702,并且利用全景分割模型704来标识描绘对象类706的数字图像和分割掩模708。全景分割模型包括用于为数字图像中的像素分配语义标签的计算机实现的模型。例如,全景分割模型包括机器学习模型,该机器学习模型预测数字图像中每个像素的语义标记,从而将数字图像分割为语义标记区域。在一些实现中,类特定图像修复系统102利用神经网络全景分割模型。例如,在一个或多个实现中,类特定图像修复系统102利用全景分割神经网络,如Y.Li、H.Zhao、X.Qi、L.Wang、Z.Li、J.Sun和J.Jia在“Full Convolutional Networks forPanoptic Segmentation(用于全景分割的全卷积网络),CVPR 2021,arXiv:2012.00720v2”中所述。
举例来说,类特定图像修复系统102利用全景分割模型704来标识描绘具有天空语义标签的像素的所有数字图像。类特定图像修复系统102利用这些天空数字图像作为描绘对象类706的数字图像。此外,类特定图像修复系统102还标识描绘天空区域的那些像素,并且从这些像素生成分割掩模708。因此,类特定图像修复系统102生成分割掩模708以阻挡或覆盖对象类的实例。
通过应用分割掩模708,类特定图像修复系统102生成类分割数字图像。具体地,类特定图像修复系统102从描绘对象类706的数字图像中分割对象实例。例如,类分割数字图像可以包括数字图像和覆盖数字图像中描绘的对象类的一个或多个实例的掩模。
如图7所示,在一个或多个实施例中,类特定图像修复系统102还生成并且应用扩展分割掩模710。例如,在一个或多个示例中,类特定图像修复系统102对分割掩模708应用扩展操作,以生成扩展分割掩模710。例如,扩展操作可以包括用于扩展掩模或掩模像素的计算机实现的模型或过程。举例来说,扩展操作可以将掩模扩展预定数目的像素(例如,三个像素或五个像素)以扩展掩模的大小。
由于分割掩模708可以未覆盖对象类的所有像素,在一些实施例中,类特定图像修复系统102应用扩展操作并且生成扩展分割掩模710,以减少类分割数字图像将包括与对象类相对应的像素的可能性。因此,例如,天空区域的分割可能会留下描绘天空的像素的一小周边。通过应用扩展操作,类特定图像修复系统102可以在生成类分割数字图像时分割/覆盖/阻挡像素的这种周边。
如图所示,类特定图像修复系统102利用级联调制修复神经网络712来处理描绘对象类706和分割掩模708(或扩展分割掩模710)的数字图像。具体地,类特定图像修复系统102生成类分割数字图像(通过将描绘对象类706的数字图像和分割掩模708作为输入提供给级联调制修复神经网络712)。如上所述,级联调制修复神经网络712利用编码器层和级联调制解码器层来生成修复数字图像714。
此外,类特定图像修复系统102利用修复数字图像714来确定对抗性损失720。具体地,类特定图像修复系统102利用鉴别器神经网络716。如上所述,鉴别器神经网络716分析输入数字图像并且生成真实性预测。例如,鉴别器神经网络716可以获取真实数字图像(例如,不是由级联调制修复神经网络712生成的数字图像),并且预测数字图像是真实还是虚假的。在一个或多个实施例中,类特定图像修复系统102将该真实性预测与真实性标签(例如,真实或虚假)进行比较以确定对抗性损失。类特定图像修复系统102利用这种对抗性损失来训练鉴别器神经网络。
类似地,类特定图像修复系统102还可以利用鉴别器神经网络716来分析由级联调制修复神经网络712生成的数字图像。实际上,如图所示,类特定图像修复系统102利用鉴别器神经网络716从修复数字图像714生成真实性预测718。类特定图像修复系统102将真实性预测718与修复数字图像714的真实性标签(例如,虚假标签)进行比较以确定对抗性损失720。
此外,如图所示,类特定图像修复系统102还利用对抗性损失720来修改级联调制修复神经网络712和/或鉴别器神经网络716的参数。例如,类特定图像修复系统102利用梯度下降和反向传播技术来修改级联调制修复神经网络712和鉴别器神经网络716的各层的内部参数权重。以这种方式,鉴别器神经网络716变得更擅长区分真实数字图像和伪数字图像。此外,级联调制修复神经网络712更擅长生成与对象类相对应的修复数字图像。因此,类特定图像修复系统102学习参数,使得级联调制修复神经网络成为类特定级联调制修复神经网络712。
在一个或多个实施例中,类特定图像修复系统102利用掩蔽正则化来学习针对生成性修复神经网络的参数。具体地,类特定图像修复系统102利用修改后的正则化技术,例如专门为修复数字图像而定制的R1正则化。例如,类特定图像修复系统102修改R1正则化项以避免对部分图像计算惩罚并且从而将输入条件与生成的输出更好地分离。在某些情况下,类特定图像修复系统102利用数字图像掩模修改R1正则化以形成掩蔽的R1正则项。通过利用掩蔽正则化,在一个或多个实施例中,类特定图像修复系统102减少或消除计算正则化对数字图像背景的有害影响。在一个或多个实施例中,类特定图像修复系统102利用训练方法,如在2022年2月14日提交的美国专利申请No.17/650967“LEARNING PARAMETERS FORGENERATIVE INPAINTING NEURAL NETWORKS UTILIZING OBJECT-AWARE TRAINING ANDMASKED REGULARIZATION(利用对象感知训练和掩蔽正则化的生成修复神经网络的学习参数)”中描述的,其通过引用整体并入本文。在一个或多个实施例中,类特定图像修复系统102避免使用重构损失(诸如,感知损失)。
尽管图2至图7示出了利用级联调制修复神经网络,类特定图像修复系统102可以利用各种修复神经网络。例如,类特定图像修复系统102可以利用以上关于本公开中引用的各种修复神经网络所述的独特训练方法。实际上,在一些实施例中,类特定图像修复系统102训练并且利用具有编码器和解码器层但不包括级联调制层的类特定修复神经网络。因此,关于类特定级联调制修复神经网络的以上描述也可以用具有无级联调制解码器层的架构的类特定修复神经网络来实现。
此外。图2至图7示出了为特定类(诸如,天空、水、地面等)生成未描绘的数字图像,这些类还可以包括特定类中的对象类型。因此,例如,类特定图像修复系统102可以利用被训练以生成多云天空(第一类)的第一类特定修复神经网络和被训练以生成蓝天(第二类)的第二类特定修复神经网络。因此,类特定图像修复系统102可以利用不同类特定修复神经网络来生成不同类型的类或不同子类(例如,暴风雨、余烬、蓝色、多云)。在一个或多个实施例中,类特定图像修复系统102基于用户输入来确定类的特定类型。例如,类特定图像修复系统102可以接收文本用户输入(例如,“多云天空”)或描绘类的特定类型的数字图像(例如,描绘多云天空的数字图像),然后为描绘该类的类型的修复数字图像生成替换像素。这些类型中的每种类型被包括在本文中使用的首要术语“类”中。
如上所述,在一个或多个实施例中,类特定图像修复系统102还生成用于生成修复数字图像的各种用户界面。例如,图8A示出了通过客户端设备802的用户界面804描绘的数字图像806。响应于通过用户界面806的用户交互,类特定图像修复系统102可以标识数字图像的替换区域。
例如,图8B示出了标识数字图像806的天空区域时的用户界面804。特别地,类特定图像修复系统102接收天空区域808的用户交互(例如,用户选择),诸如点击、按下或其他选择事件。在一个或多个实施例中,类特定图像修复系统102利用分割模型来标识天空区域808。例如,类特定图像修复系统102利用标识显著对象、基于用户选择来分割对象和/或分割数字图像中的所有对象的分割模型。例如,类特定图像修复系统102利用Ning Xu等人在2017年7月14日出版的Deep GrabCut For Object Selection(用于对象选择的深度GrabCut)中描述的模型,该模型通过引用整体并入本文。备选地,类特定图像修复系统102利用以下文献中描述的模型中的一种或多种模型:2017年10月31日提交的题为“DeepSalient Content Neural Networks for Efficient Digital Object Segmentation(用于高效数字对象分割的深度显着内容神经网络)”的美国专利申请公开号2019/0130229;2018年7月13日提交的题为“Automatic Trimap Generation and Image Segmentation(自动三元图生成和图像分割)”的美国专利申请号16/035,410;或2015年11月18日提交的题为“Utilizing Interactive Deep Learning to Select Objects in Digital VisualMedia(利用交互式深度学习选择数字视觉媒体中的对象)”的美国专利号10,192,129,这些申请中的每个申请通过引用整体并入本文。
以这种方式,类特定图像修复系统102标识替换区域。在一个或多个实施例中,类特定图像修复系统102还标识与替换区域相对应的目标对象类。例如,类特定图像修复系统102可以接收(经由用户界面804)要包括在替换区域的替换像素中的特定目标对象类(例如,天空、地面、水)的用户选择。在一些实施例中,类特定图像修复系统102基于目标对象类来选择元素(例如,通过用户界面804的按钮或单选按钮)的选择来标识目标对象类。在一些实施例中,类特定图像修复系统102基于所选择的工具标识目标对象类。例如,类特定图像修复系统102可以接收对“天空替换工具”的用户选择。在天空替换工具的选择时,类特定图像修复系统102可以接收对天空区域808的选择,并且(因为用户已经标识了天空替换工具)类特定图像修复系统102可以将目标对象类标识为天空对象类。
在一些实现中,类特定图像修复系统102通过分析数字图像和/或替换区域来确定目标对象类。例如,类特定图像修复系统102可以利用全景分割模型来分析数字图像并且确定替换区域的像素对应于特定语义类别。类特定图像修复系统102可以利用该语义类别作为目标对象类。因此,在标识出替换区域描绘天空时,类特定图像修复系统102可以选择天空目标对象类。类似地,在标识出替换区域描绘人类时,类特定图像修复系统102可以选择人类目标对象类。
在标识天空区域808和目标对象类之后,类特定图像修复系统102利用类特定修复神经网络来生成描绘对象类的新实例的修复数字图像。具体地,类特定图像修复系统102选择与目标对象类相对应的类特定修复神经网络。因此,在确定天空目标对象类时,类特定图像修复系统102选择被训练以生成天空区域的类特定修复神经网络。类似地,在确定地面对象类(例如,草、沙对象类)时,类特定图像修复系统102选择被训练以生成地面区域的类特定修复神经网络。
类特定图像修复系统102还利用类特定修复神经网络来生成修复数字图像。具体地,类特定图像修复系统102生成掩蔽的数字图像,并且将掩蔽的数字图像提供给类特定修复神经网络。举例来说,类特定图像修复系统102生成覆盖天空区域808的掩模,并且将掩模应用于数字图像806以覆盖或阻挡天空区域806。在一个或多个实施例中,类特定图像修复系统102还应用扩展操作以生成扩展掩模。实际上,如上所述(关于图7),类特定图像修复系统102可以对掩模应用扩展操作以生成扩展掩模。类特定图像修复系统102然后可以利用扩展的掩模来生成掩蔽的数字图像,以供类特定修复神经网络使用。事实上,类特定图像修复系统102利用类特定修复神经网络来生成描绘目标对象的新实例的修复数字图像。
例如,图8C示出了用户界面804,用户界面804描绘具有替换天空区域808的替换像素810的修复数字图像812。如图所示,类特定图像修复系统102利用类特定修复神经网络来生成描绘天空实例的替换像素。通过利用类特定修复神经网络,类特定图像修复系统102生成与数字图像806中的剩余场景混合的新颖的合成天空区域。此外,类特定图像修复系统104为客户端设备提供用于控制替换像素810的内容的灵活性。
尽管图8A至图8C示出了用新的天空区域替换天空区域,但类特定图像修复系统102还可以生成用户界面,以用于在替换区域中添加目标对象类的实例,该实例先前未描绘目标对象类。例如,类特定图像修复系统102可以在先前没有天空的数字图像的区域中生成天空区域。类似地,类特定图像修复系统102可以在数字图像的先前未描绘水的区域中生成水区域。
例如,图9A示出了经由客户端设备902的用户界面904显示的数字图像906。数字图像904描绘了具有天空和山脉的自然场景,但未描绘任何水。类特定图像修复系统102可以生成修复数字图像,该修复数字图像描绘新颖的生成的像素,该像素描绘水。例如,如图9B所示,类特定图像修复系统102接收替换区域908的用户交互(例如,绘画或绘图)。类特定图像修复系统102还标识水目标对象类。具体地,类特定图像修复系统102基于水替换工具的选择(或不同水类选择元素的选择)来标识水目标对象类。
如图9C所示,类特定图像修复系统102利用类特定修复神经网络来生成描绘目标对象类(例如,湖泊)的实例的替换像素912。具体地,即使数字图像906没有描绘水,类特定修复神经网络也会生成与数字图像周围环境融合的湖泊。因此,类特定图像修复系统102可以接收用户输入(例如,刷洗或区域输入),并且生成描绘目标对象类的一个或多个新颖实例的修复数字图像910的替换像素。
如上所述,研究人员对类特定图像修复系统102进行了实验,以分析利用类特定级联调制修复神经网络的示例实现的结果。例如,图10示出了由类特定图像修复系统102的示例实现生成的示例修复数字图像。具体地,类特定图像修复系统102从原始数字图像1002b、1004b生成修复数字图像1002c、1004c。具体地,类特定图像修复系统102从原始数字图像1002b、1004b生成掩蔽数字图像1002a、1004a,并且利用示例类特定级联调制修复神经网络从掩蔽数字图像1002a、1004a生成修复数字图像1002c、1004c。如图所示,修复数字图像1002c、1004c描绘了目标对象类的新的、合成的实例,其与原始数字图像1002b、1004b的上下文无缝融合。
研究人员还进行了附加的客观实验,以将类特定图像修复系统102与常规系统进行比较。例如,研究人员在Places2数据集上进行了分辨率为512×512的图像修复实验。使用Adam优化器训练类特定图像修复系统102(“CM-GAN”)的实验实施例。学习速率和批次大小分别设置为0.001和32。CM-GAN将调节大小的图像作为输入,以便模型可以预测图像的全局结构。研究人员应用翻转增强来增加训练样本。
对于数值评估,研究人员计算PSNR、SSIM、Frchet起始距离(FID)和感知图像块相似距离(LPIPS)。研究人员还采用了配对/未配对初始标识得分(P-IDS/U-IDS)[56]进行评估。如图所示,研究人员比较CoModGAN、Lama和ProFill以及各种其他系统的结果,包括通过以下各项描述的那些:
Roman Suvorov,Elizaveta Logacheva,Anton Mashikhin,AnastasiaRemizova,Arsenii Ashukha,Aleksei Silvestrov,Naejin Kong,Harshith Goka,Kiwoong Park,andVictor Lempitsky,inResolution-robust large mask inpainting with fourierconvolutions(在使用傅里叶卷积进行分辨率稳健的大掩模修复中),arXiv preprintarXiv:2109.07161(2021)(hereinafter“LaMa”);
Yu Zeng,Zhe Lin,Jimei Yang,Jianming Zhang,Eli Shechtman,and HuchuanLu in High-resolution image inpainting with iterative confidence feedback andguided upsampling(具有迭代置信度反馈和引导上采样的高分辨率图像修复),arXivpreprint arXiv:2005.11742(2020)(hereinafter“ProFill”);
Yu Zeng,Zhe Lin,Huchuan Lu,and Vishal M.Patel in Cr-fill:Generativeimage inpainting with auxiliary contextual reconstruction(具有辅助上下文重建的生成图像修复),Proceedings of the IEEE International Conference on ComputerVision(2021)(hereinafter“CRFill”);
Jiahui Yu,Zhe Lin,Jimei Yang,Xiaohui Shen,Xin Lu,and Thomas S Huangin Free-form image inpainting with gated convolution(使用门控卷积的自由形式图像修复),Proceedings of the IEEE International Conference on Computer Vision,pages 4471–4480(2019)(hereinafter“DeepFill v2”);
Jialun Peng,Dong Liu,Songcen Xu,and Houqiang Li in Generating diversestructure for image inpainting with hierarchical vq-vae(使用分层vq-vae生成用于图像修复的多样化结构),Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR),pages 10775–10784(2021)(hereinafter“DiverseStructure”);
Kamyar Nazeri,Eric Ng,Tony Joseph,Faisal Z Qureshi,and MehranEbrahimi in Edgeconnect:Generative image inpainting with adversarial edgelearning(具有对抗性边缘学习的生成图像修复).arXiv preprint arXiv:1901.00212(2019)(hereinafter“EdgeConnect”);
Ziyu Wan,Jingbo Zhang,Dongdong Chen,and Jing Liao in High-fidelitypluralistic image completion with transformers(使用变换器完成高保真多元图像),arXiv preprint arXiv:2103.14031
(2021)(hereinafter“ICT”);
Zili Yi,Qiang Tang,Shekoofeh Azizi,Daesik Jang,and Zhan Xu,inContextual residual aggregation for ultra high-resolution imageinpainting(用于超高分辨率图像修复的上下文残差聚合),Proceedings of the IEEE/CVFConference on Computer Vision andPattern Recognition,pages 7508–7517(2020)(hereinafter
“HiFill”);
Yurui Ren,Xiaoming Yu,Ruonan Zhang,Thomas H.Li,Shan Liu,and Ge Li,inStructureflow:Image inpainting via structure-awareappearance flow(结构流:通过结构感知外观流进行图像修复),IEEE International Conference on Computer Vision(ICCV)(2019)
(hereinafter“StructureFlow”);以及
Yibing Song Wei Huang Hongyu Liu,Bin Jiang and Chao Yang inRethinkingimage inpainting via a mutual encoderdecoder withfeature equalizations(通过具有特征均衡的互编码器解码器重新思考图像修复),Proceedings of the EuropeanConference onComputer Vision(2020)(hereinafter“MEDFE”)。
图11给出了相对于这些其他系统的结果。结果表明,类特定图像修复系统102(CM-GAN)的实验实施例在FID、U-IDS和P-IDS方面显著优于所有其他方法。与LaMa相比,CM-GAN将FID从3.864降低了50%以上并且降至1.749,并且在LPIPS方面类似,这可以通过LaMa的典型模糊结果与CM-GAN的更清晰结果进行解释。
此外,图12示出了各种模型的推理复杂性。如图所示,类特定图像修复系统102的实验实施例具有与CoModGAN和LaMa相似数目(有时更少)的参数。
现在来看图13,将提供关于类特定图像修复系统102的组件和功能的附加细节。具体地,图13示出了示例计算设备1300(例如,客户端设备108和/或(多个)服务器104中的一个或多个)上的类特定图像修复系统102的示例示意图。如图13所示,类特定图像修复系统102包括不完整数字图像管理器1302、编码器管理器1304、级联调制解码器管理器1306、修复数字图像管理1308、用户界面管理器1310、训练引擎1312和存储管理器1314。
如上所述,类特定图像修复系统102包括不完整数字图像管理器1302。特别地,不完整数字图像管理器1302获取、标识、接收、生成和/或利用不完整数字图像。例如,如上所述,不完整数字图像管理器1302可以接收包括具有表示替换区域的孔或掩模的数字图像的不完整数字图像。此外,不完整数字图像管理器1302还可以接收用于填充替换区域的目标对象类的指示。
如进一步所述,类特定图像修复系统102包括编码器管理器1304。特别地,编码器管理器1304管理、训练、维护、执行、实现、应用或利用级联调制修复神经网络的编码器。例如,编码器管理器1304利用上述技术生成与不完整数字图像相对应的编码特征向量(例如,全局特征码)。
如图所示,类特定图像修复系统102还包括级联调制解码器管理器1306。特别地,级联调制解码器器1306训练、管理、维护、执行、实现或应用级联调制修复神经网络的级联调制解码器。例如,级联调制解码器管理器1306应用多个级联调制层(如上所述)以生成用于确定替换区域的替换像素的全局特征图和局部特征图。编码器管理器1304和/或级联调制解码器管理器1306还可以选择与特定目标对象类相对应的类特定级联调制修复神经网络(例如,从与不同目标对象类相对应的多个类特定级联调制修复神经网络中)。
类特定图像修复系统102还包括修复数字图像管理器1308。例如,修复数字图像管理器1308可以标识、生成、提供和/或显示修复数字图像。举例来说,修复数字图像管理器1308可以标识替换像素(由级联调制解码器管理器1306生成的)以生成修复数字图像。
类特定图像修复系统102还包括用户界面管理器1310。用户界面管理程序1310可以管理、生成、监测和/或提供用户界面。例如,用户界面管理器可以从一个或多个用户界面接收用户输入(例如,指示对数字图像、替换区域和/或目标对象类的用户选择)。类似地,用户界面管理器1310可以提供用户界面元素以经由客户端设备的显示设备进行显示。例如,用户界面管理器1310可以通过图形用户界面和目标对象类选择元素提供修复数字图像以供显示。
类特定图像修复系统102还包括训练引擎1312。训练引擎1313可以教导、学习和/或训练机器学习模型,诸如类特定级联调制修复神经网络。例如,如上所述,训练引擎1312可以基于从类分割训练数字图像生成的预测修复数字图像(例如,利用对抗性损失)来修改类特定级联调制修复神经网络的参数。
类特定图像修复系统102还包括存储管理器1314。存储管理器1314与一个或多个存储器设备(诸如,数据库112)相结合操作或包括其,该存储器设备存储各种数据,诸如数字图像1314a(例如,不完整数字图像或修复数字图像)和/或(多个)级联调制生成神经网络1314b(例如,如上以上针对不同对象类而训练的不同类特定级联调制修复神经网络而描述的编码器和解码器的各种参数/层)。例如,存储管理器1314可以包括:存储器设备,该存储器设备包括描绘对象类的数字图像;以及鉴别器神经网络和级联调制修复神经网络,该级联调制修复神经网络包括编码器和解码器,其中解码器包括多个级联调制层。
在一个或多个实施例中,类特定图像修复系统102的组件中的每个组件使用任何合适的通信技术彼此通信。此外,类特定图像修复系统102的组件与包括上述一个或多个客户端设备在内的一个或多个其他设备通信。将认识到,尽管类特定图像修复系统102的组件在图13中被示出为是分开的,但任何子组件可以组合成更少组件,例如,单个组件,或者划分成更多组件,以用于特定实现。此外,尽管结合类特定图像修复系统102描述了图13的组件,但用于与本文中描述的类特定图像修复系统102相结合执行操作的至少一些组件可以在环境中的其他设备上实现。
类特定图像修复系统102的组件包括软件、硬件或这两者。例如,类特定图像修复系统102的组件包括存储在计算机可读存储介质上并且可以由一个或多个计算设备(例如,计算设备1300)的处理器执行的一个或多个指令。在由一个或多个处理器执行时,类特定图像修复系统102的计算机可执行指令使计算设备1300执行本文中描述的方法。备选地,类特定图像修复系统102的组件包括硬件,例如用于执行特定功能或功能组的专用处理设备。附加地或备选地,类特定图像修复系统102的组件包括计算机可执行指令和硬件的组合。
此外,例如,执行本文所述功能的类特定图像修复系统102的组件可以实现为独立应用的部分、应用的模块、包括内容管理应用的应用的插件、可以由其他应用调用的库函数或函数、和/或云计算模型。因此,类特定图像修复系统102的组件可以实现为个人计算设备或移动设备上的独立应用的部分。备选地或附加地,类特定图像修复系统102的组件可以在允许创建和向用户交付内容的任何应用中实现,包括但不限于EXPERIENCEMANAGER和CREATIVE/>中的应用,例如和/>“ADOBE”、“ADOBEEXPERIENCE MANAGER”、“CREATIVE CLOUD”、“PHOTOSHOP”、“LIGHTROOM”和“INDESIGN”是ADOBE股份有限公司在美国和/或其他国家/地区的注册商标或商标。
图1至图13的对应文本和示例提供了很多不同的系统、方法和非暂态计算机可读介质,其用于通过对象感知训练和/或掩蔽正则化来训练生成性修复神经网络,以实现准确的数字图像修复。除上述内容外,还可以根据包括用于实现特定结果的动作的流程图来描述实施例。例如,图14示出了根据一个或多个实施例的示例序列或一系列动作的流程图。
虽然图14示出了根据特定实施例的动作,但备选实施例可以省略、添加、重新排序和/或修改图14所示的任何动作。图14的动作可以作为方法的部分来执行。备选地,非暂态计算机可读介质可以包括指令,该指令在由一个或多个处理器执行时使计算设备执行图14的动作。在另外的实施例中,系统可以执行图14的动作。此外,本文所述的动作可以相互并行或与相同或其他类似动作的不同实例并行地重复或执行。
图14示出了用于利用类特定(级联调制)修复神经网络生成修复数字图像的一系列示例动作1400。特别地,一系列动作1400包括接收数字图像的替换区域和目标对象类的指示的动作1402。例如,在一个或多个实施例中,动作1402包括通过客户端设备的用户界面接收数字图像的替换区域和目标对象类的指示。
举例来说,在一个或多个实施例中,接收替换区域和目标对象类的指示包括:提供数字图像以经由用户界面进行显示;以及利用与目标对象类相对应的选择工具经由用户界面来接收与替换区域相对应的用户选择。此外,在一个或多个实施例中,动作1402包括利用分割模型和用户选择确定替换区域。
此外,一系列动作1400包括利用类特定(级联调制)修复神经网络来生成替换像素的动作1404。例如,在一个或多个实施例中,动作1404包括利用与目标对象类相对应的类特定(级联调制)修复神经网络生成针对替换区域的替换像素。
在一个或多个实现中,动作1404包括生成与替换区域相对应的掩模;以及利用类特定(级联调制)修复神经网络从掩模和数字图像生成替换像素。此外,在一些实现中,动作1404包括利用与天空对象类、水对象类、地面对象类或人类对象类中的至少一项相对应的类特定(级联调制)修复神经网络来生成替换像素。
例如,在一个或多个实施例中,利用类特定(级联调制)修复神经网络生成替换像素包括利用类特定(级联调制)修复神经网络的编码器层来生成图像编码。此外,利用类特定(级联调制)修复神经网络的编码器层来生成图像编码包括:生成与编码器层的不同分辨率相对应的位置编码;以及利用编码器层和位置编码来生成多个编码特征向量。
此外,在一个或多个实现中,生成替换像素包括利用类特定级联调制修复神经网络的级联调制解码器层从图像编码器生成替换像素。
此外,一系列动作1400包括提供包括:替换像素的修复数字图像使得修复数字图像描绘目标对象类的实例的动作1406。例如,在一个或多个实施例中,动作1406包括提供包括替换像素的修复数字图像以经由客户端设备进行显示,使得修复数字图像描绘替换区域内的目标对象类的实例。
在一个或多个实现中,一系列动作1400包括:经由客户端设备的用户界面接收替换数字图像的天空替换区域的指示;利用被训练以生成针对数字图像的天空区域的类特定(级联调制)修复神经网络来生成针对天空替换区域的多个天空替换像素;以及提供包括天空替换区域内的多个天空替换像素的修复数字图像以经由客户端设备进行显示。
例如,在一个或多个实现中,一系列动作1400包括利用分割模型从数字图像确定天空替换区域。此外,在一个或多个实施例中,一系列动作1400包括基于替换天空替换区域的指示从多个特定类(级联调制)修复神经网络中选择被训练以生成天空区域的特定类(级联调制)修复神经网络。
此外,在一些实现中,一系列动作1400包括利用类特定级联调制修复神经网络的级联调制解码器层从图像编码生成天空替换像素。此外,在一个或多个实现中,生成天空替换像素包括生成与级联调制解码器层的不同分辨率相对应的位置编码。
此外,在一个或多个实现中,一系列动作1400包括利用类特定级联调制修复神经网络的级联调制解码器层、图像编码和位置编码生成天空替换像素。
在一些实现中,一系列动作1400包括不同动作集合(即,不同于图14所示的动作集合)。例如,在一些实现中,一系列动作1400包括:通过从数字图像中分割对象类的实例来生成类分割数字图像;利用(级联调制)修复神经网络从类分割数字图像生成针对对象类的多个预测修复数字图像;以及利用鉴别器神经网络和对抗性损失修改(级联调制)修复神经网络的参数以生成类特定(级联调制)修复神经网络。
例如,在一些实施例中,从多个图像中分割对象类的实例包括:从数字图像中确定与对象类相对应的分割掩模;利用扩展操作从分割掩模生成扩展分割掩模;以及利用扩展分割掩模从数字图像中分割对象类的实例。
类似地,在一些实现中,生成针对对象类的多个预测的修复数字图像包括利用类特定(级联调制)修复神经网络的编码器的傅立叶卷积编码器层生成图像编码。
此外,在一个或多个实施例中,生成针对对象类的多个预测修复数字图像包括利用类特定级联调制修复神经网络的级联调制层从图像编码生成多个预测修复数字图像,其中给定级联调制层包括全局调制块和空间调制块。
此外,在一些实现中,修改(级联调制)修复神经网络的参数以生成类特定(级联调制)修复神经网络包括:利用鉴别器神经网络从预测修复数字图像生成真实性预测;以及基于真实性预测确定对抗性损失。
在一个或多个实施例中,生成类分割数字图像包括从数字图像中分割天空对象类、水对象类、地面对象类或人类对象类中的一项的实例。
本公开的实施例可以包括或利用包括计算机硬件的专用或通用计算机,诸如一个或多个处理器和系统存储器,如下面更详细讨论的。本公开范围内的实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。特别地,本文中描述的一个或多个过程可以至少部分实现为包含在非暂态计算机可读介质中并且由一个或多个计算设备(例如,本文中描述的任何媒体内容访问设备)可执行的指令。通常,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行这些指令,从而执行一个或多个过程,包括本文中描述的过程中的一个或多个。
计算机可读介质可以是可以由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。承载计算机可执行指令的计算机可读介质是传输介质。因此,作为示例而非限制,本公开的实施例可以包括至少两种截然不同的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如,基于RAM)、闪存、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备、或者可以用于以计算机可执行指令或数据结构形式存储期望程序代码并且可以通过通用或专用计算机访问的任何其他介质。
“网络”被限定为能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或其他通信连接(有线、无线或有线或无线的组合)传输或提供给计算机时,计算机会将连接正确地视为传输介质。传输介质可以包括可以用于以计算机可执行指令或数据结构的形式携带期望程序代码装置并且可以由通用或专用计算机访问的网络和/或数据链路。上述各项的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件时,计算机可执行指令或数据结构形式的程序代码装置可以从传输介质自动传输到非暂态计算机可读存储介质(设备)(反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可以缓存在网络接口模块(例如,“NIC”)内的RAM中,然后最终传输到计算机系统RAM和/或计算机系统处的不易失性计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可以被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如当在处理器处执行时使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。在一些实施例中,计算机可执行指令在通用计算机上执行以将通用计算机变成实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制、中间格式指令(例如,汇编语言)或甚至源代码。尽管已经以特定于结构特征和/或方法行为的语言描述了主题,但是应当理解,在所附权利要求中限定的主题不必然限于上述描述的特征或动作。相反,所描述的特征和动作被公开作为实现权利要求的示例形式。
本领域技术人员将理解,本公开可以在具有多种类型的计算机系统配置的网络计算环境中实施,包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板计算机、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或通过硬连线和无线数据链路的组合)的本地和远程计算机系统都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备两者中。
本公开的实施例也可以在云计算环境中实现。在本说明书中,“云计算”被限定为用于实现对可配置计算资源共享池的按需网络访问的模型。例如,可以在市场中使用云计算来提供对可配置计算资源共享池的无处不在并且方便的按需访问。可配置计算资源共享池可以经由虚拟化来快速配置,并且以较低管理工作量或服务提供方交互进行释放,然后进行相应扩展。
云计算模型可以由各种特征组成,例如按需自助服务、广泛的网络访问、资源池、快速弹性、测量服务等。云计算模型还可以公开各种服务模型,例如软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。云计算模型也可以使用不同部署模型进行部署,诸如私有云、社区云、公共云、混合云等。在本说明书和权利要求书中,“云计算环境”是其中采用云计算的环境。
图15以框图形式示出了示例计算设备1500(例如,计算设备1000、客户端设备108和/或(多个)服务器104),计算设备1500可以被配置为执行上述过程中的一个或多个过程。应当理解,类特定图像修复系统102可以包括计算设备1500的实现。如图15所示,计算设备可以包括处理器1502、存储器1504、存储设备1506、I/O接口1508和通信接口1510。此外,计算设备1500可以包括输入设备,诸如触摸屏、鼠标、在某些实施例中,计算设备1500可以包括比图15所示的组件更少或更多的组件。现在将更加详细地描述图15所示的计算设备1500的组件。
在特定实施例中,(多个)处理器1502包括用于执行指令的硬件,诸如构成计算机程序的那些指令。作为示例而非限制,为了执行指令,(多个)处理器1502可以从内部寄存器、内部高速缓存、存储器1504或存储设备1506检索(或获取)指令,并且解码和执行指令。
计算设备1500包括耦合到(多个)处理器1502的存储器1504。存储器1504可以用于存储由(多个)处理器执行的数据、元数据和程序。存储器1504可以包括易失性和非易失性存储器中的一种或一种存储器,诸如随机存取存储器(“RAM”)、只读存储器(“ROM”)、固态盘(“SSD”)、闪存、相变存储器(“PCM”)或其他类型的数据存储装置。存储器1504可以是内部或分布式存储器。
计算设备1500包括存储设备1506,存储设备1506包括用于存储数据或指令的存储器。作为示例而非限制,存储设备1506可以包括上述的非暂态存储介质。存储设备1506可以包括硬盘驱动器(HDD)、闪存、通用串行总线(USB)驱动器、或这些或其他存储设备的组合。
计算设备1500还包括一个或多个输入或输出(“I/O”)设备/接口1508,I/O设备/接口1508被提供以允许用户向计算设备1500提供输入(诸如,用户笔划)、从计算设备1500接收输出、以及以其他方式将数据传输到计算设备1500和从计算设备1500传输数据。这些I/O设备/接口1508可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备、或这样的I/O设备/接口1508的组合。触摸屏可以用书写设备或手指激活。
I/O设备/接口1508可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动器(例如,显示驱动程序),一个或多个音频扬声器、以及一个或多个音频驱动程序。在某些实施例中,设备/接口1508被配置为向显示器提供图形数据以呈现给用户。图形数据可以表示一个或多个图形用户界面、和/或可以服务于特定实现的任何其他图形内容。
计算设备1500还可以包括通信接口1510。通信接口1510可以包括硬件、软件或这两者。通信接口1510可以提供一个或多个接口以用于计算设备与一个或多个其他计算设备1500或一个或多个网络之间的通信(例如,基于分组的通信)。作为示例而非限制,通信接口1510可以包括用于与以太网或其他基于有线的网络进行通信的网络接口控制器(NIC)或网络适配器、或者用于与诸如WI-FI等无线网络进行通信的无线NIC(WNIC)或无线适配器。计算设备1500还可以包括总线1512。总线1512可以包括将计算设备1500的组件彼此耦合的硬件、软件或这两者。
在上述说明书中,本发明已经参考其特定示例实施例进行了描述。参考本文中讨论的细节描述了(多个)本发明的各种实施例和方面,并且附图示出了各种实施例。上面的描述和附图是对本发明的说明,不应当被解释为限制本发明。描述了很多具体细节以提供对本发明的各种实施例的透彻理解。
本发明可以以其他特定形式体现而不背离其精神或基本特征。所描述的实施例在所有方面都被认为仅是说明性的而不是限制性的。例如,本文中描述的方法可以用更少或更多的步骤/动作来执行,或者步骤/动作可以以不同的顺序执行。此外,本文中描述的步骤/动作可以重复或彼此并行执行,或者与相同或相似步骤/动作的不同实例并行执行。因此,本发明的范围由所附权利要求而不是由前述描述指示。在权利要求等效的含义和范围内的所有变化都应当被包含在其范围内。
Claims (20)
1.一种非暂态计算机可读介质,其上存储有指令,所述指令在由至少一个处理器执行时,使所述至少一个处理器执行操作,所述操作包括:
经由客户端设备的用户界面接收数字图像的替换区域和目标对象类的指示;
利用与所述目标对象类相对应的类特定修复神经网络来生成针对所述替换区域的替换像素;以及
提供包括所述替换像素的修复数字图像,以经由所述客户端设备进行显示,使得所述修复数字图像描绘所述替换区域内的所述目标对象类的实例。
2.根据权利要求1所述的非暂态计算机可读介质,其中接收所述替换区域和所述目标对象类的所述指示包括:
提供所述数字图像以经由所述用户界面进行显示;以及
利用与所述目标对象类相对应的选择工具经由所述用户界面来接收与所述替换区域相对应的用户选择。
3.根据权利要求2所述的非暂态计算机可读介质,还包括:利用分割模型和所述用户选择来确定所述替换区域。
4.根据权利要求1所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时,使所述至少一个处理器执行操作,所述操作包括:
生成与所述替换区域相对应的掩模;以及
利用所述类特定修复神经网络从所述掩模和所述数字图像生成所述替换像素。
5.根据权利要求1所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时,使所述至少一个处理器执行操作,所述操作包括:利用与以下项中的至少一项相对应的所述类特定修复神经网络来生成所述替换像素:天空对象类、水对象类、地面对象类或人类对象类。
6.根据权利要求1所述的非暂态计算机可读介质,其中利用所述类特定修复神经网络来生成所述替换像素包括:利用类特定级联调制修复神经网络的编码器层来生成图像编码。
7.根据权利要求6所述的非暂态计算机可读介质,其中利用所述类特定级联调制修复神经网络的所述编码器层来生成所述图像编码包括:
生成与所述编码器层的不同分辨率相对应的位置编码;以及
利用所述编码器层和所述位置编码来生成多个编码特征向量。
8.根据权利要求6所述的非暂态计算机可读介质,其中生成所述替换像素包括:利用来自所述图像编码的所述类特定级联调制修复神经网络的级联调制解码器层来生成所述替代像素。
9.一种系统,包括:
一个或多个存储器设备,包括:
数字图像,描绘对象类,以及
鉴别器神经网络和修复神经网络,包括编码器和解码器;以及
一个或多个处理器,被配置为使所述系统:
通过从所述数字图像中分割所述对象类的实例来生成类分割数字图像;
利用所述修复神经网络从所述类分割数字图像生成针对所述对象类的多个预测修复数字图像;以及
利用所述鉴别器神经网络和对抗性损失来修改所述修复神经网络的参数,以生成类特定修复神经网络。
10.根据权利要求9所述的系统,其中从所述数字图像中分割所述对象类的实例包括:
从所述数字图像中确定与所述对象类相对应的分割掩模;
利用扩展操作从所述分割掩模生成扩展分割掩模;以及
利用所述扩展分割掩模从所述数字图像中分割所述对象类的所述实例。
11.根据权利要求9所述的系统,其中生成针对所述对象类的所述多个预测修复数字图像包括:利用所述类特定修复神经网络的所述编码器的傅立叶卷积编码器层来生成图像编码。
12.根据权利要求11所述的系统,其中生成针对所述对象类的所述多个预测修复数字图像包括:利用类特定级联调制修复神经网络的多个级联调制层从所述图像编码生成所述多个预测修复数字图像,其中给定级联调制层包括全局调制块和空间调制块。
13.根据权利要求9所述的系统,其中修改所述修复神经网络的所述参数,以生成所述类特定修复神经网络包括:
利用所述鉴别器神经网络从预测的修复数字图像生成真实性预测;以及
基于所述真实性预测来确定所述对抗性损失。
14.根据权利要求9所述的系统,其中生成所述类分割数字图像包括:从所述数字图像中分割以下项中的一项的实例:天空对象类、水对象类、地面对象类或人类对象类。
15.一种计算机实现的方法,包括:
经由客户端设备的用户界面来接收替换数字图像的天空替换区域的指示;
利用被训练以生成针对数字图像的天空区域的类特定级联调制修复神经网络来生成针对所述天空替换区域的天空替换像素;以及
提供包括所述天空替换区域内的所述天空替换像素的修复数字图像以经由所述客户端设备进行显示。
16.根据权利要求15所述的计算机实现的方法,还包括:利用分割模型从所述数字图像确定所述天空替换区域。
17.根据权利要求15所述的计算机实现的方法,还包括:
基于替换所述天空替换区域的所述指示,从多个类特定级联调制修复神经网络中选择被训练以生成天空区域的所述类特定级联调制修复神经网络。
18.根据权利要求15所述的计算机实现的方法,还包括:利用所述类特定级联调制修复神经网络的级联调制解码器层从图像编码生成所述天空替换像素。
19.根据权利要求18所述的计算机实现的方法,其中生成所述天空替换像素包括:生成与所述级联调制解码器层的不同分辨率相对应的位置编码。
20.根据权利要求19所述的计算机实现的方法,还包括:利用所述类特定级联调制修复神经网络的所述级联调制解码器层、所述图像编码和所述位置编码来生成所述天空替换像素。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/663,317 | 2022-05-13 | ||
US17/663,317 US20230368339A1 (en) | 2022-05-13 | 2022-05-13 | Object class inpainting in digital images utilizing class-specific inpainting neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058007A true CN117058007A (zh) | 2023-11-14 |
Family
ID=86052712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310157677.5A Pending CN117058007A (zh) | 2022-05-13 | 2023-02-23 | 利用类特定修复神经网络的数字图像中的对象类修复 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230368339A1 (zh) |
CN (1) | CN117058007A (zh) |
AU (1) | AU2023201535A1 (zh) |
DE (1) | DE102023104829A1 (zh) |
GB (1) | GB2619381B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240127410A1 (en) * | 2022-10-03 | 2024-04-18 | Adobe Inc. | Panoptically guided inpainting utilizing a panoptic inpainting neural network |
CN117726916B (zh) * | 2024-02-18 | 2024-04-19 | 电子科技大学 | 一种图像分辨率融合增强的隐式融合方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10192129B2 (en) | 2015-11-18 | 2019-01-29 | Adobe Systems Incorporated | Utilizing interactive deep learning to select objects in digital visual media |
CN105646616B (zh) | 2016-03-24 | 2019-08-06 | 诸城市浩天药业有限公司 | 甜菊糖b苷晶型g、其制备方法、食品组合物及应用 |
US10074161B2 (en) * | 2016-04-08 | 2018-09-11 | Adobe Systems Incorporated | Sky editing based on image composition |
US10460214B2 (en) | 2017-10-31 | 2019-10-29 | Adobe Inc. | Deep salient content neural networks for efficient digital object segmentation |
US10613726B2 (en) * | 2017-12-22 | 2020-04-07 | Adobe Inc. | Removing and replacing objects in images according to a directed user conversation |
US11042990B2 (en) * | 2018-10-31 | 2021-06-22 | Adobe Inc. | Automatic object replacement in an image |
GB2586678B (en) * | 2019-07-22 | 2022-06-22 | Adobe Inc | Utilizing multiple object detection models to automatically select user-requested objects in images |
US11481882B2 (en) * | 2019-11-18 | 2022-10-25 | Shinyfields Limited | Systems and methods for selective replacement of objects in images |
CN111354059B (zh) * | 2020-02-26 | 2023-04-28 | 北京三快在线科技有限公司 | 图像处理方法及装置 |
CN113554658B (zh) * | 2020-04-23 | 2024-06-14 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
US20210407051A1 (en) * | 2020-06-26 | 2021-12-30 | Nvidia Corporation | Image generation using one or more neural networks |
-
2022
- 2022-05-13 US US17/663,317 patent/US20230368339A1/en active Pending
-
2023
- 2023-02-23 CN CN202310157677.5A patent/CN117058007A/zh active Pending
- 2023-02-28 DE DE102023104829.5A patent/DE102023104829A1/de active Pending
- 2023-03-13 AU AU2023201535A patent/AU2023201535A1/en active Pending
- 2023-03-13 GB GB2303646.0A patent/GB2619381B/en active Active
Also Published As
Publication number | Publication date |
---|---|
GB2619381B (en) | 2024-09-18 |
AU2023201535A1 (en) | 2023-11-30 |
GB202303646D0 (en) | 2023-04-26 |
DE102023104829A1 (de) | 2023-11-16 |
GB2619381A (en) | 2023-12-06 |
US20230368339A1 (en) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liao et al. | Guidance and evaluation: Semantic-aware image inpainting for mixed scenes | |
Kim et al. | Global and local enhancement networks for paired and unpaired image enhancement | |
US11636570B2 (en) | Generating digital images utilizing high-resolution sparse attention and semantic layout manipulation neural networks | |
CN112308763A (zh) | 利用具有双流编码器架构的神经网络来生成合成数字图像 | |
CN117058007A (zh) | 利用类特定修复神经网络的数字图像中的对象类修复 | |
CN115082329A (zh) | 使用用于图像修复的深度视觉引导补丁匹配模型生成修改的数字图像 | |
US20220392025A1 (en) | Restoring degraded digital images through a deep learning framework | |
US20230360180A1 (en) | Digital image inpainting utilizing a cascaded modulation inpainting neural network | |
US11887277B2 (en) | Removing compression artifacts from digital images and videos utilizing generative machine-learning models | |
AU2019200269B2 (en) | An interactive user interface and its corresponding engine for improving image completion quality | |
US20240161240A1 (en) | Harmonizing composite images utilizing a semantic-guided transformer neural network | |
CN117350928A (zh) | 将对象感知风格转移应用于数字图像 | |
Koutsiou et al. | SUShe: simple unsupervised shadow removal | |
CN118071882A (zh) | 检测对象关系和基于对象关系编辑数字图像 | |
CN117830107A (zh) | 使用语义判别器和对象级判别器学习神经网络的参数 | |
US20240144623A1 (en) | Modifying poses of two-dimensional humans in two-dimensional images by reposing three-dimensional human models representing the two-dimensional humans | |
CN118096938A (zh) | 从数字图像中移除干扰对象 | |
US20240144586A1 (en) | Generating shadows for objects in two-dimensional images utilizing a plurality of shadow maps | |
US20230132180A1 (en) | Upsampling and refining segmentation masks | |
US12086965B2 (en) | Image reprojection and multi-image inpainting based on geometric depth parameters | |
CN115713585A (zh) | 纹理图像重建方法、装置、计算机设备和存储介质 | |
Jiang et al. | Parallel adaptive guidance network for image inpainting | |
US20240256218A1 (en) | Modifying digital images using combinations of direct interactions with the digital images and context-informing speech input | |
Dong et al. | Inpainting larger missing regions via progressive guidance decoding network | |
US20240127509A1 (en) | Generating scale fields indicating pixel-to-metric distances relationships in digital images via neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |