CN111489412B - 用于使用神经网络生成基本逼真图像的语义图像合成 - Google Patents

用于使用神经网络生成基本逼真图像的语义图像合成 Download PDF

Info

Publication number
CN111489412B
CN111489412B CN202010074261.3A CN202010074261A CN111489412B CN 111489412 B CN111489412 B CN 111489412B CN 202010074261 A CN202010074261 A CN 202010074261A CN 111489412 B CN111489412 B CN 111489412B
Authority
CN
China
Prior art keywords
image
semantic
network
regions
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010074261.3A
Other languages
English (en)
Other versions
CN111489412A (zh
Inventor
T·帕克
刘洺堉
王鼎钧
朱俊彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Priority to CN202410185105.2A priority Critical patent/CN118172460A/zh
Publication of CN111489412A publication Critical patent/CN111489412A/zh
Application granted granted Critical
Publication of CN111489412B publication Critical patent/CN111489412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了用于使用神经网络生成基本逼真图像的语义图像合成。用户可以创建包括由用户标识的两个或更多个区域的基本语义布局,每个区域与语义标签相关联,该语义标签指示要在该区域中渲染的对象的类型。可以将语义布局作为输入提供给图像合成网络。该网络可以是经训练的机器学习网络,例如生成对抗网络(GAN),其包括条件空间自适应归一化层,用于将语义信息从语义布局传播到网络的其他层。该合成可以涉及归一化和反归一化,其中布局的每个区域可以利用不同的归一化参数值。从网络推断出图像,并进行渲染以显示给用户。用户可以更改标签或区域,以便引起生成新的图像或更新的图像。

Description

用于使用神经网络生成基本逼真图像的语义图像合成
背景技术
存在各种软件应用程序,使用户能够手动创建或操纵数字图像。如果用户希望创建逼真的图像,则用户通常必须找到包含感兴趣的各个组件的表示的图像,然后以使图像按需要显示的方式将这些图像剪切并粘贴在一起。在一些实施例中,这可能涉及艰苦的裁剪过程,包括为使图像部分正确对齐和调整大小以及移除图像伪像并将各个组件无缝地混合在一起而进行的大量工作。尽管某些软件包提供了一些工具来帮助减轻至少这些步骤中的某些步骤所需的用户工作量,但该过程仍涉及大量的手动交互,对于许多用户而言可能过于复杂。
附图说明
将参考附图描述根据本公开的各种实施例,其中:
图1A和图1B示出了可以根据各种实施例生成的示例语义布局和相应的合成图像。
图2A、图2B、图2C和图2D示出了可以根据各种实施例生成的一组示例语义布局和相应的合成图像。
图3示出了根据各种实施例的示例性用户界面,该示例性用户界面可用于生成语义布局。
图4示出了根据各种实施例可以利用的示例图像合成器网络的组件。
图5示出了根据各种实施例的用于获得语义布局以及合成对应的逼真图像的示例过程。
图6示出了其中可以实现各个实施例的各方面的示例环境。
图7示出了根据各种实施例的用于训练可以被利用的图像合成网络的示例系统。
图8示出了根据各种实施例的可以利用的示例统计模型的各层。
图9示出了可用于实现各个实施例的各方面的计算设备的示例组件。
具体实施方式
在以下描述中,将描述各种实施例。为了说明的目的,阐述了特定的配置和细节以便提供对实施例的透彻理解。然而,对于本领域的技术人员来说,显然可以在没有具体细节的情况下实践实施例。此外,可以省略或简化众所周知的特征,以免使所描述的实施例不清楚。
根据各种实施例的方法提供使用语义布局的图像的生成,例如逼真的(photorealistic)图像。例如,用户可以利用布局生成应用程序来绘制或创建简单的语义布局。语义布局将包括由用户标识的两个或更多个区域,例如通过区域边界的输入。用户还可以将语义标签(或其他标识符)与每个区域相关联,以指示要在该区域中渲染(render)的对象的类型。例如,想要生成室外场景的逼真图像的用户可能会将图像空间中的下部区域与“草”标签关联,将上部区域与“天空”标签关联。一旦生成,就可以将语义布局作为输入提供给图像合成网络。该网络可以是经训练的机器学习网络,例如生成对抗网络(GAN)。该网络可以包括条件空间自适应归一化层,用于将语义信息从语义布局传播到经训练的网络的其他层。可以针对语义图像合成来定制条件归一化层(conditional normalizationlayer)。此外,合成可以涉及归一化和反归一化,其中每个区域可以利用不同的归一化参数值。然后可以从网络推断图像,并将其渲染以显示给用户。用户可以更改标签或区域,以便使得生成新的图像或更新的图像。这样的方法可以使用户成为出色的艺术家,因为他们可以绘制或创建一组非常基本的元素或形状,并为每个区域选择一种风格。然后可以基于所得到的语义布局来合成图像。
各种其他功能可以在各种实施例中实现以及在本文其他地方讨论和提出。
可能的情况是,用户希望能够生成特定场景的逼真图像,该图像可以对应于实际场景或来自用户想象的场景,以及其他此类选项。一些软件应用程序使用户能够数字绘画、绘制或以其他方式创建随机图像,但是使用这种方法生成逼真的图像可能非常困难。如前所述,用户可以具有定位包括要放置在场景图像中的感兴趣对象的图像的选项,但是随后必须手动剪切这些对象,然后以看起来自然且不包含任何重要的图像处理伪像的方式将其粘贴到场景中。这种方法可能需要用户付出大量的人工,并且通常不会产生真正逼真的图像。
因此,根据各种实施例的方法使用户能够使用语义布局快速且容易地创建图像。这些布局可以对应于图像的区域,该区域将包括指定类型的对象、特征、图案或纹理。图1A示出了可以根据各种实施例创建的示例语义布局100。在该示例中,用户界面可以提供新的或空白的图像空间,例如可以对应于特定大小或分辨率的全白图像。通过用户界面或应用程序,用户可以为布局的一个或更多个区域绘制或以其他方式创建形状,例如,该区域将包含不同类型对象的表示。用户可以使用许多输入方法中的任何一种来绘制区域边界,如本文中其他地方更详细地讨论的那样,该方法可以包括使用界面的绘图工具沿触敏显示屏移动手指或沿预期路径移动鼠标光标,等等。
在图1A的示例中,用户已绘制了定义四个不同区域102、104、106、108的边界。对于这些区域中的每一个,用户已经指定、选择或以其他方式使标签被分配或关联。在本文的其他地方更详细地讨论了分配这种标签的方法。在该示例中,用户已经为第一区域102选择了天空标签,为第二区域104选择了森林标签,为第三区域106选择了水或海洋标签,以及为第四区域选择了岩石或山标签。在该示例界面中,不同的标签与不同的颜色相关联,使得用户可以通过观看图像快速而容易地确定哪些区域对应于哪些类型的物体。然后,用户可以根据需要更改与给定区域关联的标签。图像一旦创建就形成了一种类型的分割掩码(segmentation mask),其中每个区域的形状和大小都可以看作是掩码,该掩码可以使指定类型的对象仅在相应的掩码区域或边界内渲染。因为这些区域与对象类型的标签或其他标记相关联,所以此分割掩码也可以被视为语义布局,因为它为每个不同的掩码区域或有界区域中的各种类型的对象提供了环境。
例如,一旦用户已生成了用户想要转换成逼真图像的语义布局,用户就可以选择一选项以使语义布局被提供给图像渲染或生成过程。在一些实施例中,除其他这样的选项之外,可以随着语义布局的每次改变而自动生成或更新逼真图像。示例图像生成或合成过程可以将语义布局作为输入并生成逼真图像(例如,风格化的合成图像),例如图1B中所示的示例图像150。在此示例中,图像合成过程已在语义布局的边界所指示的区域中生成指定类型的对象的渲染。可以以这样的方式来生成和合成图像:场景呈现为实际场景的图像,而没有图像操纵伪像或其他这种不期望的特征。此外,使用经训练的图像合成网络确定并从网络的输出生成图像的各个组成部分,而不是这些类型的对象的图像部分的粘贴或聚合,它们可以提供区域之间的无缝边界等这样的优势。
在一些实施例中,用户可以具有指定给定类型的特定对象的能力,而在另一些实施例中,可以选择初始对象,并且用户可以具有修改为该区域渲染的对象的能力。例如,用户可以为与对象类型“树”相对应的区域选择标签。在一些实施例中,用户可能能够指定特定的树,例如松树或棕榈树。在其他实施例中,可以随机地或者从指定的用户偏好或观察到的行为中选择树的类型,并且用户可以具有请求不同树的选项,例如通过遍历可用选项。在其他实施例中,用户可能能够为图像指定风格类型或场景类型,这可以确定选择用于渲染的对象。例如,如果用户指定海滩场景或热带风格,则可以为树标签区域选择棕榈树,而对于森林或山脉风格,可以选择松树,以及其他这样的选项。一旦生成可接受的图像,用户就可以将该图像保存、导出或以其他方式用于其预期目的。
如上所述,用户可以具有在图像创建或处理过程中修改语义布局的能力。例如,如在图2A的示例布局200中所示的,用户可以针对给定区域绘制不同的边界202,这可以使该区域具有与该边界相对应的新形状222,如图2B的示例图像中所示。语义布局的更新可以触发生成新图像240,如图2C所示,其具有为该图像的该部分渲染的新对象。在该示例中,渲染了新的山242,该山242不同于先前如图1B中所渲染的山。在至少一些实施例中,将针对语义布局的每次改变生成新图像,以确保图像逼真(或其他期望的质量)。应该理解,尽管逼真是各种实施例的主要用例,这样的方法也可以用来生成风格化的图像,因为它们可以对应于图形图像、卡通、艺术图像、增强现实和虚拟现实显示等。如上所述,用户还可以具有更改与区域关联的标签的选项,或请求与标签关联的类型的不同对象的选项。图2D的示例图像260可以响应于用户改变语义布局以针对特定区域指定海滩标签而不是森林标签来生成,这可以使图像的对应部分262用沙子、棕榈树和其他海滩特征,而不是森林标签的松树和针叶覆盖的地面来渲染。
图3示出了示例性用户界面300,其可用于提供关于各种实施例描述的功能。在该示例中,显示了语义布局320。如前所述,布局可以开始为空白或纯色,例如纯白色。用户可以具有设置大小、分辨率和其他此类方面的选项。界面可以包括多个工具304(由可选图标或其他这样的输入选项来指示),这些工具使用户能够绘制、涂色、擦除、拖动、调整大小或以其他方式创建、删除和修改语义布局的区域。在一些实施例中,如果用户绘制边界区域,则该区域可以被自动地涂上或填充所选的标签颜色。该界面还可以包括可选标签元素306,例如语义调色板的可选图标或虚拟按钮,其使用户能够为特定区域选择或指定标签。用户可以在创建新区域之前选择标签,或者在选择了所创建的区域之后选择标签等这样的选项。这些工具和其他此类工具可使用户创建和修改可用于合成所需图像的语义布局。在至少一些实施例中,可以提供预览图像308作为界面的一部分,该预览图像至少为用户提供由当前区域和标签选择产生的图像的缩略图。用户可以利用预览选项(其可具有任何适当的大小、分辨率或位置)来进行调整并几乎实时地查看效果。在至少一些实施例中,单独的窗口、面板或界面也可以用于显示预览图像或渲染图像。还示出了风格选项310,用户可以选择风格选项310以将其应用于要生成的图像。如本文其他地方所讨论的,可以将这些风格应用于改变图像中区域的外观。例如,日出风格可能导致天空区域具有特定外观,并可导致其他区域的照明(或其他外观方面)相应地进行调整。类似地,冬季风格可能导致树木上出现雪,而夏季风格可能导致树木上有完整的绿叶,以及其他选项。设计了布局的用户可以从这些风格和其他风格中进行选择,以进一步更改所得到的图像的潜在外观,或生成具有不同风格的图像的多个版本,等等。尽管风格选项显示为文本标签,但应当理解,在一些实施例中,风格选项可以显示具有相应风格的当前工作图像的渲染版本,并且在一些实施例中,风格选项可以包括滑动条、调节盘(dial)或其他选项,以影响风格的应用范围。例如,冬季风格选项可能会导致在树上渲染雪。滑动条可用于调整树上的雪量,例如可能与少量积雪或大量积雪等相关。
在一些实施例中,用户可能不想从头开始,而是想将一个或更多个项目添加到现有图像。在这种情况下,用户可以在用户界面中打开图像。该软件可以使用适当的过程(例如计算机视觉或图像分割等)分析图像,以确定图像中表示的对象的分割掩码。在其他实施例中,图像可以被视为简单背景。用户可以为语义布局的区域绘制或更新边界,其使其他对象可以添加到场景中。这种方法还可以使图像中的对象根据需要进行修改或替换。例如,用户可以扩展岩石的边界以隐藏背景中的人。用户可能还希望调整岩石的大小以使其看起来更大,或包括不同类型的岩石。在一些实施例中,用户可以简单地使用输入图像来生成语义布局,然后使图像合成器生成全新的图像。新图像将具有相似的布局,但由于图像中对象类型的不同渲染,外观可能看起来明显不同。例如,用户可提供具有山和湖泊的场景,但是新生成的图像可具有不同颜色的水、不同大小的波浪等。在一些实施例中,用户还可以具有由该软件仅生成某些区域的选项,其中一些区域与输入图像中提供的区域基本相似。在各种实施例的范围内,也可以利用各种其他操纵。
这种图像生成方法可以模仿人脑执行的可视化。如果告诉人类使用水、沙子和棕榈树来可视化场景,则人脑可以生成这种场景的内心图像。根据各种实施例的方法可以使用相似的语义输入来执行相似的功能。可以将应用于各个区域的语义标签用于选择要渲染的对象的类型,并可以使用区域的大小和位置来确定应使用图像的哪些像素来渲染那些类型的对象。应当理解,在许多情况下,边界将不是硬边界,而是用于渲染对象的指南,因为硬边界不会提供自然边界或逼真的图像。例如,树通常会具有非常粗糙的边界,因此用户提供的平滑边界可以用作树整体的一般指导或目标形状,但是图像合成网络可以确定哪些像素实际上会对应于合成图像中的各个对象类型。此外,诸如树木之类的对象并非总是实体或连续的,在树叶和树枝之间可能会有间隙,这将导致场景中该树“后面”的其他对象在这些间隙中可见或呈现。然后,图像合成网络可以使用语义布局作为生成最终图像的指南。
在各个实施例中,图像合成过程利用空间自适应归一化。可以使用条件归一化层来实现空间自适应归一化,该条件归一化层用于在给定输入语义布局的情况下合成逼真的图像。输入的语义布局可以用于通过空间自适应、经学习的仿射变换来调制归一化层中的激活。在一些具有挑战性的数据集上的实验已成功展示了各个方面,例如视觉保真度和与输入布局的对齐。此外,这种模型使用户可以轻松控制合成结果的风格和内容,以及创建多模态图像。
本文使用的条件图像合成是指根据一些输入数据(例如文本、标签、图像或分割掩码)生成逼真的图像的任务。常规方法通过缝合来自图像数据库的图像补丁来计算输出图像。与这些早期方法相比,使用机器学习(例如神经网络)具有多个优势,包括提高速度和存储效率,以及无需维护外部图像数据库。
在各种实施例中,将语义分割掩码转换为逼真的图像,在此称为语义图像合成过程。这样的过程具有广泛的应用,包括照片处理和内容生成。但是,结果的质量可能在很大程度上取决于网络架构。在各种实施例中,通过在神经网络(例如,生成对抗网络(GAN))中使用空间自适应归一化层来获得高质量的结果。空间自适应归一化层是可以在图像合成网络中有利地使用的简单但有效的条件归一化层。这样的归一化层可以使用输入语义布局通过空间自适应、学习的仿射变换来调制激活,从而有效地在整个网络中传播语义信息。空间自适应归一化层的使用使得相对较小、紧凑的网络能够合成图像,与几种常规方法相比,效果要好得多。另外,本文所述的归一化层对于语义图像合成任务的几种变体是有效的。这种方法支持多模态生成和引导的图像合成,从而实现可控的多样化合成。
在一些实施例中,图像合成网络可以利用深度生成模型,该模型可以学习在给定训练数据集的情况下对图像进行采样。图4示出了这样的网络400的示例实现。所使用的模型可以包括例如生成对抗网络(GAN)和可变自动编码器(VAE)网络,同时旨在有条件的图像合成任务。根据各种实施例的GAN可以由生成器410和鉴别器414组成。生成器410可以产生逼真的图像(未示出),使得鉴别器不能区分真实图像和从生成器输出的合成图像。
图像合成可以以输入数据类型不同的许多形式存在。例如,当输入数据是单个类别标签时,可以使用类别条件图像合成模型。当输入数据是文本时,可以使用文本到图像模型。对于图像到图像的转换,输入和输出都可以是图像。可以在有或没有输入输出训练对的情况下训练条件图像合成模型。在各种实施例中,可以使用空间自适应归一化层将分割掩码在本文讨论的成对设置中转换为逼真的图像。
条件归一化层包括诸如条件批归一化(Conditional BN)和自适应实例归一化(AdaIN)之类的表示。与早期的归一化技术不同,条件归一化层利用外部数据并且通常如下操作。首先,将层激活归一化为零均值和单位偏差。然后,通过仿射变换对归一化的激活进行反归一化以调制该激活,该仿射变换的参数是从外部数据中推断出的。在各个实施例中,每个位置或区域对于反归一化具有不同的分布,如由分割掩码所确定的。在一些实施例中,均值和方差值由各个区域的映射确定,而不是由整个图像的单个均值和方差值确定。与常规方法相比,这使分布更具适应性,并且由于有更多参数可用,有助于解释训练数据。作为替代方案,可以将分割掩码与激活级联在一起。
对于风格转换任务,仿射参数用于控制输出的全局风格,因此在空间坐标上是统一的。在本文公开的实施例中,归一化层应用空间变化的仿射变换。
在示例语义图像合成方法中,可以通过以下方式定义语义分割掩码:
m∈LHxW
其中L是表示语义标签的一组整数,H和W是图像的高度和宽度。m中的每个条目表示像素的语义标签。语义图像合成问题是关于学习映射函数g的,其可以将分割掩码m转换为逼真的图像x=g(m)。在各种实施例中,可以使用深度卷积网络对g建模。通过如本文所述在归一化层中使用空间自适应仿射变换,网络设计可以实现逼真的语义图像合成结果。
各种实施例还利用空间自适应反归一化过程。令hi表示深度卷积网络第i层的激活,该激活是通过处理一批N个样本计算得出的。令Ci为该层中的通道数。令Hi和Wi为层中激活映射的高度和宽度。可以使用提供空间自适应反归一化(SPADE)的条件归一化方法。类似于批归一化,可以对激活进行逐通道归一化,然后使用经学习的比例和偏差进行仿射变换。归一化层的仿射参数可以取决于输入的分割掩码,并且可以相对于位置(y,x)进行改变。函数映射可用于将输入分割掩码m转换为深度网络第i层的激活映射中站点处的缩放值和偏差值。可以使用简单的两层卷积网络来实现函数映射。对于任何空间不变的条件数据,这种方法可以降为条件批归一化。类似地,可以通过用另一幅图像替换分割掩码,使仿射参数在空间上不变并且设置N=1来实现自适应实例归一化。由于仿射参数适合于输入分割掩码,因此建议的SPADE为更适合语义图像合成。使用SPADE,由于经学习的SPADE仿射参数可提供有关标签布局的足够信号,因此无需将分割映射馈送到生成器的第一层。因此,可以丢弃生成器的编码器部分。这样做可以使网络更轻便。此外,类似于现有的类别条件生成器,这种生成器410可以采用随机向量作为输入,这使得能够以简单自然的方式进行多模态合成。
示例生成器架构采用几个带有上采样层的ResNet块。使用SPADE学习归一化层的仿射参数。由于每个残差块以不同的尺度操作,因此SPADE可以对语义掩码进行下采样以匹配空间分辨率。例如,生成器第一层的输入可以是从单位高斯采样的随机噪声,也可以是下采样为8x8分辨率的分割映射。这两种方法可以产生非常相似的结果。例如,可以用pix2pixHD中使用的相同的多尺度(multi-scale)判别器和损失函数来训练生成器,除了可以用铰链损失(hinge loss)项代替最小二乘损失项之外。
在生成器网络的输入处使用随机向量可以使示例架构能够提供一种直接的方式来产生语义图像合成的多模态结果。即,一个可以附加到图像编码器网络e 406上,该图像编码器网络e 406将真实图像402处理为随机向量或其他潜在表示408,然后可以将其馈送到生成器410。编码器406和生成器410形成变分自动编码器,编码器网络在其中尝试捕获图像的风格,而生成器则通过SPADE将编码的风格和分割映射信息相组合,以重建原始图像。编码器406还在测试时间用作风格指导网络以捕获目标图像的风格。
图像编码器406可以将真实图像编码为潜在表示408,以生成均值向量和方差向量。然后,例如通过使用重新参数化技巧,向量可以用于计算输入到生成器410的噪声。生成器410还可以将输入图像的分割掩码404或语义布局作为输入。如适当的级联器412所执行的,鉴别器414可以接受来自生成器410的分割掩码和输出图像的级联作为输入。然后,鉴别器414可以尝试将该级联分类为伪造。
图像编码器406可以包括一系列卷积层,其后是两个线性层,其输出输出分布的均值向量μ和方差向量σ。生成器410的架构可以包括一系列具有最近邻上采样的SPADE残差块。在一些实施例中,可以使用批归一化的同步版本同时使用多个GPU处理来训练网络。频谱归一化可以应用于生成器410中的所有卷积层。鉴别器414的架构可以将分割映射和图像的级联作为输入。示例鉴别器可以将卷积层用作最终层。
可以使用学习目标函数,例如可以包括铰链损失项。当使用图像编码器训练示例框架以进行多模态合成和风格引导的图像合成时,可以包括利用标准高斯分布的发散损失项,并且变分分布q完全由均值向量和方差向量确定。可以执行重新参数化以将梯度从生成器410反向传播到图像编码器406。如图所示,语义布局404可以输入到网络中的不同位置,例如输入到生成器410中的多个位置以及级联器412。图像合成网络将语义布局404或分割掩码转换为图像。可以使用例如相关标签或对象类型的对象的数十万个图像来训练网络。然后,网络可以生成符合该分割掩码的逼真图像。
图5示出了根据各种实施例可以利用的从语义布局生成逼真图像的示例过程500。应当理解,对于本文讨论的该过程和其他过程,除非另有说明,否则在各种实施例的范围内可以有以相似或替代顺序或并行执行的附加、替代或更少的步骤。在此示例中,用户可以使用此处讨论的适当的应用程序或用户界面来生成语义布局。如上所述,在其他实施例中,用户可以提供可用于生成语义布局的图像以及其他选项等。
在此示例中,提供502新的图像空间,该图像空间可以具有指定的尺寸、大小、分辨率等。对于图像编辑软件而言,新的图像空间可以是纯背景色的新图像文件,如白色。在一些实施例中,用户可以将标签应用到背景作为起点,以便使图像具有“天空”标签,以用于任何其他不具有与其相关联的区域的像素。然后,用户可以提供输入,该输入可以指定图像区域的边界,例如通过在触敏显示器上绘图或沿期望路径移动鼠标以及其他此类选项。系统然后可以接收504由用户指示的区域边界的指示,诸如可以是用户绘制了所讨论的边界的结果。在一些实施例中,用户必须指示区域是完整的,而在其他实施例中,用户完成包围区域的边界(其中边界的起点和终点在相同像素位置,或者在相同的位置的像素阈值内)将导致该区域自动显示为新区域或更新的区域。连同区域的边界一起,可以接收506对该区域的标签的选择,其中该标签是指示要针对该区域渲染的对象的类型的语义标签(或其他这样的指定)。如本文所讨论的,用于该目的的对象应被广义地解释为包括可以在图像中表示的任何东西,例如人、无生命的对象、位置、背景等。如上所述,对于室外场景,这可能包括对象,例如水、天空、海滩、森林、树木、岩石、花卉等。对于室内场景,这可能包括墙壁、地板、窗户、椅子、桌子等。
一旦通过边界和标签定义了区域,就可以用与所选标签相关联的颜色填充508该区域(如通过界面显示的)。如果确定510存在至少一个以上要定义的区域,则该过程可以继续进行定义另一个区域并应用标签。如上所述,在各种实施例的范围内,也可以为一个或更多个现有区域定义新的形状或标签。一旦定义并标记了所需区域,就可以接收到应该渲染图像的指示。如所讨论的,这可以是来自用户的手动输入的结果,可以在对语义布局进行任何更新时自动执行,或者可以在将布局的所有像素位置都分配给区域之后执行等等。然后可以使用图像空间的标记区域来生成512语义布局。可以提供514语义布局作为图像合成网络的输入。网络可以处理516如本文所讨论的布局,包括利用空间自适应的条件归一化层。如所讨论的,网络使用语义信息执行归一化和反归一化。然后可以使用来自网络的一组推断来生成518逼真图像,该逼真图像包括由用于指定区域的标签所指示的对象的类型。如所提到的,在一些实施例中,将随机选择各种类型的对象,并且用户可以请求使用不同类型的对象来渲染图像。在其他实施例中,可以针对场景的类型或基于边界的形状来选择对象,因为与棕榈树相比,松树将更适合于不同的边界形状。也可以使用如本文中所讨论的各种其他方法。
图6示出了可以用来实现各种实施例的各方面的示例环境600。在一些实施例中,用户可以利用客户端设备602来生成语义布局。客户端设备可以是能够使用户生成如本文所讨论的语义布局的任何适当的计算设备,例如可以包括台式计算机、笔记本计算机、智能电话、平板计算机、计算机工作站、游戏控制台等。用户可以使用在客户端设备上运行的图像编辑器应用程序606的用户界面(UI)生成语义布局,但是在一些实施例中,至少某些功能也可以在远程设备、联网设备或“云”中操作。用户可以例如通过触敏显示器604或通过移动显示在显示屏上的鼠标光标向UI提供输入等等。如上所述,用户可能够选择各种工具、工具大小和可选的图形元素,以便向应用程序提供输入。客户端设备可以包括至少一个处理器(例如,CPU或GPU),以执行应用程序和/或代表应用程序执行任务。通过应用程序生成的语义布局可以与从该语义布局生成的任何合成图像一起本地存储在本地存储器612中。
在一些实施例中,可以在客户端设备上处理在客户端设备602上生成的语义布局,以便合成相应的图像,诸如如本文所讨论的逼真图像或风格化图像。在其他实施例中,客户端设备可以在至少一个网络614上发送语义布局或用于语义布局的数据,以被远程计算系统接收,该远程计算系统可以是资源供应商环境616的一部分。至少一个网络614可以包括任何适当的网络,包括内联网、因特网、蜂窝网络、局域网(LAN)或任何其他这样的网络或组合,并且可以经由有线和/或无线连接来启用网络上的通信。供应商环境616可以包括用于接收请求并返回信息或响应于那些请求执行动作的任何适当的组件。作为示例,供应商环境可以包括用于接收和处理请求,然后响应于请求而返回数据或其他内容或信息的Web服务器和/或应用服务器。
可以将接收到供应商环境616的通信接收到接口层618。接口层618可以包括使得用户能够向供应商环境提交请求的应用程序编程接口(API)或其他暴露的接口。在该示例中,接口层618也可以包括其他组件,例如至少一个Web服务器、路由组件、负载均衡器等。接口层618的组件可以确定请求或通信的类型,并且可以将请求定向到适当的系统或服务。例如,如果通信用于训练图像合成网络以获得特定类型的图像内容,例如风景、动物或人,以及风格化或逼真的图像,则可以将通信定向到图像管理器620,该图像管理器可以是使用供应商环境616的各种资源提供的系统或服务。然后可以将请求定向到训练管理器624,其可以选择适当的模型或网络,然后使用相关的训练数据624训练模型。一旦训练并成功评估网络,则可以将网络存储到模型存储库626,例如,该模型存储库可以存储用于不同类型的图像合成的不同模型或网络。如果接收到包括用于合成图像的语义布局的请求,则该请求的信息可以被定向到图像合成器628,该图像合成器628可以获得对应的经训练的网络,例如具有条件归一化网络的经训练的生成对抗网络,如本文所述。图像合成器628然后可以使得语义布局被处理,以从语义布局生成图像。然后可以将合成图像发送到客户端设备602以在显示元件604上显示。如果用户想要修改图像的任何方面,则用户可以向应用程序606提供附加输入,这可导致针对新的或更新的语义布局,将使用相同的过程生成新的或更新的图像。
在各个实施例中,处理器608(或训练管理器622或图像合成器628的处理器)将是中央处理单元(CPU)。但是,如上所述,此类环境中的资源可以利用GPU来处理至少某些类型的请求的数据。GPU具有数千个内核,被设计用于处理大量的并行工作负载,因此在深度学习中变得很流行用于训练神经网络和生成预测。尽管使用GPU进行离线构建使能更快地训练更大、更复杂的模型,生成离线意味着无法使用请求时间输入特征的预测,或者必须针对特征的所有排列生成预测并将其存储在查找表中,以用于服务实时请求。如果深度学习框架支持CPU模型,并且模型足够小且足够简单,可以以合理的延迟在CPU上执行前馈操作,则CPU实例上的服务可以托管该模型。在这种情况下,可以在GPU上离线地进行训练,并在CPU上实时地进行推断。如果CPU方法不是可变的选择,则该服务可以在GPU实例上运行。但是,由于GPU具有与CPU不同的性能和成本特征,因此运行将运行时间算法卸载到GPU的服务可能要求其设计与基于CPU的服务不同。
如上所述,各种实施例利用机器学习。例如,在处理器上开发的深度神经网络(DNN)已用于各种用例,从无人驾驶汽车到更快的药物开发,从在线图像数据库中的自动图像标注到视频聊天应用程序中的智能实时语言翻译。深度学习是一种对人脑的神经学习过程进行建模,不断学习,不断变得更聪明并随时间推移更快地提供更准确结果的技术。成年人最初教孩子如何正确识别和分类各种形状,最终无需任何指导即可识别形状。同样,深度学习或神经学习系统需要在对象识别和分类方面进行训练,以使其在识别基本对象、被遮挡的对象等方面变得更聪明、更有效,同时还为对象分配环境。
在最简单的级别上,人脑中的神经元查看接收到的各种输入,将重要性级别分配给这些输入中的每一个,然后将输出传递给其他神经元以对其进行处理。人工神经元或感知器是神经网络的最基本模型。在一个示例中,感知器可以接收表示该感知器被训练以识别和分类的对象的各种特征的一个或更多个输入,并且在定义对象形状时,这些特征中的每一个基于该特征的重要性赋予一定的权重。
深度神经网络(DNN)模型包括许多连接的感知器(例如,节点)的多个层,可以用大量的输入数据对其进行训练,从而高精度快速地解决复杂的问题。在一个示例中,DNN模型的第一层将汽车的输入图像分解为各个部分,并寻找诸如线条和角之类的基本图案。第二层组装线条以寻找更高级别的图案,例如车轮、挡风玻璃和后视镜。下一层识别车辆的类型,最后几层为输入图像生成标签,识别特定汽车品牌的型号。DNN经过训练后,DNN就可以被部署并用于在被称为推断的过程中识别和分类对象或图案。推断的示例(DNN从给定输入中提取有用信息的过程)包括识别存入ATM机的支票上的手写数字,识别照片中朋友的图像,向超过五千万用户提供电影推荐,在无人驾驶汽车中识别和分类不同类型的自主车辆、行人和道路危险,或实时翻译人类语音。
在训练过程中,数据在前向传播阶段流经DNN,直到产生指示对应于输入的标签的预测为止。如果神经网络未正确标记输入,则将分析正确标签和预测标签之间的误差,并在反向传播阶段调整每个特征的权重,直到DNN正确标记该输入和训练数据集中的其他输入。训练复杂的神经网络需要大量的并行计算性能,包括所支持的浮点乘法和加法。与训练相比,推理的计算密集程度更低,这是一个对延迟敏感的过程,其中经训练的神经网络应用于以前从未见过的新输入,以对图像进行分类、翻译语音并通常推断出新信息。
神经网络在很大程度上依赖于矩阵数学运算,而复杂的多层网络需要大量的浮点性能和带宽以提高效率和速度。计算平台拥有数千个处理内核,针对矩阵数学运算进行了优化,并提供数十至数百TFLOPS的性能,可以提供基于深度神经网络的人工智能和机器学习应用程序所需的性能。
图7示出了根据各种实施例的可以用于对数据进行分类或生成推断的示例系统700。根据本文所包含的教导和建议,应当显而易见的是,也可以针对输入数据生成各种预测、标签或其他输出。此外,可以在本文讨论的各种实施例中使用有监督训练和无监督训练。在该示例中,提供一组经分类的数据702作为输入以用作训练数据。经分类的数据可以包括要训练的统计模型的至少一种类型的对象的实例,以及标识该类型的对象的信息。例如,经分类的数据可包括一组图像,每个图像都包含一种类型的对象的表示,其中每个图像还包含标签、元数据、分类或标识在各个图像中表示的对象类型的其他信息,或与之相关联。各种其他类型的数据也可以用作训练数据,并且可以包括文本数据、音频数据、视频数据等。在该示例中,经分类的数据702作为训练输入被提供给训练管理器704。训练管理器704可以是包括硬件和软件的系统或服务,例如执行训练应用的一个或更多个计算设备,用于训练统计模型。在该示例中,训练管理器704将接收指示将用于训练的模型类型的指令或请求。该模型可以是可用于此类目的的任何适当的统计模型、网络或算法,例如可以包括人工神经网络、深度学习算法、学习分类器、贝叶斯网络等。训练管理器704可以从适当的存储库706中选择基本模型或其他未训练的模型,并利用经分类的数据702来训练模型,从而生成可以用于对相似类型的数据进行分类的训练模型708。在不使用经分类数据的一些实施例中,仍然可以选择适当的基本模型,以由训练管理器对输入数据进行训练。
可以通过多种不同的方式来训练模型,这可部分取决于所选模型的类型。例如,在一个实施例中,可以向机器学习算法提供一组训练数据,其中模型是通过训练过程创建的模型伪像。训练数据的每个实例包含正确答案(例如,分类),其可以被称为目标或目标属性。学习算法在训练数据中找到将输入数据属性映射到目标的图案,要预测的答案,然后输出捕获这些图案的机器学习模型。然后可以使用机器学习模型来获得对未指定目标的新数据的预测。
在一个示例中,训练管理器可以从一组机器学习模型中进行选择,包括二进制分类、多类别分类和回归模型。要使用的模型的类型可以至少部分取决于要预测的目标的类型。用于二进制分类问题的机器学习模型可预测二进制结果,例如两个可能的类之一。学习算法(诸如逻辑回归)可用于训练二进制分类模型。针对多类别分类问题的机器学习模型允许对多个类别生成预测,例如预测两个以上结果之一。多项式逻辑回归对于训练多类模型可能很有用。回归问题的机器学习模型可预测数值。线性回归对于训练回归模型很有用。
为了训练根据一个实施例的机器学习模型,训练管理器必须确定输入的训练数据源以及其他信息,例如包含要预测的目标的数据属性的名称,所需的数据转换指令,以及训练参数以控制学习算法。在训练过程中,在一些实施例中,训练管理器可以基于训练数据源中指定的目标类型自动选择适当的学习算法。机器学习算法可以接受用于控制训练过程和所得机器学习模型的某些属性的参数。这些在本文中称为训练参数。如果未指定训练参数,则训练管理器可以利用已知的默认值来应对大量机器学习任务。可以指定其值的训练参数的示例包括最大模型大小、训练数据的最大传递(pass)次数、洗牌类型、正则化类型、学习率和正则化值。可以指定默认设置,并带有用于调整值以微调性能的选项。
最大模型大小是在训练模型期间创建的图案的总大小(以字节为单位)。默认情况下,可以创建指定大小的模型,例如100MB的模型。如果训练管理器无法确定足够的图案来填充模型大小,则可以创建较小的模型。如果训练管理器发现图案超出了指定尺寸所能容纳的,则可以通过修剪对学习模型的质量影响最小的图案来强制实施最大裁剪。选择模型大小可控制模型的预测质量与使用成本之间的权衡。较小的模型可能会导致训练管理器删除许多图案以适应最大尺寸限制,从而影响预测的质量。另一方面,较大的模型查询实时预测的成本可能更高。较大的输入数据集不一定会导致较大的模型,因为模型存储图案而不是输入数据;如果图案少且简单,则结果模型将很小。具有大量原始属性(输入列)或派生特征(数据转换的输出)的输入数据可能会在训练过程中找到并存储更多图案。
在一些实施例中,训练管理器可以对训练数据进行多次传递或迭代以发现图案。可以存在默认的传递次数,例如十次,而在一些实施例中,可以设置最大传递次数,例如高达一百次。在一些实施例中,可能没有最大集合,或者可能存在会触发训练过程结束的收敛或其他准则集合。在一些实施例中,训练管理器可以在训练期间监视图案的质量(即,模型收敛),并且当没有更多的数据点或图案需要发现时,可以自动停止训练。仅具有少量观察结果的数据集可能需要对数据进行更多传递以获得更高的模型质量。较大的数据集可包含许多相似的数据点,这可以减少对大量传递的需求。选择更多数据传递对数据的潜在影响是,模型训练可能需要更长的时间,并且在资源和系统利用率方面会花费更多。
在一些实施例中,在训练之前或在训练的传递之间对训练数据进行洗牌。在许多实施例中,洗牌是随机的或伪随机的洗牌,以产生真正的随机排序,但是可能存在一些约束以确保不存在某些类型的数据的分组,或如果存在这样的分组,则可能会重新洗牌已洗牌的数据等。洗牌改变了用于训练的数据的顺序或布置,以使训练算法不会遇到相似类型的数据或连续太多观察的单一类型数据的分组。例如,可以训练模型来预测产品类型,其中训练数据包括电影、玩具和视频游戏产品类型。上传之前,可能会按产品类型对数据进行排序。然后,该算法可以按产品类型的字母顺序处理数据,首先仅查看诸如电影之类的数据。该模型将开始学习电影的图案。然后,该模型将仅遇到不同产品类型(例如玩具)的数据,并将尝试调整模型以适合玩具产品类型,这可能会降低适合电影的图案。从电影类型到玩具类型的突然转换可能产生无法学习如何准确预测产品类型的模型。在一些实施例中,可以在将训练数据集划分为训练和评估子集之前执行洗牌,从而对于两个阶段都利用相对均匀的数据类型分布。在一些实施例中,训练管理器可以使用例如伪随机洗牌技术来自动洗牌数据。
当创建机器学习模型时,在一些实施例中,训练管理器可以使用户能够指定设置或应用定制选项。例如,用户可以指定一个或更多个评估设置,指示要保留的一部分输入数据,用于评估机器学习模型的预测质量。用户可以指定配方,该配方指示哪些属性和属性转换可用于模型训练。用户还可以指定控制训练过程和所得模型的某些属性的各种训练参数。
一旦训练管理器已确定完成了模型的训练,例如通过使用本文讨论的至少一个最终标准,就可以提供经训练的模型708,以供分类器714用于对未分类的数据712进行分类。然而,在许多实施例中,经训练的模型708将首先被传递到评估器710,评估器710可以包括在至少一个计算资源上执行的用于评估经训练的模型的质量(或另一个这样的方面)的应用或过程。对模型进行评估,以确定在预测新数据和未来数据上的目标时,该模型是否会至少提供最低可接受的或阈值水平的性能。由于将来的数据实例通常将具有未知的目标值,因此可能希望在已知目标答案的数据上检查机器学习的准确性度量,并将此评估用作未来数据的预测准确性的代理。
在一些实施例中,使用被提供用于训练的经分类的数据702的子集来评估模型。可以使用如上所讨论的洗牌方法和拆分方法来确定子集。该评估数据子集将用目标标记,因此可以作为评估的真实值的源。用与用于训练的数据相同的数据来评估机器学习模型的预测准确性是没有用的,因为对于记住训练数据而不是从中概括出来的模型可能会产生肯定的评估。一旦训练完成,则使用经训练的模型708来处理评估数据子集,并且评估器710可以通过将真实数据与模型的相应输出(或预测/观察)进行比较来确定模型的准确性。在一些实施例中,评估器710可以提供概要或性能度量,其指示预测值和真实值的匹配程度。如果经训练的模型不满足至少最小性能标准或其他这样的准确性阈值,则可以指示训练管理器704执行进一步的训练,或者在某些情况下,尝试训练新的或不同的模型以及其他选项。如果经训练的模型708满足相关标准,则可以提供经训练的模型以供分类器714使用。
当创建和训练机器学习模型时,在至少一些实施例中可能期望指定将导致能够进行最准确的预测的模型的模型设置或训练参数。示例参数包括要执行的传递数目(向前和/或向后)、正则化、模型大小和洗牌类型。但是,如上所述,选择对评估数据产生最佳预测性能的模型参数设置可能会导致模型过度拟合。当模型存储了在训练和评估数据源中出现的图案,但是未能概括出数据中的图案时,就会发生过度拟合。当训练数据包括评估中使用的所有数据时,经常会发生过度拟合。过度拟合的模型在评估期间可能会表现良好,但可能无法对新数据或未分类的数据做出准确的预测。为了避免选择过度拟合的模型作为最佳模型,训练管理器可以保留其他数据以验证模型的性能。例如,训练数据集可分为60%用于训练,40%用于评估或验证,可分为两个或更多阶段。在选择了最适合评估数据的模型参数之后,导致在验证数据的子集(例如一半的验证数据)上收敛,可以使用其余的验证数据执行第二次验证,以确保模型的性能。如果模型满足对验证数据的期望,则该模型不会过度拟合数据。备选地,可以使用测试集或保持集来测试参数。使用第二验证或测试步骤有助于选择适当的模型参数以防止过度拟合。但是,从训练过程中保留更多数据进行验证会使可用于训练的数据更少。对于较小的数据集,这可能会出现问题,因为可能没有足够的数据可用于训练。在这种情况下的一种方法是执行交叉验证,如本文其他地方所讨论的。
有许多度量或见解可用于审查和评估给定模型的预测准确性。一个示例评估结果包含预测准确性度量,以报告模型的总体成功以及可视化,以帮助探索超出预测准确性度量的模型准确性。结果还可以提供复核设置得分阈值(例如,针对二进制分类)的影响的能力,并且可以生成有关标准的警报以检查评估的有效性。度量和可视化的选择可以至少部分取决于被评估的模型的类型。
一旦训练和评估令人满意,就可以使用经训练的机器学习模型来构建或支持机器学习应用程序。在一个实施例中,构建机器学习应用程序是涉及一系列步骤的迭代过程。可以根据观察到的内容以及模型被预测到的答案来构筑核心机器学习问题。然后可以收集、清理和准备数据,以使这些数据适合通过机器学习模型训练算法使用。可以对数据进行可视化和分析,以运行完整性检查,以验证数据的质量并理解数据。原始数据(例如输入变量)和答案(例如目标)可能没有以可用于训练高度预测模型的方式表示。因此,可能希望从原始变量构建更具预测性的输入表示或特征。可以将所得到的特征馈送到学习算法中,以构建模型并根据从模型构建中保留的数据评估模型的质量。然后可以使用该模型生成用于新数据实例的目标答案的预测。
在图7的示例性系统700中,在评估之后,经训练的模型710被提供给分类器714或使分类器714可用,该分类器能够使用经训练的模型来处理未分类的数据。例如,这可以包括从未分类的用户或第三方接收到的数据,例如正在寻找有关这些图像中所表示内容的信息的查询图像。未分类的数据可以由分类器使用经训练的模型进行处理,并且所产生的结果716(即,分类或预测)可以被发送回各个源或者以其他方式被处理或存储。在一些实施例中,并且在允许这种使用的情况下,现在经分类的数据实例可以被存储到经分类的数据存储库,其可以被训练管理器用于经训练的模型708的进一步训练。在一些实施例中,当新数据可用时将对模型继续进行训练,但是在其他实施例中,将根据诸如数据集的大小或模型的复杂性等因素定期对模型进行再训练,例如每天或每周一次。
分类器可以包括适当的硬件和软件,用于使用经训练的模型处理未分类的数据。在某些情况下,分类器将包括一个或更多个计算机服务器,每个计算机服务器具有一个或更多个能够处理数据的图形处理单元(GPU)。与CPU或其他此类组件相比,GPU的配置和设计可使它们更适合用于处理机器学习数据。在一些实施例中,经训练的模型可以被加载到GPU存储器中,并且所接收的数据实例被提供给GPU以进行处理。GPU可以具有比CPU多得多的内核,并且GPU内核也可以简单得多。因此,给定的GPU可能够通过不同的硬件线程同时处理数千个数据实例。GPU也可以配置为最大化浮点吞吐量,这可以为大型数据集提供明显的附加处理优势。
即使在使用GPU、加速器和其他此类硬件来加速任务(例如模型训练或使用此类模型进行数据分类)时,此类任务仍可能需要大量时间、资源分配和成本。例如,如果要使用100个传递来训练机器学习模型,并且数据集包括要用于训练的1,000,000个数据实例,则针对每个传递都需要处理所有百万个实例。架构的不同部分也可以由不同类型的设备支持。例如,可以在逻辑上集中的位置处使用一组服务器来执行训练,如可以作为服务提供的那样,而原始数据的分类可以由这种服务执行或在客户端设备上来执行,等等。在各种实施例中,这些设备还可以由相同实体或多个实体拥有、操作或控制。
图8示出了根据各种实施例的可以利用的示例统计模型800。在该示例中,统计模型是人工神经网络(ANN),其包括多个节点层,包括输入层802、输出层806和中间节点的多个层804(通常称为“隐藏”层),因为内部层和节点在常规神经网络中通常不可见或不可访问。如本文其他地方所讨论的,还可以使用其他类型的统计模型,以及其他类型的神经网络,包括其他数量的节点和层选择等等。在该网络中,给定层的所有节点都互连到相邻层的所有节点。如图所示,中间层的节点然后将均连接到两个相邻层的节点。在某些模型中,节点也称为神经元或连接单元,节点之间的连接称为边缘。每个节点可以执行所接收到的输入的函数,例如通过使用指定的函数。节点和边缘在训练过程中可以获得不同的权重,并且节点的各个层可以对接收到的输入执行特定类型的转换,在训练过程中还可以学习或调整这些转换。该学习可以是有监督的学习,也可以是无监督的学习,这可能至少部分取决于训练数据集中包含的信息类型。可以利用各种类型的神经网络,例如可以包括卷积神经网络(CNN),其包括许多卷积层和一组池化层,并已被证明对诸如图像识别之类的应用程序是有益的。由于要确定的参数数量相对较少,因此CNN比其他网络也更易于训练。
在一些实施例中,可以使用各种调整参数来训练这种复杂的机器学习模型。选择参数、拟合模型和评估模型是模型调整过程的一部分,通常称为超参数优化。在至少一些实施例中,这种调整可以包括对基础模型或数据进行内省(introspect)。在训练或生产环境中,鲁棒的工作流程对于避免超参数的过度拟合非常重要,如本文其他地方所讨论的。交叉验证和向训练数据集添加高斯噪声是对于避免对任何一个数据集过度拟合有用的技术。对于超参数优化,在一些实施例中,可能希望保持训练集和验证集固定。在一些实施例中,可以在某些类别中调整超参数,例如可以包括数据预处理(换句话说,将单词转换为向量)、CNN架构定义(例如,滤波器大小、滤波器数量)、随机梯度下降参数(例如,学习率)和正则化(例如,丢弃概率)以及其他此类选项。
在示例预处理步骤中,可以将数据集的实例嵌入到某些大小的较低维空间中。这个空间的大小是要调整的参数。CNN的架构包含许多可调参数。过滤器大小的参数可以表示信息的解释,该信息对应于将要分析的实例的大小。在计算语言学中,这称为n-gram(n元模型)大小。示例CNN使用三种不同的过滤器大小,它们代表了可能不同的n-gram大小。每个过滤器尺寸的过滤器数量可以对应于过滤器的深度。每个过滤器都尝试学习与实例结构不同的内容,例如文本数据的句子结构。在卷积层中,激活函数可以是整流线性单元,并且池化类型设置为最大池化。然后可以将结果级联成一维向量,最后一层完全连接到二维输出上。这对应于可以应用优化函数的二进制分类。一种这样的函数是梯度下降的均方根(RMS)传播方法的实现,其中示例超参数可以包括学习率、批大小、最大梯度法线和时期(epoch)。对于神经网络而言,正则化可能是非常重要的考虑因素。如上所述,在一些实施例中,输入数据可以是相对稀疏的。在这种情况下,主要的超参数可能是倒数第二层的丢弃,这表示在每个训练周期中不会“触发(fire)”的节点的比例。示例训练过程可以基于对先前配置的性能的反馈来建议不同的超参数配置。可以使用建议的配置来训练模型,在指定的验证集上评估模型,然后报告性能。可以重复此过程,例如权衡探索(了解更多有关不同配置的信息)和开发(利用先前的知识以获得更好的结果)。
由于可以将训练CNN并行化并可以利用启用GPU的计算资源,因此可以针对不同的场景尝试多种优化策略。复杂的场景允许调整模型架构以及预处理和随机梯度下降参数。这扩展了模型配置空间。在基本情况下,仅调整预处理和随机梯度下降参数。与基本方案相比,在复杂方案中可以有更多的配置参数。可以使用线性或指数步数执行联合空间中的调整,并通过模型的优化循环进行迭代。此类调整过程的成本可以大大低于调整过程(诸如随机搜索和网格搜索),而不会造成任何明显的性能损失。
一些实施例可以利用反向传播来计算用于确定神经网络的权重的梯度。反向传播是微分的一种形式,如上所述,梯度下降优化算法可以使用它来调整应用于各个节点或神经元的权重。在一些实施例中,可以使用相关损失函数的梯度来确定权重。反向传播可以利用损失函数相对于统计模型生成的输出的导数。如上所述,各个节点可以具有关联的激活函数,这些激活函数定义了各个节点的输出。可以适当地使用各种激活函数,例如可以包括径向基函数(RBF)和sigmoid函数,这些函数可以被各种支持向量机(SVM)用来转换数据。节点的中间层的激活函数在本文中称为内积内核。这些函数可以包括例如恒等函数、阶跃函数、sigmoid函数、斜坡函数等。激活函数也可以是线性的或非线性的,等等。
图9示出了可用于实现各种实施例的各方面的计算设备900的一组基本组件。在该示例中,该设备包括至少一个处理器902,用于执行可以存储在存储设备或元件904中的指令。对于本领域的普通技术人员显而易见的是,该设备可以包括许多类型的存储器、数据存储器或计算机可读介质,例如用于程序指令的第一数据存储器,程序指令由处理器902执行;相同或单独的存储器可用于图像或数据;可移除存储器可用于与其他设备共享信息;以及任何数量的通信方法都可用于与其他设备共享。该设备通常将包括某种类型的显示元素906,例如触摸屏、有机发光二极管(OLED)或液晶显示器(LCD),尽管设备(诸如便携式媒体播放器)可能会通过其他方式(例如通过音频扬声器)传达信息。如所讨论的,在许多实施例中,设备将至少包括通信组件908和/或网络组件910,诸如可以支持通过至少一个网络(诸如因特网、局域网(LAN)、或蜂窝网络等等)的有线或无线通信。这些组件可以使设备能够与远程系统或服务进行通信。该设备还可以包括至少一个能够从用户接收常规输入的附加输入设备912。该常规输入可以包括例如按钮、触摸板、触摸屏、轮子、操纵杆、键盘、鼠标、轨迹球、小键盘或任何其他这样的设备或元件,由此用户可以向该设备输入命令。在一些实施例中,这些I/O设备甚至可以通过无线红外或蓝牙或其他链路连接。然而,在一些实施例中,这样的设备可能根本不包括任何按钮,并且可能仅通过视觉和音频命令的组合来控制,使得用户可以控制该设备而不必与该设备接触。
可以在各种各样的操作环境中实现各种实施例,在某些情况下,这些操作环境可以包括一个或更多个用户计算机或计算设备,其可以用于操作许多应用中的任何一个。用户或客户端设备可以包括许多通用个人计算机中的任何一个,例如运行标准操作系统的台式或便携式计算机,以及运行移动软件并能够支持许多联网和消息传递协议的蜂窝、无线和手持设备。这样的系统还可以包括多个工作站,这些工作站运行各种商业上可用的操作系统和其他已知应用中的任何一种,以用于诸如开发和数据库管理之类的目的。这些设备还可以包括其他电子设备,例如虚拟终端、瘦客户端、游戏系统和其他能够通过网络进行通信的设备。
大多数实施例利用本领域技术人员将熟悉的至少一个网络来支持使用各种商业上可用的协议中的任何一种的通信,例如TCP/IP或FTP。该网络可以是例如局域网、广域网、虚拟专用网、因特网、内联网、外联网、公共电话交换网、红外网、无线网及其任意组合。在利用Web服务器的实施例中,Web服务器可以运行各种服务器或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、数据服务器、Java服务器和业务应用程序服务器。一个或更多个服务器还能够执行来自用户设备的响应请求中的程序或脚本,例如通过执行一个或更多个Web应用程序,该Web应用程序可以实现为以任何编程语言(例如C、C#或C++),或任何脚本语言(例如Python)及其组合编写的一个或更多个脚本或程序。一个或更多个服务器还可以包括数据库服务器,数据库服务器包括但不限于可从和/>商业获得的那些服务器。
如上所述,环境可以包括各种数据存储以及其他存储器和存储介质。这些可以驻留在各种位置,例如位于一个或更多个计算机本地(和/或驻留在其中)或远离网络中任何或所有计算机的存储介质上。在一组特定的实施例中,信息可以驻留在本领域技术人员熟悉的存储区域网络(SAN)中。类似地,可以适当地在本地和/或远程存储用于执行归因于计算机、服务器或其他网络设备的功能的任何必要文件。在系统包括计算机化设备的情况下,每个这样的设备可以包括可以经由总线电耦合的硬件元件,这些元件包括例如至少一个中央处理单元(CPU)、至少一个输入设备(例如,鼠标、键盘、控制器、触敏显示元件或小键盘)和至少一个输出设备(例如,显示设备、打印机或扬声器)。这样的系统还可以包括一个或更多个存储设备,例如磁盘驱动器、光学存储设备和固态存储设备,例如随机存取存储器(RAM)或只读存储器(ROM),以及可移除媒体设备、存储卡、闪存卡等。
这样的设备还可以包括如上所述的计算机可读存储介质读取器、通信设备(例如,调制解调器、网卡(无线或有线的)、红外通信设备)和工作存储器。计算机可读存储介质读取器可以与代表远程、本地、固定和/或可移除存储设备的计算机可读存储介质以及用于临时和/或更永久地包含、存储、传输和检索计算机可读信息的存储介质连接或配置为接收该计算机可读存储介质。该系统和各种设备通常还将包括位于至少一个工作存储设备内的多个软件应用程序、模块、服务或其他元素,包括操作系统和诸如客户端应用程序或Web浏览器之类的应用程序。应当理解,替代实施例可以具有上述实施例各种变化。例如,也可以使用定制的硬件和/或可以以硬件、软件(包括便携式软件,例如小应用程序)或两者实现特定元件。此外,可以采用到诸如网络输入/输出设备的其他计算设备的连接。
用于包含代码或代码部分的存储介质和其他非暂时性计算机可读介质可以包括本领域已知或使用的任何适当介质,例如但不限于以任何方法或技术实现的用于存储信息(例如计算机可读指令、数据结构、程序模块或其他数据)的易失性和非易失性、可移除和不可移除的介质,包括RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光学存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备或任何其他可用于存储所需信息并可由系统设备访问的介质。基于本文提供的公开和教导,本领域普通技术人员将理解实现各种实施例的其他方式和/或方法。
因此,应以说明性而非限制性的意义来看待说明书和附图。但是,很明显,在不脱离权利要求书所提出的本发明的更广泛精神和范围的前提下,可以对其做出各种修改和改变。

Claims (20)

1.一种计算机实现的方法,包括:
接收将图像空间分离为与相应的语义标签相关联的两个区域的边界输入,所述相应的语义标签指示图像内容的相应类型;
生成表示具有所述相应的语义标签的所述两个区域的语义分割掩码;
提供所述语义分割掩码作为经训练的图像合成网络的输入,所述经训练的图像合成网络包括空间自适应归一化层,所述空间自适应归一化层被配置为在所述经训练的图像合成网络的其他层中传播来自所述语义分割掩码的语义信息;
从所述经训练的图像合成网络接收所述图像空间的多个像素位置的值推断,所述多个像素位置对应于与那些像素位置相关联的所述区域的图像内容的所述相应类型;以及
使用所述值推断渲染来自所述图像空间的基本逼真图像,所述逼真图像包括由所述边界输入定义的所述区域的所述类型的图像内容。
2.根据权利要求1所述的计算机实现的方法,还包括:
由所述空间自适应归一化层通过空间自适应变换来调制一组激活,以便在所述经训练的图像合成网络的所述其他层中传播所述语义信息。
3.根据权利要求1所述的计算机实现的方法,其中所述空间自适应归一化层是条件归一化层,并且还包括:
由所述空间自适应归一化层将层激活归一化为零均值;以及
使用仿射变换将经归一化的层激活反归一化以调制激活。
4.根据权利要求1所述的计算机实现的方法,其中所述经训练的图像合成网络包括生成对抗网络(GAN),所述生成对抗网络包括生成器和鉴别器。
5.根据权利要求1所述的计算机实现的方法,还包括:
从所述两个区域的第一区域的图像内容的所述类型的多个内容选项中选择所述第一区域的内容来生成。
6.一种计算机实现的方法,包括:
接收指示图像的数字表示的两个区域的语义布局;以及
使用神经网络至少部分地基于所接收的语义布局来推断基本逼真图像,其中所述神经网络包括至少一个空间自适应归一化层以将来自所述语义布局的信息进行归一化。
7.根据权利要求6所述的计算机实现的方法,还包括:
确定与所述两个区域相关联的语义标签,所述语义标签指示图像内容的相应类型;以及
生成所述基本逼真图像的所述两个区域的所述相应类型的图像内容的表示。
8.根据权利要求7所述的计算机实现的方法,还包括:
接收将图像空间分离为所述两个区域的边界输入;
接收与所述两个区域相关联的语义标签的指示;以及
生成表示具有所述语义标签的所述两个区域的所述语义布局。
9.根据权利要求8所述的计算机实现的方法,还包括:
从与所述语义标签相关联的类型的图像内容的多个内容选项中选择两个区域的内容来推断。
10.根据权利要求6所述的计算机实现的方法,其中所述至少一个空间自适应归一化层是条件层,其被配置为在所述神经网络的其他层中传播来自所述语义布局的语义信息。
11.根据权利要求10所述的计算机实现的方法,还包括:
由所述空间自适应归一化层通过空间自适应变换来调制一组激活,以便在所述神经网络的所述其他层中传播所述语义信息。
12.根据权利要求6所述的计算机实现的方法,还包括:
由所述空间自适应归一化层将层激活归一化为零均值;以及
使用仿射变换将经归一化的层激活反归一化以调制激活。
13.根据权利要求12所述的计算机实现的方法,其中所述反归一化使用所述两个区域的不同归一化参数值。
14.根据权利要求6所述的计算机实现的方法,其中所述神经网络是包括生成器和鉴别器的生成对抗网络(GAN)。
15.一种系统,包括:
至少一个处理器;和
包含指令的存储器,所述指令在由所述至少一个处理器执行时,使所述系统:
接收指示图像的数字表示的两个区域的语义布局;以及
使用神经网络至少部分地基于所接收的语义布局来推断基本逼真图像,其中所述神经网络包括至少一个空间自适应归一化层,以将来自所述语义布局的信息进行归一化。
16.根据权利要求15所述的系统,其中所述指令在被执行时还使所述系统:
确定与所述两个区域相关联的语义标签,所述语义标签指示图像内容的相应类型;以及
生成所述基本逼真图像的所述两个区域的所述相应类型的图像内容的表示。
17.根据权利要求15所述的系统,其中所述指令在被执行时还使所述系统:
接收将图像空间分离为所述两个区域的边界输入;
接收要与所述两个区域相关联的语义标签的指示;以及
生成表示具有所述语义标签的所述两个区域的所述语义布局。
18.根据权利要求15所述的系统,其中所述至少一个空间自适应归一化层是条件层,其被配置为在所述神经网络的其他层中传播来自所述语义布局的语义信息。
19.根据权利要求18所述的系统,其中所述指令在被执行时还使所述系统:
由所述空间自适应归一化层通过空间自适应变换来调制一组激活,以便在所述神经网络的所述其他层中传播所述语义信息。
20.根据权利要求15所述的系统,其中所述指令在被执行时还使所述系统:
由所述空间自适应归一化层将层激活归一化为零均值;以及
使用仿射变换将经归一化的层激活反归一化以调制激活。
CN202010074261.3A 2019-01-25 2020-01-22 用于使用神经网络生成基本逼真图像的语义图像合成 Active CN111489412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410185105.2A CN118172460A (zh) 2019-01-25 2020-01-22 用于使用神经网络生成基本逼真图像的语义图像合成

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/258,322 US20200242771A1 (en) 2019-01-25 2019-01-25 Semantic image synthesis for generating substantially photorealistic images using neural networks
US16/258,322 2019-01-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202410185105.2A Division CN118172460A (zh) 2019-01-25 2020-01-22 用于使用神经网络生成基本逼真图像的语义图像合成

Publications (2)

Publication Number Publication Date
CN111489412A CN111489412A (zh) 2020-08-04
CN111489412B true CN111489412B (zh) 2024-02-09

Family

ID=68944239

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202410185105.2A Pending CN118172460A (zh) 2019-01-25 2020-01-22 用于使用神经网络生成基本逼真图像的语义图像合成
CN202010074261.3A Active CN111489412B (zh) 2019-01-25 2020-01-22 用于使用神经网络生成基本逼真图像的语义图像合成

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202410185105.2A Pending CN118172460A (zh) 2019-01-25 2020-01-22 用于使用神经网络生成基本逼真图像的语义图像合成

Country Status (3)

Country Link
US (2) US20200242771A1 (zh)
EP (1) EP3686848A1 (zh)
CN (2) CN118172460A (zh)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210110554A1 (en) * 2019-10-14 2021-04-15 Duelight Llc Systems, methods, and computer program products for digital photography using a neural network
US11514330B2 (en) * 2019-01-14 2022-11-29 Cambia Health Solutions, Inc. Systems and methods for continual updating of response generation by an artificial intelligence chatbot
US11580673B1 (en) * 2019-06-04 2023-02-14 Duke University Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis
KR102225022B1 (ko) * 2019-08-27 2021-03-08 연세대학교 산학협력단 사람 재식별 장치 및 방법
EP3798917A1 (en) * 2019-09-24 2021-03-31 Naver Corporation Generative adversarial network (gan) for generating images
CA3154698A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited High fidelity speech synthesis with adversarial networks
US11380033B2 (en) * 2020-01-09 2022-07-05 Adobe Inc. Text placement within images using neural networks
US11694089B1 (en) * 2020-02-04 2023-07-04 Rockwell Collins, Inc. Deep-learned photorealistic geo-specific image generator with enhanced spatial coherence
US11354792B2 (en) * 2020-02-07 2022-06-07 Adobe Inc. System and methods for modeling creation workflows
US20210334975A1 (en) * 2020-04-23 2021-10-28 Nvidia Corporation Image segmentation using one or more neural networks
US11393077B2 (en) 2020-05-13 2022-07-19 Adobe Inc. Correcting dust and scratch artifacts in digital images
US11386589B2 (en) * 2020-08-04 2022-07-12 Ping An Technology (Shenzhen) Co., Ltd. Method and device for image generation and colorization
CN112233012B (zh) * 2020-08-10 2023-10-31 上海交通大学 一种人脸生成系统及方法
CN112215868B (zh) * 2020-09-10 2023-12-26 湖北医药学院 基于生成对抗网络的去除手势图像背景的方法
CN112132197B (zh) * 2020-09-15 2024-07-09 腾讯科技(深圳)有限公司 模型训练、图像处理方法、装置、计算机设备和存储介质
CN112102303B (zh) * 2020-09-22 2022-09-06 中国科学技术大学 基于单图像生成对抗网络的语义图像类比方法
US11158096B1 (en) * 2020-09-29 2021-10-26 X Development Llc Topology optimization using straight-through estimators
US20220108417A1 (en) * 2020-10-01 2022-04-07 Nvidia Corporation Image generation using one or more neural networks
US11880766B2 (en) 2020-10-16 2024-01-23 Adobe Inc. Techniques for domain to domain projection using a generative model
CN113393545A (zh) * 2020-11-05 2021-09-14 腾讯科技(深圳)有限公司 一种图像动漫化处理方法、装置、智能设备和存储介质
CN116670687A (zh) * 2020-11-16 2023-08-29 华为云计算技术有限公司 用于调整训练后的物体检测模型以适应域偏移的方法和系统
CN112488967B (zh) * 2020-11-20 2024-07-09 中国传媒大学 基于室内场景的对象和场景合成方法及系统
CN112734881B (zh) * 2020-12-01 2023-09-22 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN112581929B (zh) * 2020-12-11 2022-06-03 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音私密度掩蔽信号生成方法及系统
US11425121B2 (en) 2020-12-15 2022-08-23 International Business Machines Corporation Generating an evaluation-mask for multi-factor authentication
US11854203B1 (en) * 2020-12-18 2023-12-26 Meta Platforms, Inc. Context-aware human generation in an image
EP4205394A4 (en) * 2020-12-24 2023-11-01 Huawei Technologies Co., Ltd. DECODING WITH SIGNALING OF SEGMENTATION INFORMATION
CN112802165B (zh) * 2020-12-31 2024-07-30 珠海剑心互动娱乐有限公司 游戏场景积雪渲染方法、装置及介质
CN112767377B (zh) * 2021-01-27 2022-07-05 电子科技大学 一种级联医学图像增强方法
CN112734789A (zh) * 2021-01-28 2021-04-30 重庆兆琨智医科技有限公司 一种基于半监督学习和点渲染的图像分割方法及系统
CN112818997B (zh) * 2021-01-29 2024-10-18 北京迈格威科技有限公司 图像合成方法、装置、电子设备及计算机可读存储介质
US20220292650A1 (en) * 2021-03-15 2022-09-15 Adobe Inc. Generating modified digital images using deep visual guided patch match models for image inpainting
US11620737B2 (en) 2021-03-22 2023-04-04 Samsung Electronics Co., Ltd. System and method for indoor image inpainting under multimodal structural guidance
CN112927219B (zh) * 2021-03-25 2022-05-13 支付宝(杭州)信息技术有限公司 一种图像的检测方法、装置及设备
US11550991B2 (en) * 2021-03-29 2023-01-10 Capital One Services, Llc Methods and systems for generating alternative content using adversarial networks implemented in an application programming interface layer
US11636570B2 (en) * 2021-04-01 2023-04-25 Adobe Inc. Generating digital images utilizing high-resolution sparse attention and semantic layout manipulation neural networks
CN113052840B (zh) * 2021-04-30 2024-02-02 江苏赛诺格兰医疗科技有限公司 一种基于低信噪比pet图像的处理方法
US11720994B2 (en) * 2021-05-14 2023-08-08 Lemon Inc. High-resolution portrait stylization frameworks using a hierarchical variational encoder
US20220398004A1 (en) * 2021-06-10 2022-12-15 Nvidia Corporation User Interfaces and Methods for Generating a New Artifact Based on Existing Artifacts
US11435885B1 (en) 2021-06-10 2022-09-06 Nvidia Corporation User interfaces and methods for generating a new artifact based on existing artifacts
CN113393410A (zh) * 2021-07-26 2021-09-14 浙江大华技术股份有限公司 一种图像融合方法、装置、电子设备及存储介质
US20230045076A1 (en) * 2021-07-29 2023-02-09 Nvidia Corporation Conditional image generation using one or more neural networks
CN113591771B (zh) * 2021-08-10 2024-03-08 武汉中电智慧科技有限公司 一种多场景配电室物体检测模型的训练方法和设备
CN113707275B (zh) * 2021-08-27 2023-06-23 郑州铁路职业技术学院 基于大数据分析的心理健康估计方法及系统
CN113762271B (zh) * 2021-09-09 2024-06-25 河南大学 基于不规则卷积核神经网络模型的sar图像语义分割方法和系统
EP4164221A1 (en) * 2021-10-07 2023-04-12 iSize Limited Processing image data
WO2023067603A1 (en) * 2021-10-21 2023-04-27 Ramot At Tel-Aviv University Ltd. Semantic blending of images
KR20230073751A (ko) 2021-11-19 2023-05-26 한국전자통신연구원 레이아웃 기반의 동일 화풍 영상 생성 시스템 및 방법
US20230237719A1 (en) * 2022-01-27 2023-07-27 Adobe Inc. Content linting in graphic design documents
US12033251B2 (en) * 2022-01-27 2024-07-09 Adobe Inc. Automatically generating semantic layers in a graphic design document
US20230274535A1 (en) * 2022-02-25 2023-08-31 Adobe Inc. User-guided image generation
US12106428B2 (en) * 2022-03-01 2024-10-01 Google Llc Radiance fields for three-dimensional reconstruction and novel view synthesis in large-scale environments
CN114820685B (zh) * 2022-04-24 2023-01-31 清华大学 独立图层生成对抗网络的生成方法及装置
US12062144B2 (en) 2022-05-27 2024-08-13 Snap Inc. Automated augmented reality experience creation based on sample source and target images
US20240233304A9 (en) * 2022-10-21 2024-07-11 Valeo Schalter und Snsoren GmbH Methods and systems for removing objects from view using machine learning
CN115546589B (zh) * 2022-11-29 2023-04-07 浙江大学 一种基于图神经网络的图像生成方法
US20240264718A1 (en) * 2023-02-08 2024-08-08 Sony Interactive Entertainment Inc. Cascading throughout an image dynamic user feedback responsive to the ai generated image
US11861884B1 (en) * 2023-04-10 2024-01-02 Intuit, Inc. Systems and methods for training an information extraction transformer model architecture
US11893713B1 (en) * 2023-04-28 2024-02-06 Intuit, Inc. Augmented diffusion inversion using latent trajectory optimization
CN116542891B (zh) * 2023-05-12 2024-06-21 广州民航职业技术学院 一种高分辨率飞机蒙皮表面损伤图像合成方法及系统
CN116935388B (zh) * 2023-09-18 2023-11-21 四川大学 一种皮肤痤疮图像辅助标注方法与系统、分级方法与系统
CN117422732B (zh) * 2023-12-18 2024-02-23 湖南自兴智慧医疗科技有限公司 病理学图像分割方法及装置
KR102713202B1 (ko) * 2024-03-27 2024-10-04 주식회사 드래프타입 생성형 인공지능을 이용한 커스텀 모델 생성 서비스를 제공하는 서버, 시스템, 방법 및 프로그램
KR102713235B1 (ko) * 2024-03-27 2024-10-04 주식회사 드래프타입 동일 이미지 생성을 위한 인공지능 학습데이터 구축 서버, 시스템, 방법 및 프로그램
CN118072149B (zh) * 2024-04-18 2024-08-06 武汉互创联合科技有限公司 胚胎细胞滑面内质网目标检测方法及终端
CN118552811B (zh) * 2024-07-30 2024-10-29 杭州长望智创科技有限公司 一种目标检测数据集生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971163A (zh) * 2014-05-09 2014-08-06 哈尔滨工程大学 一种基于归一化最小均方自适应滤波的自适应学习率小波神经网络控制方法
CN106980868A (zh) * 2016-01-15 2017-07-25 奥多比公司 用于具有多个文本标签的图像的嵌入空间
US10157332B1 (en) * 2016-06-06 2018-12-18 A9.Com, Inc. Neural network-based image manipulation

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873812B2 (en) * 2012-08-06 2014-10-28 Xerox Corporation Image segmentation using hierarchical unsupervised segmentation and hierarchical classifiers
KR102130162B1 (ko) * 2015-03-20 2020-07-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인공 신경망들에 대한 관련성 스코어 할당
CN107430677B (zh) * 2015-03-20 2022-04-12 英特尔公司 基于对二进制卷积神经网络特征进行提升的目标识别
US10325202B2 (en) * 2015-04-28 2019-06-18 Qualcomm Incorporated Incorporating top-down information in deep neural networks via the bias term
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
US10282663B2 (en) * 2015-08-15 2019-05-07 Salesforce.Com, Inc. Three-dimensional (3D) convolution with 3D batch normalization
US11029949B2 (en) * 2015-10-08 2021-06-08 Shanghai Zhaoxin Semiconductor Co., Ltd. Neural network unit
US9858525B2 (en) * 2015-10-14 2018-01-02 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
US11568627B2 (en) * 2015-11-18 2023-01-31 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
US10225511B1 (en) * 2015-12-30 2019-03-05 Google Llc Low power framework for controlling image sensor mode in a mobile image capture device
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
US9846840B1 (en) * 2016-05-25 2017-12-19 Adobe Systems Incorporated Semantic class localization in images
US20180005111A1 (en) * 2016-06-30 2018-01-04 International Business Machines Corporation Generalized Sigmoids and Activation Function Learning
US10929977B2 (en) * 2016-08-25 2021-02-23 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US11024009B2 (en) * 2016-09-15 2021-06-01 Twitter, Inc. Super resolution using a generative adversarial network
US10510146B2 (en) * 2016-10-06 2019-12-17 Qualcomm Incorporated Neural network for image processing
WO2018081537A1 (en) * 2016-10-31 2018-05-03 Konica Minolta Laboratory U.S.A., Inc. Method and system for image segmentation using controlled feedback
US10176388B1 (en) * 2016-11-14 2019-01-08 Zoox, Inc. Spatial and temporal information for semantic segmentation
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
WO2018165279A1 (en) * 2017-03-07 2018-09-13 Mighty AI, Inc. Segmentation of images
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US10867416B2 (en) * 2017-03-10 2020-12-15 Adobe Inc. Harmonizing composite images using deep learning
KR102302725B1 (ko) * 2017-03-17 2021-09-14 매직 립, 인코포레이티드 룸 레이아웃 추정 방법들 및 기술들
US10496699B2 (en) * 2017-03-20 2019-12-03 Adobe Inc. Topic association and tagging for dense images
JP2018173814A (ja) * 2017-03-31 2018-11-08 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
US10402689B1 (en) * 2017-04-04 2019-09-03 Snap Inc. Generating an image mask using machine learning
JP6802756B2 (ja) * 2017-05-18 2020-12-16 株式会社デンソーアイティーラボラトリ 認識システム、共通特徴量抽出ユニット、及び認識システム構成方法
US20180336454A1 (en) * 2017-05-19 2018-11-22 General Electric Company Neural network systems
US11669718B2 (en) * 2017-05-23 2023-06-06 Intel Corporation Methods and apparatus for discriminative semantic transfer and physics-inspired optimization of features in deep learning
US11468286B2 (en) * 2017-05-30 2022-10-11 Leica Microsystems Cms Gmbh Prediction guided sequential data learning method
US10565758B2 (en) * 2017-06-14 2020-02-18 Adobe Inc. Neural face editing with intrinsic image disentangling
US10922871B2 (en) * 2018-01-19 2021-02-16 Bamtech, Llc Casting a ray projection from a perspective view
US10671855B2 (en) * 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
US10909401B2 (en) * 2018-05-29 2021-02-02 Sri International Attention-based explanations for artificial intelligence behavior
CN108921283A (zh) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 深度神经网络的归一化方法和装置、设备、存储介质
US11188799B2 (en) * 2018-11-12 2021-11-30 Sony Corporation Semantic segmentation with soft cross-entropy loss
US10426442B1 (en) * 2019-06-14 2019-10-01 Cycle Clarity, LLC Adaptive image processing in assisted reproductive imaging modalities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971163A (zh) * 2014-05-09 2014-08-06 哈尔滨工程大学 一种基于归一化最小均方自适应滤波的自适应学习率小波神经网络控制方法
CN106980868A (zh) * 2016-01-15 2017-07-25 奥多比公司 用于具有多个文本标签的图像的嵌入空间
US10157332B1 (en) * 2016-06-06 2018-12-18 A9.Com, Inc. Neural network-based image manipulation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Collaging on Internal Representations: An Intuitive Approach for Semantic Transfiguration;Suzuki R , Koyama M , Miyato T, et al.;ArXiv;第1-16页 *
Park T , Liu M Y , Wang T C ,et al..Semantic Image Synthesis with Spatially-Adaptive Normalization.arXiv.2019,第1903.07291卷2337-2346. *
Stable and Controllable Neural Texture Synthesis and Style Transfer Using Histogram Losses;Risser E , Wilmot P , Barnes C;ArXiv;第1-14页 *

Also Published As

Publication number Publication date
EP3686848A1 (en) 2020-07-29
US20200242774A1 (en) 2020-07-30
CN118172460A (zh) 2024-06-11
CN111489412A (zh) 2020-08-04
US20200242771A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
CN111489412B (zh) 用于使用神经网络生成基本逼真图像的语义图像合成
US20190279075A1 (en) Multi-modal image translation using neural networks
US20240303494A1 (en) Method for few-shot unsupervised image-to-image translation
US20210142491A1 (en) Scene embedding for visual navigation
US11620330B2 (en) Classifying image styles of images based on image style embeddings
EP3886037B1 (en) Image processing apparatus and method for style transformation
KR20200028330A (ko) 네트워크 연산 에지 전반에 걸쳐 연속적으로 애플리케이션을 작동하는 딥 러닝과 인공 지능에서 지속적인 메모리 기반 학습을 가능하게 하는 시스템 및 방법
CN108122264A (zh) 促进草图到绘画变换
US11816185B1 (en) Multi-view image analysis using neural networks
US20220114289A1 (en) Computer architecture for generating digital asset representing footwear
KR102363370B1 (ko) UX-bit 및 몬테카를로 트리 탐색을 이용한 자동 디자인 생성 인공신경망 장치 및 방법
Sikka Elements of Deep Learning for Computer Vision: Explore Deep Neural Network Architectures, PyTorch, Object Detection Algorithms, and Computer Vision Applications for Python Coders (English Edition)
US11842468B2 (en) Synthesizing digital images utilizing image-guided model inversion of an image classifier
CN118710782A (zh) 利用端到端机器学习模型的动画面部表情和姿势转移
Menai Recognizing the artistic style of fine art paintings with deep learning for an augmented reality application
Bernardi Interactive image segmentation using graph transduction games
US20240169630A1 (en) Synthesizing shadows in digital images utilizing diffusion models
US12086901B2 (en) Generating digital paintings utilizing an intelligent painting pipeline for improved brushstroke sequences
US20240135611A1 (en) Neural compositing by embedding generative technologies into non-destructive document editing workflows
Montagud Cenalmor Avatar customization using deep learning’s style transfer technology
Reddy et al. Automated Image Colorization using Machine Learning Algorithms
CN117911581A (zh) 将生成式技术嵌入非破坏性文档编辑工作流中的神经合成
Ilo Weather Image Generation using a Generative Adversarial Network
CN117853612A (zh) 利用人类修复模型生成经修改的数字图像
CN117808831A (zh) 医学图像分割方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant