CN110226172B

CN110226172B - 将源域图像变换为目标域图像

Info

Publication number: CN110226172B
Application number: CN201680092033.0A
Authority: CN
Inventors: D.克里希南; D.埃哈恩; D.M.多哈恩; N.西尔伯曼; K.布斯马利斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2024-02-02
Anticipated expiration: 2036-12-15
Also published as: JP6957624B2; US20190304065A1; CN110226172A; EP3555812A1; JP2020502665A; WO2018109505A1; EP3555812B1; US10991074B2

Abstract

用于使用图像处理神经网络系统处理图像的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。系统中的一个包括由一个或多个计算机实施的域变换神经网络，其中域变换神经网络被配置为：从源域接收输入图像；和处理包括来自源域的输入图像的网络输入以生成作为输入图像从源域到不同于源域的目标域的变换的变换图像。

Description

将源域图像变换为目标域图像

背景技术

本说明书涉及通过神经网络的层处理图像数据以生成输出。

神经网络是采用一层或多层非线性单元来预测针对所接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层(即下一个隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从所接收的输入中生成输出。

发明内容

总体上，本说明书描述了域变换神经网络，该域变换神经网络由一个或多个计算机实施，并且接收来自源域的图像和噪声向量并处理该来自源域的图像和该噪声向量以将图像变换成来自目标域的图像。

一个或多个计算机的系统被配置为执行特定的操作或动作，意味着系统已经在其上安装了在操作中使得系统执行操作或动作的软件、固件、硬件或它们的组合。对于被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理装置运行时使得该装置执行操作或动作。

这里描述了一种系统，该系统包括由一个或多个计算机实施的域变换神经网络，其中该域变换神经网络被配置为：从源域接收输入图像；接收噪声向量；并且处理包括来自源域的输入图像和噪声向量的网络输入以生成作为输入图像从源域到不同于源域的目标域的变换的变换图像。

噪声向量可以包括预定数量的噪声值。噪声向量可以是包括预定数量噪声值的向量。每个噪声值从相应的均匀分布中采样。输入图像可以包括多个通道，每个通道具有特定分辨率，并且域变换神经网络可以包括：组合子神经网络，被配置为：处理噪声向量以生成具有特定分辨率的附加通道；以及连接输入图像和附加通道以生成组合输入。域变换神经网络还可以包括：卷积子神经网络，被配置为：处理组合输入以生成变换图像。处理组合输入以生成变换图像可以包括将多个分辨率保持卷积应用于组合输入或网络输入。卷积子神经网络可以包括多个剩余块，每个剩余块包括相应的多个分辨率保持卷积层。目标域可以是现实世界环境的图像，并且源域是现实世界环境的模拟的图像。

这里还公开了一种系统，该系统包括由一个或多个计算机实施的域变换神经网络，其中该域变换神经网络被配置为：从源域接收输入图像，其中源域是现实世界环境的模拟的图像；以及处理包括来自源域的输入图像的网络输入，以生成作为输入图像从源域到目标域的变换的变换图像，其中目标域是现实世界环境的图像。

域变换神经网络还可以被配置为：接收噪声向量，并且网络输入还可以包括噪声向量。噪声向量是可以包括预定数量噪声值的向量。每个噪声值可以从相应的均匀分布中采样。输入图像可以包括多个通道，每个通道具有特定分辨率，并且域变换神经网络可以包括：组合子神经网络，被配置为：处理噪声向量以生成具有特定分辨率的附加通道；以及连接输入图像和附加通道以生成组合输入。域变换神经网络可以包括：卷积子神经网络，被配置为：处理网络输入或组合输入以生成变换图像。处理网络输入或组合输入以生成变换图像可以包括将多个分辨率保持卷积应用于组合输入或网络输入。卷积子神经网络可以包括多个剩余块，每个剩余块包括相应的多个分辨率保持卷积层。

这里还公开了一种训练域变换神经网络的方法，该方法包括：接收标记的训练源域图像；接收未标记的训练目标域图像；以及在标记的训练源域图像和未标记的训练目标域图像上训练域变换神经网络以生成变换图像，同时训练鉴别器神经网络以区分目标域图像和由域变换神经网络生成的变换图像。

训练可以包括：通过在执行第一优化步骤和第二优化步骤之间交替来重复执行两步优化过程，包括：在第一优化步骤期间，更新鉴别器神经网络的参数的当前值和任务神经网络的参数的当前值，同时保持域变换神经网络的参数的值固定，其中任务神经网络被配置为接收输入图像并处理输入图像以生成表征输入图像的任务输出；以及在第二优化步骤期间，更新域变换神经网络的参数的当前值，同时保持鉴别器神经网络的参数的值和任务神经网络的参数的值固定。更新鉴别器神经网络的参数的当前值和任务神经网络的参数的当前值同时保持域变换神经网络的参数的值固定可以包括：通过执行神经网络训练技术以相对于鉴别器神经网络的参数最大化损失函数的域损失项，来确定鉴别器神经网络的参数的当前值的更新，其中域损失项(i)惩罚鉴别器神经网络不正确地将目标域图像识别为不来自于目标域以及将变换图像识别为来自于目标域，同时(ii)惩罚域变换神经网络产生被鉴别器神经网络识别为不来自于目标域的变换图像；以及通过执行神经网络训练技术以相对于任务神经网络的参数最小化损失函数的任务特定损失项，来确定任务神经网络的参数的当前值的更新，其中任务特定损失项(i)惩罚任务神经网络与对应源域图像的已知任务输出不同地表征变换图像，同时(ii)惩罚域变换神经网络生成由任务神经网络与对应源域图像的已知任务输出不同地表征的变换图像。更新域变换神经网络的参数的当前值同时保持鉴别器神经网络的参数的值和任务神经网络的参数的值固定可以包括：通过执行神经网络训练技术以相对于域变换神经网络的参数最小化损失函数，来确定域变换神经网络的参数的当前值的更新。

可以实施本说明书中描述的主题的特定实施例，以便实现一个或多个以下优点。本说明书中描述的神经网络系统可以有效地将源域图像调整为看起来像是从目标域中绘制的。具体地，在大量标记的示例可从源域获得而相对较少数量的标记的示例可从目标域获得的情况下，神经网络系统可以有效地利用大量标记的示例来学习像素空间从源域到目标域的变换，从而允许有效地生成标记的目标域图像的数据集。该神经网络系统可以被重新用于不同的任务，而不需要重新训练域变换神经网络。也就是说，因为域变换神经网络在像素级将一个图像映射到另一个图像，所以由域变换神经网络生成的图像不一定特定于用于任何一个分类任务的标签空间。例如，使用第一分类器神经网络训练的域变换神经网络可以生成用于训练在相同适应场景中使用不同标签空间的另一个分类器的图像。通过在域变换神经网络的训练期间结合任务特定损失，训练过程被稳定，并产生性能更好的域变换神经网络、在由域变换神经网络生成的变换图像上训练的性能更好的任务分类器、或这两者。使用任务特定损失训练的域变换神经网络仍然可以有效地用于生成图像，该图像将由在测试时间期间使用不同标签空间的分类器处理。

本说明书的主题的一个或多个实施例的细节在附图和下面的描述中被阐述。从该描述、附图、和权利要求，主题的其它特征、方面、和优点将变得清楚。

附图说明

图1示出了示例图像处理神经网络系统。

图2示出了域变换神经网络的示例架构。

图3是用于从源域图像生成目标域图像的示例过程的流程图。

图4是用于训练域变换神经网络的示例过程的流程图。

图5是用于在域变换神经网络的训练期间执行优化步骤的示例过程的流程图。

各种附图中的相似的参考标号和标示指示相似的元素。

具体实施方式

图1示出了图像处理神经网络系统100的示例。图像处理神经网络系统100是被实施为在一个或多个位置的一个或多个计算机上的计算机程序的系统的示例，其中可以实施下面描述的系统、组件和技术。

图像处理神经网络系统100接收源域图像102作为输入，并处理源域图像102以将源域图像102变换成目标域图像122。

目标域图像122是表示源域图像102中描绘的场景将如何在目标域中被表示的图像。换句话说，目标域图像122是源域图像102到目标域的变换，即，目标域图像122看起来好像其从目标域被采样同时保持源域图像102的原始内容。

通常，源域不同于目标域。具体地，来自源域的图像中像素值的分布不同于来自目标域的图像中像素值的分布。

在一些情况下，源域和目标域的主要区别在于低级图像统计信息的分布，而不是高级图像统计信息的分布。分布中的低级差异的示例包括由噪声、分辨率、照明和颜色引起的差异。另一方面，高级差异可以包括与分类数量、对象类型和几何变化(诸如，3D位置)相关的差异。

在一个示例中，源域可以是模拟现实世界环境的虚拟环境的图像，而目标域可以是该现实世界环境的图像。例如，源域图像可以是模拟要由机器人或其它机械代理(agent)或者由自主或半自主车辆与之交互的现实世界环境的虚拟环境的图像，而目标域图像可以是由机械代理或车辆捕获的现实世界环境的图像。因此，源域图像可以更广泛，特别是对于在现实世界环境中很少出现或难以生成或生成太危险的边缘情况。在开发同于代理或车辆的控制策略时或者在训练用于选择代理或车辆要执行的动作的神经网络时，通过将源域图像变换成目标域图像，可以改善代理或车辆在现实世界环境中的性能，即使某些情况仅在环境的模拟版本中遇到。

在另一示例中，源域和目标域都可以是现实世界的图像，但是具有光度差异，例如，一个域可以是室内图像，而另一个域可以是相似对象的室外图像。

在另一个示例中，源域和目标域可以是从相似对象的图像的不同集合中选择的图像。例如，源域可以是来自管理的(curated)图像集合的图像，而目标域可以是来自非管理的数据集的图像，例如互联网图像。

在一些情况下，源域可以是在其中标记的图像容易获得的域，而获得目标域的标记的图像数据在计算上是昂贵的，或者另外难以或不可获得目标域的标记的图像数据。

图像处理神经网络系统100包括域变换神经网络110，该域变换神经网络110已经通过训练被配置为接收源域图像102以及可选的接收噪声向量104，并且被配置为处理源域图像102(并且当被配置为接收噪声向量时，处理噪声向量104)以生成目标域图像122。

通常，在其中使用噪声向量的实施方式中，噪声向量104是包括预定数量的噪声值的向量，其中一个输入图像的噪声向量中的噪声值可能不同于另一个输入图像的噪声向量中的噪声值。具体地，图像处理神经网络系统100例如通过从相应的均匀分布中采样每个值来生成每个噪声值。

下面将参考图2和图3更详细地描述域变换神经网络110。

图像处理系统100还包括训练域变换神经网络110以确定域变换神经网络110的训练的参数的值的训练子系统150。具体地，训练子系统150使用鉴别器神经网络160和任务神经网络170来训练域变换神经网络110。

鉴别器神经网络160是被配置为接收输入图像(即，来自源域的图像、来自目标域的图像或由域变换神经网络110生成的图像)并且处理输入图像以生成表示目标图像从目标域被采样的可能性的目标域得分的神经网络。

任务神经网络170是接收图像(即，来自源域的图像、来自目标域的图像或由域变换神经网络110生成的图像)并处理输入图像以对所接收的图像执行图像处理任务以生成图像的任务输出的神经网络。

例如，任务神经网络170可以被配置为将来自目标域的输入图像分类为包括来自一个或多个对象类别的对象的图像，即，生成包括一个或多个对象类别中的每一个的相应得分的输入图像的分类输出，该得分表示输入图像包括属于对象类别的对象的图像的可能性。

作为另一个示例，任务神经网络170可以被配置为估计输入图像中对象的姿态。通常，对象的姿态是输入图像中对象的位置和方位的组合。例如，系统可以生成姿态向量，该姿态向量包括对象的预定数量的体关节中的每一个体关节的图像中的估计位置。

作为另一个示例，任务神经网络170可以被配置为将输入图像分成多个区域，每个区域属于类别集中的不同类别。例如，系统可以生成对输入图像的每个像素识别该像素所属的类别的数据(例如，向量或矩阵)作为任务输出。

下面参考图4和5描述使用鉴别器神经网络160和任务神经网络170训练域变换神经网络110。

图2示出了域变换神经网络110的示例架构。具体地，在图2的示例中，域变换神经网络110被配置为接收源域图像和噪声向量，并且该域变换神经网络110包括组合子神经网络200和卷积子神经网络250。

组合子神经网络200被配置为接收源域图像102和噪声向量104，并处理源域图像102和噪声向量104以生成组合输入210。卷积子神经网络250被配置为处理组合输入210以生成目标域图像122。

具体地，源域图像102具有多个通道，每个通道具有特定分辨率。例如，源域图像102可以是具有红色通道、绿色通道和蓝色通道的RGB图像，其中每个通道具有相同的分辨率。

组合子神经网络200被配置为处理噪声向量104，例如，通过通过变换噪声向量维度的一个或多个完全连接的层来处理噪声向量104，以生成具有特定分辨率的附加通道。

组合子神经网络200然后被配置为连接源域图像102和附加通道，即，通过通过深度连接层处理源域图像102和附加通道，以生成组合输入210。

通常，卷积子神经网络250被配置为通过将分辨率保持卷积应用于组合输入210，即通过通过包括多个分辨率保持卷积层的神经网络层处理组合输入210来处理组合输入210以生成目标域图像122。分辨率保持卷积层是接收具有一个或多个通道的输入并且产生也具有特定分辨率的输出的神经网络层，其中每个通道具有相同的特定分辨率。也就是说，分辨率保持卷积层可以根据输入产生具有不同数量通道的输出，但是每个输出通道都将具有与输入通道相同的分辨率。

具体地，卷积子神经网络250包括多个剩余块252A-252N，每个剩余块包括多个分辨率保持卷积层和一个或多个其它种类的神经网络层，例如批量标准化层。

在一些示例中，每个剩余块252A-252N具有以下架构：第一分辨率保持卷积层，接着是批量标准化层，接着是对批量标准化层的输出应用修正的线性单元激活的激活层，接着是另一分辨率保持卷积层，接着是另一批量标准化层，最后是将最后的批量标准化层的输出与剩余块的输入组合(例如，求和或求平均)以生成剩余块的输出的组合层。

在一些情况下，卷积子神经网络250还包括在卷积子神经网络250中的第一剩余块之前的一个或多个初始分辨率保持卷积层、在卷积子神经网络250中的最后剩余块之后的一个或多个最终分辨率保持卷积层，或者两者都包括。例如，最终分辨率保持卷积层可以每个都是具有三个通道和步长1并且然后应用逐元素激活函数(例如逆正切函数、sigmoid或将输入映射到适当输出范围的另一个激活函数)的层，其中最后的最终分辨率保持卷积层生成目标域图像122。

在其中不使用噪声向量的实施方式中，输入源域图像可以直接传递给卷积子神经网络250，即神经网络110不包括组合子神经网络200。

图3是用于从源域图像生成目标域图像的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，被适当编程的图像处理神经网络系统，例如图1的图像处理神经网络系统100，可以执行过程300。

系统从源域接收图像(步骤302)。

可选地，系统生成噪声向量(步骤304)。如上所述，系统可以通过从一个或多个均匀分布中采样值来生成噪声向量的元素。

系统使用域变换神经网络来处理源域图像和(在使用噪声向量时)噪声向量(步骤304)。如上所述，域变换神经网络已经通过训练被配置成接收源域图像和(在使用噪声向量时)噪声向量，以及处理源域图像以生成目标域图像，即，将源域图像变换成来自目标域的图像。

一旦生成，系统可以将目标域图像用于各种目的中的任何目的。

例如，如果源域图像被标记，则系统可以用源域图像的标签来标记目标域图像，并且存储标记的目标域图像以用作训练数据来训练分类器神经网络对目标域图像进行分类，或者训练不同种类的图像处理神经网络来执行不同的图像处理任务。

作为另一个示例，系统可以使用目标域图像作为强化学习技术的一部分来学习用于机器人或另一个代理的控制策略。也就是说，系统可以使用域变换神经网络将作为代理的模拟版本与模拟环境的交互的结果而生成的图像变换成现实世界环境的图像，并且在学习控制策略时使用现实世界环境的图像来代替模拟环境的图像。

图4是用于训练域变换神经网络的示例过程400的流程图。为了方便，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，被适当编程的图像处理神经网络系统，例如图1的图像处理神经网络系统100，可以执行过程400。

系统接收标记的训练源域图像(步骤402)。标记的图像是在训练期间已知任务输出(即应该由任务神经网络为图像生成的任务输出)可用于系统的图像。

系统接收未标记的训练目标域图像(步骤404)。未标记的图像是在训练期间没有已知任务输出可用于系统的图像。

系统在标记的训练源域图像和未标记的目标域图像上训练域变换神经网络、鉴别器神经网络和任务神经网络(步骤406)。

在训练期间，系统训练域变换神经网络以生成变换图像，该变换图像由任务神经网络正确表征，即，被分配与其对应源域图像相同的任务输出，并且被鉴别器神经网络分配指示变换图像可能来自目标域的目标域得分。然而，系统还训练鉴别器神经网络来尝试将变换图像与实际目标域图像区分开，即，为实际目标域图像生成高目标域得分，同时为变换图像生成低目标域得分。

具体地，系统通过使用训练图像重复执行两步优化过程来训练神经网络。在优化过程的一个步骤期间，系统更新鉴别器神经网络和任务神经网络的参数，同时保持域变换神经网络参数固定。在优化过程的另一步骤期间，系统更新域变换神经网络的参数，同时保持鉴别器神经网络和任务神经网络的参数固定。在训练期间，系统在优化过程的两个步骤之间交替，例如，在每k批标记和未标记的训练图像之后交替，其中k是大于或等于1的常数值。

下面参考图5更详细地描述两步优化过程。

图5是用于在域变换神经网络的训练期间执行优化步骤的示例过程500的流程图。为了方便，过程500将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，被适当编程的图像处理神经网络系统，例如图1的图像处理神经网络系统100，可以执行过程500。

系统从训练图像中采样标记的源域图像和未标记的训练目标域图像(步骤502)。

系统根据鉴别器神经网络的参数的当前值，使用鉴别器神经网络处理目标域图像，以生成目标域图像的目标域得分(504)。

系统根据任务神经网络的参数的当前值，使用任务神经网络处理源域图像，以生成源域图像的任务输出(506)。

可选地，该系统生成噪声向量，并且根据域变换神经网络的参数的当前值，使用域变换神经网络来处理源域图像和(如果使用生成的噪声向量)生成的噪声向量，以生成变换图像(508)。

系统根据鉴别器神经网络的参数的当前值，使用鉴别器神经网络处理变换图像，以生成变换图像的目标域得分(510)。

系统根据任务神经网络的参数的当前值，使用任务神经网络处理变换图像，以生成变换图像的任务输出(512)。

如果当前优化步骤是要更新任务神经网络和鉴别器神经网络的参数，则系统执行神经网络训练技术的迭代，以确定任务神经网络和鉴别器神经网络的参数的更新，同时保持域变换神经网络的参数的当前值固定(514)。

具体地，系统执行神经网络训练技术的迭代，以相对于鉴别器神经网络的参数最大化损失函数的域损失项，并且相对于任务神经网络的参数最小化损失函数的任务特定损失项。

在一些实施方式中，损失函数满足：

αL_d(D,G)+βL_t(G,T)，

其中α和β是控制损失的相互作用的固定权重，L_d(D,G)是测量鉴别器神经网络能够识别目标域图像和变换图像的域的准确度的域损失，并且L_t(G,T)是测量任务神经网络在任务神经网络被配置为执行的分类任务上的性能的任务特定损失。

具体地，域损失(i)惩罚鉴别器神经网络不正确地将目标域图像识别为具有来自目标域的低可能性而将变换图像识别为具有来自目标域的高可能性，同时(ii)惩罚域变换神经网络生成被鉴别器神经网络识别为具有来自目标域的低可能性的变换图像。在一些实施方式中，域损失L_d(D,G)满足：

其中E_y是相对于变量y的期望，D(x^t；θ_D)是根据鉴别器神经网络参数θ_D的当前值为目标域图像x^t生成的目标域得分，G(x^s,z；θ_G)是根据鉴别器神经网络参数θ_G的当前值根据源域图像x^s和噪声向量z生成的变换图像，以及D(G(x^s,z；θ_G)；θ_D)是为变换图像生成的目标域得分。

任务特定损失惩罚(i)任务神经网络与分配给对应源域图像的标签不同地表征变换图像，同时(ii)惩罚域变换神经网络生成由任务神经网络与对应源域图像的已知任务输出不同地表征的变换图像。在一些实施方式中，任务特定损失还直接惩罚任务神经网络不正确地表征源域图像。在这些实施方式中的一些中，任务特定损失L_t(G,T)满足：

其中，是源域图像x^s的任务输出的转置，T(x^s；θ_T)是根据任务神经网络参数θ_T的当前值为源域图像x^s生成的任务输出，以及T(G(x^s,z；θ_G)；θ_T)是为根据源域图像x^s生成的变换图像而生成的任务输出。

在一些实施方式中，在训练过程期间，系统可以通过向损失函数添加一个或多个附加项来对变换图像应该如何与其对应源域图像不同施加某些约束。

例如，在一些情况下，可以将具有对应固定权重的附加相似性损失项添加到损失函数中，该损失函数惩罚域变换神经网络生成在其前景像素中与其对应源域图像有大差异的变换图像。

作为另一示例，可以将具有对应固定权重的附加感知损失项添加到损失函数中，该损失函数惩罚域变换神经网络生成具有与其对应源域图像不同的高级图像特征表示的变换图像。

作为另一示例，具有对应固定权重的附加正则化损失项(例如，L2正则化损失项)可以被添加到正则化域变换神经网络的训练的损失函数中。

为了执行神经网络训练技术的迭代以确定任务神经网络和鉴别器神经网络的参数的更新，同时保持域变换神经网络的参数的当前值固定，系统通过执行传统的基于梯度上升的技术的迭代以最大化域损失来确定鉴别器神经网络的参数的更新，并且通过执行传统的基于梯度下降的技术的迭代以最小化任务特定损失项来确定任务神经网络的参数的更新。

如果当前优化步骤是要更新域变换神经网络的参数，则系统执行神经网络训练技术的迭代，以确定域变换神经网络的参数的更新，同时保持任务神经网络和鉴别器神经网络的参数的当前值固定(516)。具体地，系统执行传统的基于梯度下降的技术的迭代以相对于域变换神经网络的参数最小化损失函数，即，域损失、任务特定损失以及(如果包括的话)任何附加项的组合。

一旦对整批训练示例执行了过程500，系统将所确定的更新应用于对应神经网络的当前值，以更新对应神经网络的当前值。

本说明书中描述的主题和功能操作的实施例能够被实施在数字电子电路中，实施在有形地具体体现的计算机软件或者固件中，实施在包括本说明书中公开的结构及其等同物的计算机硬件中，或者实施在它们中的一个或多个的组合中。本说明书中描述的主题的实施例能够被实施为一个或多个计算机程序，即编码在有形的非瞬时性程序载体上以用于被数据处理装置运行或者用来控制数据处理装置的操作的计算机程序指令的一个或多个模块。可替换地或者另外，程序指令能够被编码在人工生成的传播的信号例如，被生成以便编码用于传输到合适的接收器装置以供数据处理装置运行的信息的、机器生成的电、光、或者电磁信号上。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储设备，或者它们中的一个或多个的组合。

术语“数据处理装置”包括用于处理数据的所有种类的装置、设备和机器，举例来说包括，可编程处理器、计算机或多个处理器或计算机。该装置可以包括专用逻辑电路，例如FPGA(Field Programmable Gate Array，现场可编程门阵列)或ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建运行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本、或者代码)能够以任何形式的编程语言编写，包括编译语言或者解释语言、或者声明语言或者程序语言；并且其能够以任何形式来部署，包括作为独立程序或者作为模块、组件、子例程、或者适于在计算环境中使用的其它单元。计算机程序可以，但是不需要，对应于文件系统中的文件。程序能够存储在保持其它程序或者数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中，存储在专用于正被讨论的程序的单个文件中，或者存储在多个协作文件(例如，存储一个或多个模块、子程序、或者代码部分的文件)中。计算机程序能够被部署为在一个计算机上或者在位于一个站点或者分布在多个站点之间并通过通信网络互连的多个计算机上运行。

在本说明书中描述的过程和逻辑流能够通过运行一个或多个计算机程序的一个或多个可编程序计算机执行，以便通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路来执行，并且装置也可以实施为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

举例来说，适于运行计算机程序的计算机可以基于通用或专用微处理器或两者，或者任何其它类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元素是用于执行或者运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器器件。通常，计算机还将包括用于存储数据的一个或多个海量存储设备(例如，磁盘、磁光盘或者光盘)，或者计算机还将被可操作地耦合到一个或多个海量存储设备，从一个或多个海量存储设备接收数据、或者向一个或多个海量存储设备传递数据、或者兼而有之。然而，计算机不需要具有这样的设备。而且，计算机能够被嵌入另一设备中，该另一设备例如，移动电话、个人数字助理(personal digitalassistant，PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GlobalPositioning System，GPS)接收器、或者便携式存储设备，例如，通用串行总线(universalserial bus，USB)闪存驱动器，仅举几例。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例来说包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充，或者合并在专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例能够被实施在具有显示设备以及键盘和指向设备的计算机上，其中该显示设备，例如CRT(cathode ray tube，阴极射线管)或者LCD(liquid crystal display，液晶显示)监视器，用于向用户显示信息，以及该键盘和指向设备，例如鼠标或者轨迹球，能够被用户用来向计算机提供输入。其它种类的设备也能够用来提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感官反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且能够以任何形式接收来自用户的输入，包括声音、语音、或者触觉输入。此外，计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从用户的客户端设备上的网络浏览器接收的请求向该网络浏览器发送网页。

本说明书中描述的主题的实施例可以实施在计算系统中，该计算系统包括后端组件，例如作为数据服务器，或者包括中间件组件，例如应用服务器，或者包括前端组件，例如具有用户能够通过其与在本说明书中描述的主题的实施方式进行交互的图形用户界面或者网络浏览器的客户端计算机，或者一个或多个这样的后端组件、中间件组件、或者前端组件的任何组合。系统的组件能够通过任何形式或者介质的数字数据通信例如，通信网络来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，互联网。

计算系统能够包括客户端和服务器。客户端和服务器一般彼此远离，并且典型地通过通信网络来交互。凭借在各个计算机上运行的并且彼此之间具有客户端-服务器关系的计算机程序而形成客户端和服务器之间的关系。

虽然本说明书包含许多特定的实施方式细节，但是这些细节不应该被解释为对于任何发明或可以要求保护的范围的限制，而是对特定于特定发明的特定实施例的特征的描述。在本说明书中在分开的实施例的上下文中描述的某些特征还能够在单个实施例中组合地实施。相反地，在单个实施例的上下文中描述的各种特征还能够分开地在多个实施例中实施或者在任何合适的子组合中实施。而且，虽然特征可以在上面被描述为在某些组合中起作用并且甚至最初就这样请求保护，但是在一些情况下，来自请求保护的组合的一个或多个特征能够从该组合中排除，并且请求保护的组合可以指向子组合或者子组合的变体。

类似地，尽管在附图中以特定顺序描绘了操作，但是这不应当被理解为需要以示出的特定顺序或以相继的顺序来执行这样的操作或者需要执行所有示意的操作来实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。另外，在上述实施例中对各种系统模块和组件的分离不应当被理解为在所有实施例中要求这样的分离，而是应当理解，所描述的程序组件和系统可通常地在单个软件产品中被集成在一起或者被封装成多个软件产品。

已经描述了主题的特定实施例。其它实施例在下面的权利要求的范围之内。例如，在权利要求中记载的动作能够以不同的顺序来执行，并且仍然实现期望的结果。作为一个示例，附图中描述的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些实施方式下，多任务和并行处理可以是有利的。

Claims

1.一种用于变换图像的系统，包括：

一个或多个计算机，所述一个或多个计算机被配置为实施域变换神经网络，其中所述域变换神经网络被配置为：

从源域接收输入图像，其中所述输入图像是现实世界环境的图像或者现实世界环境的模拟的图像；

接收噪声向量；以及

处理包括来自所述源域的输入图像和所述噪声向量的网络输入，以生成作为所述输入图像从所述源域到不同于所述源域的目标域的变换的变换图像，其中目标域包括现实世界环境的图像，并且目标域中的变换图像在以下项目至少之一与源域中的源图像不同：像素值的分布、噪声、照明、颜色和/或光度差异，

其中，所述输入图像包括多个通道，每个通道具有特定分辨率，并且其中所述域变换神经网络包括：

组合子神经网络，被配置为：

通过变换噪声向量的维度的一个或多个全连接层来处理所述噪声向量以生成具有特定分辨率的附加通道，以及

通过组合子神经网络的深度连接层处理输入图像和附加通道来连接所述输入图像和所述附加通道以生成组合输入；以及

卷积子神经网络，被配置为：

处理所述组合输入以生成所述变换图像，

其中，处理所述组合输入以生成所述变换图像包括，将多个分辨率保持卷积应用于所述组合输入或所述网络输入，

其中，每个分辨率保持卷积由分辨率保持卷积层应用，所述分辨率保持卷积层是接收从每个通道具有特定分辨率的多个通道和具有相同特定分辨率的附加通道生成的组合输入，并且生成也具有特定分辨率的输出的神经网络层。

2.如权利要求1所述的系统，其中，所述噪声向量是包括预定数量的噪声值的向量。

3.如权利要求2所述的系统，其中，每个噪声值从相应的均匀分布中采样。

4.如权利要求1所述的系统，其中，所述卷积子神经网络包括多个剩余块，每个剩余块包括相应的多个分辨率保持卷积层。

5.如权利要求4所述的系统，其中每个剩余块包括第一分辨率保持卷积层，随后是批量归一化层，随后是将经整流的线性单位激活应用于批量归一化层的输出的激活层，随后是另一分辨率保持卷积层，随后是另一批量归一化层，以及随后是将最后批量归一化层的输出与剩余块的输入进行组合以生成剩余块的输出的组合层。

6.如权利要求5所述的系统，其中所述卷积子神经网络还包括在所述卷积子神经网络中的最后一个剩余块之后的一个或多个最终分辨率保持卷积层，所述最终分辨率保持卷积层每个都是具有三个通道和步长1的层，然后应用包括反正切、sigmoid或另一个将输入映射到适当输出范围的激活函数的逐元素激活函数，其中最后一个最终分辨率保持卷积层生成目标域图像。

7.一种训练如权利要求1-6中任一项所述的系统的域变换神经网络的方法，所述方法包括：

接收标记的训练源域图像；

接收未标记的训练目标域图像；以及

通过训练域变换神经网络来使用鉴别器神经网络和任务神经网络来训练域变换神经网络，以生成由任务神经网络正确表征的变换图像，使得它们被分配了与它们对应的源域图像相同的任务输出，并且被鉴别器神经网络分配了指示变换图像可能来自目标域的目标域分数，

其中，所述鉴别器神经网络是被配置成接收输入图像并且处理所述输入图像以生成目标域分数的神经网络，其中所述输入图像包括来自源域的图像、来自目标域的图像或由域变换神经网络生成的图像中的一个，所述目标域分数表示所述输入图像是从目标域采样的可能性，以及

其中，所述任务神经网络是接收图像并且处理所接收的图像以对所接收的图像执行图像处理任务，从而生成图像的表征输入图像的任务输出的神经网络，所述图像包括来自源域的图像、来自目标域的图像或由域变换神经网络生成的图像之一，

其中，所述域变换神经网络的训练包括在所述标记的训练源域图像和所述未标记的训练目标域图像上训练所述域变换神经网络以生成变换图像，同时训练鉴别器神经网络以区分目标域图像和由所述域变换神经网络生成的变换图像。

8.如权利要求7所述的方法，其中，所述训练还包括：

通过在执行第一优化步骤和第二优化步骤之间交替来重复执行两步优化过程，包括：

在所述第一优化步骤期间，更新所述鉴别器神经网络的参数的当前值和任务神经网络的参数的当前值，同时保持所述域变换神经网络的参数的值固定，其中所述任务神经网络被配置为接收输入图像并处理所述输入图像以生成表征所述输入图像的任务输出；以及

在所述第二优化步骤期间，更新所述域变换神经网络的参数的当前值，同时保持所述鉴别器神经网络的参数的值和所述任务神经网络的参数的值固定。

9.如权利要求7所述的方法，其中，更新所述鉴别器神经网络的参数的当前值和任务神经网络的参数的当前值同时保持所述域变换神经网络的参数的值固定，包括：

通过执行神经网络训练技术以相对于所述鉴别器神经网络的参数最大化损失函数的域损失项，来确定所述鉴别器神经网络的参数的当前值的更新，其中所述域损失项(i)惩罚所述鉴别器神经网络不正确地将目标域图像识别为不来自于所述目标域以及将变换图像识别为来自于所述目标域，同时(ii)惩罚所述域变换神经网络生成被所述鉴别器神经网络识别为不来自于所述目标域的变换图像；以及

通过执行神经网络训练技术以相对于所述任务神经网络的参数最小化损失函数的任务特定损失项，来确定所述任务神经网络的参数的当前值的更新，其中所述任务特定损失项(i)惩罚所述任务神经网络与对应源域图像的已知任务输出不同地表征变换图像，同时(ii)惩罚所述域变换神经网络生成由所述任务神经网络与对应源域图像的已知任务输出不同地表征的变换图像。

10.如权利要求9所述的方法，其中，更新所述域变换神经网络的参数的当前值同时保持所述鉴别器神经网络的参数的值和所述任务神经网络的参数的值固定，包括：

通过执行神经网络训练技术以相对于所述域变换神经网络的参数最小化损失函数，来确定所述域变换神经网络的参数的当前值的更新。

11.存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机实施时使得所述一个或多个计算机实施如权利要求1-6中任一项所述系统的域变换神经网络。

12.存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机实施时使得所述一个或多个计算机执行如权利要求7-10中任一项所述的方法。

13.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，所述指令在由所述一个或多个计算机实施时使得所述一个或多个计算机执行如权利要求7-10中任一项所述的方法。