CN111386536A

CN111386536A - 语义一致的图像样式转换

Info

Publication number: CN111386536A
Application number: CN201880075742.7A
Authority: CN
Inventors: 斯特凡·古维斯; 弗雷德里克·伯奇; 康斯坦丁诺斯·布斯马利斯; 阿梅利·罗耶; 凯文·帕特里克·墨菲
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-10-27
Filing date: 2018-10-29
Publication date: 2020-07-07
Anticipated expiration: 2038-10-29
Also published as: US20200342643A1; WO2019084562A1; CN111386536B; US11380034B2; WO2019084562A9

Abstract

用于语义一致的图像样式转换的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。方法之一包括：接收输入源域图像；使用一个或多个源域低层级编码器神经网络层处理源域图像以生成低层级表示；使用一个或多个高层级编码器神经网络层处理低层级表示，以生成输入源域图像的嵌入；使用一个或多个高层级解码器神经网络层处理嵌入，以生成输入源域图像的特征的高层级特征表示；以及使用一个或多个目标域低层级解码器神经网络层处理输入源域图像的特征的高层级特征表示，以生成来自目标域但具有与输入源域图像相似的语义的输出目标域图像。

Description

语义一致的图像样式转换

相关申请的交叉引用

本申请要求于2017年10月27日向希腊工业产权组织提交的申请序列号20170100484的优先权，其全部内容通过引用并入本文。

背景技术

本说明书涉及使用神经网络修改图像。

神经网络是机器学习模型，它采用一层或多层非线性单元来预测接收的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层——即下一隐藏层或输出层——的输入。网络的每一层根据相应的参数集合的当前值从接收的输入生成输出。

发明内容

总体上，本说明书描述了一种由一个或多个计算机实现并且从源域接收图像并将该图像变换为具有与源域图像相似语义的来自目标域的图像的系统。

可以实施本说明书中描述的主题的特定实施例，以实现以下优点中的一个或多个。如本说明书中所描述的系统可以有效地使源域图像调节为看起来好像是从目标域绘制的。特别地，在保留源域图像的语义的同时，即在不改变源域图像的语义内容的情况下，调节的源域图像可以看起来好像是从目标域绘制的。换句话说，该系统有效地将输入源域图像的样式转换(transfer)为目标域的样式，同时保持源域图像的内容一致。该系统可以有效地训练神经网络系统以仅使用来自源域的图像集合和来自目标域的图像集合来执行所述调节，并且不需要两个集合中的图像之间的任何配对。因此，该系统仅需要易于获得的数据，并且不需要生成或获取成本很高的成对的图像。

本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了示例样式转换系统。

图2是用于从输入源域图像生成目标域图像的示例过程的流程图。

图3是用于从输入源域图像生成源域图像的示例过程的流程图。

图4A是描绘训练神经网络以执行样式转换的图。

图4B是用于训练神经网络以执行样式转换的示例过程的流程图。

在各个附图中，相同的附图标号和标记指示相同的元件。

具体实施方式

通常，本说明书描述了一种由一个或多个计算机实现并且从源域接收图像并将该图像变换为具有与源域图像相似语义的来自目标域的图像的系统。

通常，源域与目标域不同。特别地，来自源域的图像中的像素值的分布与来自目标域的图像中的像素值的分布不同。因此，具有相同语义的两个图像如果一个图像来自源域而另一个图像来自目标域，则将看起来不同。

在一个示例中，源域可以是模拟现实世界环境的虚拟环境的图像，而目标域可以是现实世界环境的图像。

例如，源域图像可以是虚拟环境的图像，该虚拟环境模拟将由机器人或其他机械代理或由自动或半自动车辆与之交互的现实世界环境，而目标域图像可以是由机械代理或车辆捕获的现实世界环境的图像。因此，源域图像可能更扩展，特别是对于在现实世界环境中很少发生或在现实世界环境中难以或危险地生成的边缘情况。通过在为代理或车辆开发控制策略时或在训练用于选择代理或车辆要执行的动作的神经网络时，将源域图像变换为目标域图像，即使某些情况仅在环境的模拟版本中遇到，也可以改善代理或车辆在现实世界环境的性能。

在另一示例中，源和目标域都可以是现实世界的图像，但是具有光度差异，例如，一个域可以是室内图像，而另一个域可以是相似对象的室外图像。

作为另一示例，源域可以是现实世界的图像，而目标域可以是现实世界的绘画或绘图或已经以某种方式进行数字编辑的现实世界的图像。作为另一示例，目标域可以是现实世界的图像，而源域可以是已经以某种方式编辑的绘画或绘图或图像。作为更具体的示例，源域可以是人物的照片，目标域可以是人物的卡通或其他图示，反之亦然，或者源域可以是风景图像，目标域可以是风景绘画，反之亦然。

在某些情况下，源域和目标域的主要区别在于低层级(low-level)图像统计数据而不是高层级(high-level)图像统计数据的分布。分布中的低层级差异的示例包括由于噪声、分辨率、照明和颜色而产生的差异。另一方面，高层级差异可能包括与类别数量、对象类型和诸如3D位置的几何变化有关的差异。

在某些情况下，源域可以是其中易于获得标记图像的域，而获得目标域的标记图像数据在计算上是昂贵的或以其他方式是困难的或不可行的。

图1示出了示例样式转换系统100。样式转换系统100是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，在该系统中可以实现以下所述的系统、组件和技术。

样式转换系统100是将输入源域图像102变换成输出目标域图像142并且至少在训练期间在输出源域图像162中变换输入目标域图像104的系统。

特别地，为了变换输入源域图像102，系统100使用特定于来自源域的图像的一个或多个源域低层级编码器神经网络层110来处理源域图像102以生成输入源域图像的低层级表示112。也就是说，仅在对来自源域的图像进行编码时才使用源域低层级编码器神经网络层110，而在对来自目标域的图像进行编码时则不使用。低层级表示是低层级编码器层中最后一个的输出，并且可以是比输入图像具有较低空间维数但具有较高深度维度的特征图。例如，如果图像是64x 64x 3，则特征图可能是16x 16x 64或8x 8x 128。

系统100然后使用在来自源域和目标域的图像之间共享的一个或多个高层级编码器神经网络层120来处理低层级表示112，以生成输入源域图像102的嵌入122。也就是说，当编码源域图像和目标域图像时，使用高层级编码器神经网络层120。图像的嵌入是数字值的有序集合，例如浮点数或其他数字值的向量，其表示图像并且其大小通常比图像小得多。例如，嵌入可以是612、1024或2048维向量。

系统使用在来自源域和目标域的图像之间共享的一个或多个高层级解码器神经网络层130处理输入源域图像的嵌入122，以生成输入源域图像102的特征的高层级特征表示132。高层级特征表示是高层级解码器层的最后一个的输出，并且可以是具有比输入图像和输出图像低的空间维数但更高的深度维度的特征图。例如，如果图像是64x 64x 3，则特征图可能是16x 16x 128或8x 8x 256。

然后，系统100使用特定于从源域生成图像的一个或多个目标域低层级解码器神经网络层140来处理输入源域图像的特征的高层级特征表示132以生成来自目标域但具有与输入源域图像102相似的语义的域图像142。即，输出目标域图像142具有与来自目标域的图像的像素值分布匹配的像素值分布但具有与输入源域图像102相似的语义。

在训练期间，系统100还被配置为从输入目标域图像104生成输出源域图像162，即，将目标域图像变换为具有与原始目标域图像相似的语义的源域图像。

特别地，为了变换输入目标域图像104，系统100使用特定于来自目标域的图像的一个或多个目标域低层级编码器神经网络层150来处理目标域图像104以生成输入源域图像的低层级表示152。即，仅在对来自目标域的图像进行编码时使用目标域低层级编码器神经网络层150，而在对来自源域的图像进行编码时则不使用。

系统100然后使用在来自源域和目标域的图像之间共享的该一个或多个高层级编码器神经网络层120来处理低层级表示152，以生成输入目标域图像104的嵌入124。

系统使用在源域和目标域的图像之间共享的该一个或多个高层级解码器神经网络层130处理输入目标域图像的嵌入142，以生成目标域图像104的特征的高层级特征表示134。

然后，系统100使用特定于从源域生成图像的一个或多个源域低层级解码器神经网络层160来处理输入目标域图像的特征的高层级特征表示134以生成来自源域但具有与输入目标域图像104相似的语义的域图像162。即，输出源域图像162具有与来自源域的图像的像素值分布相匹配的像素值分布，但具有与输入目标域图像104相似的语义。

通常，源域低层级编码器神经网络层与目标域低层级编码器神经网络层具有相同的体系结构，但是由于训练而具有不同的参数。类似地，源域低层级解码器神经网络层具有与目标域低层级解码器神经网络层相同的体系架构，但参数值不同。

更具体地，低层级编码器神经网络层和高层级编码器神经网络层一起构成了深度卷积编码器神经网络，其将输入图像映射到嵌入空间中的嵌入。例如，卷积编码器神经网络可以包括卷积层的多个卷积块，每个卷积块减小输入图像的维数，直到最终块生成嵌入为止。在这些情况下，低层级编码器神经网络层可以是多个卷积块中的前一个或多个块，而高层级编码器神经网络层可以是多个卷积块中的其余块。在特定示例中，如果深度卷积编码器包括五个卷积层块，则前三个块可以是低层级编码器神经网络层，而后两个块可以是高层级编码器神经网络层。为了增加表示能力，编码器还可以包括一个或多个完全连接层，该一个或多个完全连接层在最后一个卷积块之后不修改其输入的大小。这些完全连接层也可以是共享的高层级编码器神经网络层的部分。

类似地，高层级解码器神经网络层和低层级解码器神经网络层一起构成了深度反卷积解码器神经网络，该深度反卷积解码器神经网络将嵌入空间中的嵌入映射到输出图像。例如，反卷积编码器神经网络可以包括卷积层的多个反卷积块，每个反卷积块增加嵌入的维数，直到最终块生成输出图像为止。在这些情况下，高层级解码器神经网络层可以是多个反卷积块中的前一个或多个块，而低层级解码器神经网络层可以是多个反卷积块中的其余块。在特定示例中，如果深度反卷积编码器包括五个反卷积层块，则前两个块可以是高层级解码器神经网络层，而后三个块可以是低层级编码器神经网络层。

编码器神经网络层和解码器神经网络层的体系结构的特定示例在下面的表1中示出，“conv”表示卷积块，“fc”表示完全连接层，“deconv”表示反卷积块，且(//)表示域之间共享的层。没有(///)标记的层不在域之间共享。

表1

使得源域图像可以有效地被调节到目标域，即，使得生成的目标域图像看起来是来自目标域，但保持了对应源域图像的语义，系统100联合地训练了编码器和解码器神经网络，即，与一个或多个目标域低层级编码器神经网络层和一个或多个源域低层级解码器神经网络层一起联合地来训练源域低层级编码器神经网络层、高层级编码器神经网络层、高层级解码器神经网络层和目标域低层级解码器神经网络层。将在下面参考图4A和4B更详细地描述训练这些神经网络。

在一些实施方式中，在训练之后，系统100仅被配置为执行源域到目标域样式转换，即系统100被实现而无需包括目标低层级编码器层和源低层级编码器层。特别地，在某些情况下，将图像从目标域转换到源域仅作为改进对用于将图像从源域转换到目标域和目标低层级编码器层的组件的训练的一种有用的方法，因此在训练已经完成之后不需要源低层级编码器层。

在一些实施方式中，在训练之后，系统100从用户接收——例如使用用户计算机通过数据通信网络提交给系统的——输入源域图像，并通过数据通信网络传输所生成的目标域图像以例如在用户计算机上呈现给用户。

在一些其他实施方式中，系统100是不同系统的部分或与不同系统通信，该不同系统向系统100提供输入源域图像并处理由系统100生成的输出目标域图像。例如，图像可以是机器人代理正与之交互的环境的图像，并且不同系统可以是机器人代理的控制系统，该控制系统i)在学习机器人代理的控制策略时使用输出图像，ii)使用输出图像来控制机器人或两者。

图2是用于从源域图像生成目标域图像的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当地编程的例如图1的样式转换系统100的样式转换系统可以执行处理200。

系统从源域接收图像(步骤202)。

系统使用特定于来自源域的图像的一个或多个源域低层级编码器神经网络层来处理源域图像，以生成输入源域图像的低层级表示(步骤204)。

系统使用在来自源域和目标域的图像之间共享的一个或多个高层级编码器神经网络层来处理低层级表示，以生成输入源域图像的嵌入(步骤206)。

系统使用在来自源域和目标域的图像之间共享的一个或多个高层级解码器神经网络层来处理输入源域图像的嵌入，以生成输入源域图像的特征的高层级特征表示(步骤208)。

系统使用特定于从目标域生成图像的一个或多个目标域低层级解码器神经网络层来处理输入源域图像的特征的高层级特征表示以生成来自目标域但是具有与输入源域图像相似的语义的输出目标域图像(步骤210)。

图3是用于从目标域图像生成源域图像的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当地编程的例如图1的样式转换系统100的样式转换系统可以执行处理300。

系统从目标域接收图像(步骤302)。

系统使用特定于来自目标域的图像的一个或多个目标域低层级编码器神经网络层来处理目标域图像，以生成输入目标域图像的低层级表示(步骤304)。

系统使用来在自源域和目标域的图像之间共享的一个或多个高层级编码器神经网络层来处理低层级表示，以生成输入目标域图像的嵌入(步骤306)。

系统使用在来自源域和目标域的图像之间共享的一个或多个高层级解码器神经网络层来处理输入目标域图像的嵌入，以生成输入目标域图像的特征的高层级特征表示(步骤308)。

系统使用特定于从源域生成图像的一个或多个源域低层级解码器神经网络层来处理输入目标域图像的特征的高层级特征表示以生成来自源域但是具有与输入源域图像相似的语义的输出源域图像(步骤310)。

图4A是描绘训练神经网络以执行样式转换的图400。

特别地，在图400中，e₁是由源域低层级编码器层和共享的高层级编码器层组成的源域编码器神经网络，e₂是由目标域低层级编码器层和共享的高层级编码器层组成的目标域编码器神经网络，d₁是由共享的高层级解码器层和源域低层级解码器层组成的源域解码器神经网络，而d₂是由共享的高层级解码器层和目标域低层级解码器层组成的目标域解码器神经网络。

图400示出了计算五个损失项所必需的处理，所述五个损失项被包括在用于联合地训练神经网络e1、e2、d1和d2的损失函数中。

特别地，该图的(B1)部分示出了确定重构损失和域对抗(DANN)损失所必需的处理。

重构损失鼓励由编码器生成的嵌入为每个域编码有意义的知识。换句话说，重构损失鼓励模型为每个域在嵌入中编码足够的信息，以完美地重构输入。特别地，重构损失是每个域的重构损失的总和。

对于源域，重构损失是(i)原始源域图像和(ii)经由通过源域编码器神经网络e₁处理原始源域图像以生成嵌入并且然后通过源域解码器神经网络d₁处理嵌入以生成输出源域图像402所生成的输出源域图像402之间的距离测量，例如，对应像素值中差异的范数。

对于目标域，重构损失取决于(i)原始目标域图像和(ii)经由通过目标域编码器神经网络e₂处理原始目标域图像以生成嵌入并且然后通过目标域解码器神经网络d₂处理嵌入以生成输出目标域图像所生成的输出目标域图像404之间的误差。

DANN损失将从源域和目标域生成的嵌入推到位于相同的子空间中，从而在语义层级上桥接了域间隙。

为了确定DANN损失，神经网络与分类器406一起联合地被训练，该分类器406被配置为接收输入图像的嵌入并处理该嵌入以将输入图像分类为目标域图像或源域图像。即，DANN损失基于由分类器406针对给定输入图像生成的分类分数。特别地，DANN损失可以是(i)源域图像的正确分类分数与由分类器406针对输入源域图像生成的分类分数之间的分类损失，例如，交叉熵损失，和(ii)目标域图片的对应分类损失。

在训练期间，系统使关于分类器参数的损失最大化以提高分类器的准确性，并且使关于编码器网络参数的损失最小化以降低分类器的准确性。可以通过包括梯度反转层(gradient reversal layer)作为分类器406的输入层并最小化总损失来实现该最大化-最小化方案。

图的(B2)部分示出了确定语义一致性损失所需的处理。语义一致性损失确保在已经翻译了图像的域之后保留输入图像的语义并包括源域和目标域的相应损失项，每个损失项测量输入图像的嵌入与通过将输入图像翻译到其他域来生成的输出图像的嵌入之间的接近程度。换句话说，这种损失鼓励即使在将图像翻译到其他域之后也保留图像的嵌入。

更具体地说，语义一致性损失项是源域的语义一致性损失与目标域的语义一致性损失之和。

源域的语义一致性损失是(i)原始源域图像的嵌入与(ii)通过将原始源域图像翻译到目标域生成的目标域图像410的嵌入411之间的误差。

类似地，目标域的语义一致性损失是(i)原始目标域图像的嵌入与(ii)通过将原始源域图像翻译到目标域生成的源域图像的嵌入之间的误差。

图的(B3)部分示出了确定教师损失和生成对抗(GAN)目标所需的处理。

GAN目标鼓励神经网络生成更逼真的输出图像。为了优化GAN目标，系统联合地训练神经网络以及判别器412，该判别器412被配置为接收输入图像并处理输入图像并将输入图像分类为原始地来自目标域或从源域被调节到目标域。特别地，在训练期间，判别器412接收由解码器d₂生成的输出目标域图像和原始目标域图像，并生成分类分数414，该分类分数414将输入图像分类为原始地来自目标域或从源域被调节到目标域。

GAN目标测量由判别器412对真实原始目标域图像和所生成的输出目标域图像生成的分类分数的准确性。通过使关于判别器参数的目标最大化并且使关于源编码器和目标解码器参数的目标最小化，系统训练判别器以提高准确性，同时训练源编码器和目标解码器以降低准确性，即生成足以使判别器执行很差的逼真的图像。

在一些实施方式中，系统还联合地训练神经网络以及类似的判别器，该类似的判别器被配置为接收输入图像并处理输入图像并将输入图像分类为原始地来自源域或从目标域被调节到源域。该系统可以将来自另一判别器的对应的目标项并入GAN目标。

可获得时，教师损失(teacher loss)从固定的预训练教师嵌入中提取(distill)先验知识。特别地，当使用教师损失时，系统访问预训练的教师神经网络418，该教师神经网络418接收源域图像以生成源域图像的教师嵌入。教师损失测量由源编码器生成的嵌入416与为预训练的教师神经网络418生成的教师嵌入之间的距离。

图4B是用于执行训练共享的编码器神经网络和分类器神经网络的迭代的示例过程500的流程图。为了方便，过程500将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当地编程的例如图1的样式转换系统100的样式转换系统可以执行处理500。

该系统接收包括训练源域图像和训练目标域图像的训练图像的批(步骤502)。

该系统确定该批中的每个图像的损失函数的相应梯度(步骤504)。特别地，损失函数可以是以上参考图4A描述的损失中的一些或全部的加权和。

为了确定该批中的训练源域图像的源域的语义一致性损失的梯度，系统执行以下操作：使用源域低层级编码器神经网络层处理训练输入源域图像以生成训练输入源域图像的低层级表示；使用高层级编码器神经网络层处理低层级表示以生成训练输入源域图像的嵌入；使用一个或多个高层级解码器神经网络层处理训练输入源域图像的嵌入以生成训练输入源域图像的特征的高层级特征表示；并且，使用一个或多个目标域低层级解码器神经网络层处理训练输入源域图像的特征的高层级特征表示以生成来自目标域的训练输出目标域图像；使用一个或多个目标域低层级编码器神经网络层处理训练输出目标域图像以生成训练输出目标域图像的低层级表示；使用一个或多个高层级编码器神经网络层处理低层级表示以生成训练输出目标域图像的嵌入；以及，确定减小训练输出目标域图像的嵌入与训练输入源域图像的嵌入之间的距离测量的语义一致性损失函数的第一梯度。

为了确定该批中的训练目标域图像的目标域的语义一致性损失的梯度，系统执行以下操作：使用目标域低层级编码器神经网络层处理训练输入目标域图像以生成训练输入目标域图像的低层级表示；使用高层级编码器神经网络层处理低层级表示以生成训练输入目标域图像的嵌入；使用一个或多个高层级解码器神经网络层处理训练输入目标域图像的嵌入以生成训练输入目标域图像的特征的高层级特征表示；并且使用一个或多个源域低层级解码器神经网络层处理训练输入目标域图像的特征的高层级特征表示以生成来自源域的训练输出源域图像；使用一个或多个源域低层级编码器神经网络层处理训练输出源域图像以生成训练输出目标域图像的低层级表示；使用一个或多个高层级编码器神经网络层处理低层级表示以生成训练输出源域图像的嵌入；以及确定减小训练输出源域图像的嵌入与训练输入目标域图像的嵌入之间的距离测量的语义一致性损失函数的第二梯度。

为了确定训练源域图像的重构损失的梯度，系统执行以下操作：使用一个或多个源域低层级解码器神经网络层处理训练输入源域图像的特征的高层级特征表示以生成训练输出源域图像；以及确定减少训练输出源域图像的嵌入与训练输入源域图像的嵌入之间的距离测量的重构损失函数的梯度。

为了确定训练目标域图像的重构损失的梯度，系统执行以下操作：使用一个或多个目标域低层级解码器神经网络层处理训练输入目标域图像的特征的高层级特征表示以生成训练输出目标域图像；以及确定减少训练输出目标域图像的嵌入与训练输入目标域图像的嵌入之间的距离测量的重构损失函数的梯度。

为了确定源域图像的分类损失的梯度，系统使用分类器处理训练输入源域图像的嵌入以生成训练输入源域图像的分类；以及确定降低由分类器生成的分类的准确性的分类损失函数的梯度。

为了确定目标域图像的分类损失的梯度，系统使用分类器处理训练输入目标域图像的嵌入以生成训练输入目标域图像的分类；以及确定降低由分类器生成的分类的准确性的分类损失函数的梯度。

该系统还确定关于分类器参数的目标域和源域分类损失的梯度以增加由分类器生成的分类的准确性，并使用该梯度来更新分类器的参数的当前值。这可以使用上述的梯度反转层来完成。

为了确定判别器损失的梯度，系统使用判别器处理训练输出目标域图像以生成训练输出目标域图像的分类；以及确定降低由判别器生成的分类的准确性的判别器损失函数的梯度。

该系统还确定关于判别器参数的判别器损失函数的梯度，即，增加由判别器生成的分类的准确性的梯度；以及使用该梯度更新判别器参数的当前值。这可以通过以下方式完成：首先冻结判别器参数的值，并且计算关于其他神经网络的参数的梯度，然后冻结其他神经网络的参数的值，并且然后计算关于判别器的参数的梯度。

为了确定教师损失的梯度，系统使用预训练的教师网络处理训练输入源域图像以生成输入源域图像的教师嵌入；以及确定降低输入源域图像的嵌入与输入源域图像的教师嵌入之间的距离测量的教师损失函数的梯度。

通常，系统通过在适当的神经网络层中进行反向传播来计算这些梯度。

系统使用梯度调整源域低层级编码器神经网络层、高层级编码器神经网络层、高层级解码器神经网络层、目标域低层级解码器神经网络层、目标域低层级编码器神经网络层和源域低层级编码器神经网络层的参数的当前值。特别地，系统可以对梯度求和或根据应用于每个损失项的固定权重确定梯度的加权和，然后根据例如、ADAM更新规则、rmsprop更新规则或SGD学习率的更新规则将相加的梯度应用于当前参数值。

本说明书连同系统和计算机程序组件一起使用术语“被配置”。对于要被配置成执行特定操作或动作的一个或多个计算机的系统意指系统已在其上安装了在操作中使该系统执行这些操作或动作的软件、固件、硬件或软件、固件、硬件的组合。对于要被配置成执行特定操作或动作的一个或多个计算机程序意指该一个或多个程序包括指令，所述指令当由数据处理装置执行时，使该装置执行操作或动作。

本说明书中描述的主题和功能操作的实施例可用数字电子电路、用有形地具体实现的计算机软件或固件、用包括本说明书中公开的结构及其结构等同物的计算机硬件或者用它们中的一个或多个的组合来实现。本说明书中描述的主题的实施例可作为一个或多个计算机程序被实现，所述一个或多个计算机程序即在有形非暂时性存储介质上编码以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备或它们中的一个或多个的组合。替换地或此外，可将程序指令编码在人工生成的传播信号上，所述传播信号例如是机器生成的电、光或电磁信号，该传播信号被生成来对信息进行编码以用于传输到适合的接收器装置以供由数据处理装置执行。

术语“数据处理装置”指代数据处理硬件并且包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或者进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

也可以被称为或者描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码的计算机程序可用包括编译或解释语言或声明或过程语言的任何形式的编程语言编写；并且它可被以任何形式部署，包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。程序可以但是不必对应于文件系统中的文件。程序可以被存储在保持其它程序或数据的文件的一部分中，例如存储在标记语言文档中的一个或多个脚本；在专用于所述程序的单个文件中或者在多个协调文件中，例如存储代码的一个或多个模块、子程序或部分的文件。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“数据库”广泛地用于指代任何数据集：数据不需要被以任何特定方式构造，或者根本不构造，并且它可被存储在一个或多个位置中的存储设备上。因此，例如，索引数据库可包括多个数据集，其中的每一个可以被不同地组织和访问。

类似地，在本说明书中术语“引擎”广泛地用于指代被编程来执行一个或多个具体功能的基于软件的系统、子系统或过程。通常，引擎将作为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件被实现。在一些情况下，一个或多个计算机将专用于特定引擎；在其它情况下，可在同一计算机或多个计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可由执行一个或多个计算机程序的一个或多个可编程计算机执行以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程还可由例如是FPGA或ASIC的专用逻辑电路执行，或者通过专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可基于通用微处理器或专用微处理器或两者，或任何其它种类的中央处理器。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储设备。中央处理单元和存储器可由专用逻辑电路补充或者并入在专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者操作上被耦合以从所述一个或多个大容量存储设备接收数据或者将数据传送到所述一个或多个大容量存储设备，或者两者以用于存储数据。然而，计算机不必具有这样的设备。此外，计算机可被嵌入在另一设备中，所述另一设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制器、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，作为示例包括半导体存储设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。

为了提供与用户的交互，可在计算机上实现本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备以及用户可用来向该计算机提供输入的键盘和定点设备，所述显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，所述定点设备例如是鼠标或轨迹球。其它种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声、语音或触觉输入。此外，计算机可通过向由用户使用的设备发送文档并从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到请求而向用户的设备上的web浏览器发送网页。另外，计算机可通过向个人设备发送文本消息或其它形式的消息并且继而从用户接收响应消息来与用户交互，所述个人设备例如是正在运行消息传送应用的智能电话。

用于实现机器学习模型的数据处理装置还可包括例如用于处理机器学习训练或生产——即推理，工作负载——的公共和计算密集部分的专用硬件加速器单元。

可使用机器学习框架来实现和部署机器学习模型。所述机器学习框架例如是TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可被实现在计算系统中，所述计算系统包括后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如具有用户可用来与本说明书中描述的主题的实现方式交互的图形用户界面、web浏览器或app的客户端计算机；或者包括一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可通过例如通信网络的任何形式或介质的数字数据通信来互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备传输例如HTML页面的数据例如以用于向与作为客户端的设备交互的用户显示数据并从该用户接收用户输入的目的。可在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实施方式细节，但是这些不应该被解释为对任何发明的或可能要求保护的范围的限制，而是相反地被解释为对可能特定于特定发明的特定实施例的特征的描述。也可在单个实施例中组合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地，也可单独地或者按照任何适合的子组合在多个实施例中实现在单个实施例的上下文中描述的各种特征。此外，尽管特征可能在上面被描述按照某些组合起作用并且甚至最初被如此要求保护，但是来自要求保护的组合的一个或多个特征可在一些情况下被从该组合中除去，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然按照特定次序在附图中描绘并在权利要求书中记载操作，但是这不应该被理解为要求按照所示的特定次序或者按照顺序次序执行这样的操作，或者要求执行所有图示的操作以实现所预期的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这样的分离，并且应该理解的是，所描述的程序组件和系统一般地可被一起集成在单个软件产品中或者包装到多个软件产品中。

已描述了主题的特定实施例。其它实施例在所附权利要求的范围内。例如，权利要求中记载的动作可被以不同的次序执行并仍然实现所预期的结果。作为一个示例，附图中描绘的过程不一定要求所示的特定次序或顺序次序以实现所预期的结果。在一些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种方法，包括：

从源域接收输入源域图像；

使用特定于来自所述源域的图像的一个或多个源域低层级编码器神经网络层来处理所述源域图像，以生成所述输入源域图像的低层级表示；

使用在来自所述源域和目标域的图像之间共享的一个或多个高层级编码器神经网络层来处理所述低层级表示，以生成所述输入源域图像的嵌入；

使用在来自所述源域和目标域的图像之间共享的一个或多个高层级解码器神经网络层来处理所述输入源域图像的所述嵌入，以生成所述输入源域图像的特征的高层级特征表示；以及

使用特定于从所述目标域生成图像的一个或多个目标域低层级解码器神经网络层来处理所述输入源域图像的特征的所述高层级特征表示，以生成来自所述目标域但具有与所述输入源域图像类似的语义的输出目标域图像。

2.根据权利要求1所述的方法，进一步包括：

从目标域接收输入目标域图像；

使用特定于来自所述目标域的图像的一个或多个目标域低层级编码器神经网络层来处理所述输入目标域图像，以生成所述输入目标域图像的低层级表示；

使用在来自所述源域和目标域的图像之间共享的所述一个或多个高层级编码器神经网络层来处理所述低层级表示，以生成所述输入目标域图像的嵌入；

使用在来自所述源域和目标域的图像之间共享的所述一个或多个高层级解码器神经网络层来处理所述输入目标域图像的所述嵌入，以生成所述输入目标域图像的特征的高层级特征表示；以及

使用特定于从所述源域生成图像的一个或多个源域低层级解码器神经网络层来处理所述目标源域图像的特征的所述高层级特征表示，以生成来自所述源域但是具有与所述输入目标域图像类似的语义的输出源域图像。

3.根据权利要求1或2中的任一项所述的方法，其中，所述源域低层级编码器神经网络层、所述高层级编码器神经网络层、所述高层级解码器神经网络层和所述目标域低层级解码器神经网络层已经与一个或多个目标域低层级编码器神经网络层和一个或多个源域低层级解码器神经网络层联合地被训练。

4.根据权利要求2或3中的任一项所述的方法，其中，所述源域低层级编码器神经网络层具有与所述目标域低层级编码器神经网络层相同的架构但是不同的参数值。

5.根据权利要求2至4中的任一项所述的方法，其中，所述源域低层级解码器神经网络层具有与所述目标域低层级解码器神经网络层相同的架构但是不同的参数值。

6.一种训练权利要求2至5中的任一项所述的源域低层级编码器神经网络层、高层级编码器神经网络层、高层级解码器神经网络层、目标域低层级解码器神经网络层、目标域低层级编码器神经网络层和源域低层级编码器神经网络层的方法，所述方法包括：

从所述源域接收训练输入源域图像；

使用所述源域低层级编码器神经网络层来处理所述训练输入源域图像，以生成所述训练输入源域图像的低层级表示；

使用所述高层级编码器神经网络层来处理所述低层级表示，以生成所述训练输入源域图像的嵌入；

使用所述一个或多个高层级解码器神经网络层来处理所述训练输入源域图像的所述嵌入，以生成所述训练输入源域图像的特征的高层级特征表示；以及

使用所述一个或多个目标域低层级解码器神经网络层来处理所述训练输入源域图像的特征的所述高层级特征表示，以生成来自所述目标域的训练输出目标域图像；

使用所述一个或多个目标域低层级编码器神经网络层来处理所述训练输出目标域图像，以生成所述训练输出目标域图像的低层级表示；

使用所述一个或多个高层级编码器神经网络层来处理所述低层级表示，以生成所述训练输出目标域图像的嵌入；

确定减小所述训练输出目标域图像的所述嵌入与所述训练输入源域图像的所述嵌入之间的距离测量的语义一致性损失函数的第一梯度；以及

使用所述第一梯度，更新所述源域低层级编码器神经网络层、所述高层级编码器神经网络层、所述高层级解码器神经网络层、所述目标域低层级解码器神经网络层和所述目标域低层级编码器神经网络层的参数的当前值。

7.根据权利要求6所述的方法，进一步包括：

从所述目标域接收训练输入目标域图像；

使用所述目标域低层级编码器神经网络层来处理所述训练输入目标域图像，以生成所述训练输入目标域图像的低层级表示；

使用所述高层级编码器神经网络层来处理所述低层级表示，以生成所述训练输入目标域图像的嵌入；

使用所述一个或多个高层级解码器神经网络层来处理所述训练输入目标域图像的所述嵌入，以生成所述训练输入目标域图像的特征的高层级特征表示；以及

使用所述一个或多个源域低层级解码器神经网络层来处理所述训练输入目标域图像的特征的所述高层级特征表示，以生成来自所述源域的训练输出源域图像；

使用所述一个或多个源域低层级编码器神经网络层来处理所述训练输出源域图像，以生成所述训练输出目标域图像的低层级表示；

使用所述一个或多个高层级编码器神经网络层来处理所述低层级表示，以生成所述训练输出源域图像的嵌入；

确定减小所述训练输出源域图像的所述嵌入与所述训练输入目标域图像的所述嵌入之间的距离测量的语义一致性损失函数的第二梯度；以及

使用所述第二梯度，更新所述目标域低层级编码器神经网络层、所述源域低层级编码器神经网络层、所述高层级编码器神经网络层、所述高层级解码器神经网络层和所述源域低层级解码器神经网络层的参数的当前值。

8.根据权利要求6或7中的任一项所述的方法，进一步包括：

使用所述一个或多个源域低层级解码器神经网络层来处理所述训练输入源域图像的特征的所述高层级特征表示，以生成训练输出源域图像；

确定减小所述训练输出目标域图像的所述嵌入与所述训练输入源域图像的所述嵌入之间的距离测量的重构损失函数的梯度；以及

使用所述梯度更新所述源域低层级编码器神经网络层、所述高层级编码器神经网络层、所述高层级解码器神经网络层和所述源域低层级解码器神经网络层的参数的当前值。

9.根据权利要求6至8中的任一项所述的方法，其中，所述训练与分类器的训练联合地被执行，所述分类器被配置为接收输入图像的嵌入以及处理所述嵌入以将所述输入图像分类为是目标域图像或是被从所述源域调节的图像，并且其中，所述方法进一步包括：

使用所述分类器来处理所述训练输入源域图像的所述嵌入，以生成所述训练输入源域图像的分类；

确定降低由所述分类器生成的分类的准确性的分类损失函数的梯度；以及

使用所述梯度更新所述源域低层级编码器神经网络层和所述高层级编码器神经网络层的参数的当前值。

10.根据权利要求9所述的方法，进一步包括：

确定增加由所述分类器生成的分类的准确性的分类损失函数的梯度；以及

使用所述梯度更新所述分类器的参数的当前值。

11.根据权利要求6至10中的任一项所述的方法，进一步包括：

其中，所述训练与判别器的训练联合地被执行，所述判别器被配置为接收输入图像以及处理所述输入图像并将所述输入图像分类为来自所述源域或者所述目标域，并且其中，所述方法进一步包括：

使用所述判别器处理所述训练输出目标域图像，以生成所述训练输出目标域图像的分类；

确定降低由所述判别器生成的分类的准确性的判别器损失函数的梯度；以及

使用所述梯度更新所述源域低层级编码器神经网络层、所述高层级编码器神经网络层、所述高层级解码器神经网络层和所述目标域低层级解码器神经网络层的参数的当前值。

12.根据权利要求11所述的方法，进一步包括：

确定增加由所述判别器生成的分类的准确性的判别器损失函数的梯度；以及

使用所述梯度更新所述判别器的参数的当前值。

13.根据权利要求6至12中的任一项所述的方法，进一步包括：

使用预训练的教师网络来处理所述训练输入源域图像，以生成所述输入源域图像的教师嵌入；以及

确定降低所述输入源域图像的所述嵌入与所述输入源域图像的所述教师嵌入之间的距离测量的教师损失函数的梯度；以及

14.一种或多种存储指令的计算机存储介质，所述指令当由一个或多个计算机实施时使所述一个或多个计算机执行根据权利要求1至13中的任一项所述的相应方法的操作。

15.一种包括一个或多个计算机和一个或多个存储设备的系统，所述一个或多个存储设备存储指令，所述指令当由所述一个或多个计算机实施时使所述一个或多个计算机执行根据权利要求1至13中的任一项所述的相应方法的操作。