CN109863537B

CN109863537B - 风格化输入图像

Info

Publication number: CN109863537B
Application number: CN201780065307.1A
Authority: CN
Inventors: J.什伦斯; V.杜牟林; M.K.文卡塔克里什纳
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-21
Filing date: 2017-10-20
Publication date: 2023-07-04
Anticipated expiration: 2037-10-20
Also published as: US20200082578A1; EP3526770B1; CN116823593A; US10535164B2; US20230410389A1; CN109863537A; US20190236814A1; US11776167B2; EP3526770A1; WO2018075927A1

Abstract

一种用于将风格应用于输入图像以生成风格化图像的方法。该方法包括维护指定一组图像风格中的每个图像风格的相应参数值的数据，接收包括输入图像和识别要被应用于输入图像以生成处于输入风格的风格化图像的输入风格的数据的输入，从所维护的数据确定输入风格的参数值，以及通过使用风格迁移神经网络处理输入图像来生成风格化图像，所述风格迁移神经网络被配置为处理输入图像以生成风格化图像。

Description

风格化输入图像

相关申请的交叉引用

本申请要求在2016年10月21日提交的美国临时申请序列号62/411,414的优先权。该在先申请的公开内容被认为是本申请的公开内容的一部分，并且通过引用结合在本申请的公开内容中。

技术领域

本说明书涉及使用神经网络将风格(style)应用于输入图像。

背景技术

机器学习模型接收输入并基于接收到的输入生成输出，例如预测的输出。一些机器学习模型是参数模型，并且基于接收到的输入和模型参数的值生成输出。

一些机器学习模型是深度模型，其采用多层模型来生成接收到的输入的输出。例如，深度神经网络是深度机器学习模型，其包括输出层和一个或多个隐藏层，每个隐藏层将非线性变换应用于接收到的输入以生成输出。

发明内容

本说明书描述了用于将风格应用于输入图像以生成风格化图像的系统和方法。

用于将风格应用于输入图像以生成风格化图像的一种方法包括：维护指定一组图像风格中的每个图像风格的相应参数值的数据，接收包括输入图像和识别要被应用于输入图像以生成处于输入风格的风格化图像的输入风格的数据的输入，从所维护的数据确定输入风格的参数值，以及通过使用风格迁移(style transfer)神经网络处理输入图像来生成风格化图像，所述风格迁移神经网络被配置为处理输入图像以生成风格化图像。

风格迁移神经网络包括第一神经网络层和第二神经网络层之间的条件实例标准化层。条件实例标准化层被配置为在由风格迁移神经网络处理输入图像期间：接收由第一神经网络层生成的第一层输出，根据条件实例标准化层参数的当前值对第一层输出进行变换以生成条件实例标准化层输出，并提供条件实例标准化层输出作为第二神经网络层的输入。生成风格化图像包括：为了通过风格迁移神经网络处理输入图像，将条件实例标准化层参数的当前值设置为输入风格的参数值。

可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。本说明书中描述的系统实现了单个可缩放深度的风格迁移神经网络，其可以捕获多个不同风格的图像。这样的神经网络在多个不同风格上进行一般化。本说明书中描述的系统允许用户或其他系统任意组合神经网络已被训练以进行应用的风格。可以有效地训练风格迁移神经网络以将多个不同风格应用于输入图像，因为神经网络的仅一小部分参数取决于神经网络应用于输入图像的风格。因此，减少了训练神经网络以将多个不同风格应用于输入图像所需的时间，并且还减少了将多个不同风格应用于同一图像所需的计算机处理资源的量。当风格迁移神经网络在例如其中功耗和处理资源管理特别重要的移动设备中实现时，处理资源的这种减少是特别有利的。另外，输出图像可以更高效地(即在更短的时间内)提供给用户，这提供了其他相关的优点，例如减少亮屏时间，在设备的功耗方面具有进一步的益处。在风格迁移神经网络分布在这样的设备的大型系统上的某些实施例中，处理和功耗要求的降低以及系统中设备之间的网络要求的降低可以总体地导致系统上的大规模效率。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显然。

附图说明

图1示出了示例图像风格迁移系统。

图2是用于训练风格迁移神经网络的示例训练图。

图3是用于从输入图像和输入风格生成风格化图像的示例过程的流程图。

各附图中相同的附图标记和名称表示相同的元素。

具体实施方式

本说明书一般地描述了可以对输入图像执行风格迁移的图像风格迁移系统。风格迁移可以被定义为从内容图像和风格图像生成其内容类似于内容图像的内容但其风格类似于风格图像的风格的风格化图像(即，混仿(pastiche)图像)。通常，内容图像是由相机捕获的图像，而风格图像是已经根据绘画风格(即，艺术风格)绘制和画制的绘画，或者是已经使用一种或多种图像编辑技术编辑的数字图像。风格图像的风格可以包括以下中的一个或多个：(i)风格图像内的重复的空间图案(motif)，例如，视觉纹理(例如草地)和绘画笔划，(ii)风格图像的颜色调色板，以及基于风格图像中包含的语义的包括空间图案和颜色的风格元素的放置。

图1示出了示例图像风格迁移系统100。图像风格迁移系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，在其中可以实现下面描述的系统、组件和技术。一般地，图像风格迁移系统100是将风格应用于输入图像以生成风格化图像的系统。

图像风格迁移系统100被配置为接收输入102，输入102包括输入图像和识别输入风格的数据，并处理输入图像以从输入图像生成处于输入风格的风格化图像114，即，其内容类似于输入图像但具有输入风格的风格化图像。

在一些实施方式中，系统100可以向系统的用户呈现用户界面，该用户界面允许用户从由系统100维护的一组图像风格中选择输入风格(即，通过从各自处于不同风格的风格图像中选择)，或从所述一组图像风格中选择多个图像风格的组合，或指定应当应用于多个图像风格的组合中的每个图像风格的权重。

为了生成风格化图像114，图像风格迁移系统100包括子系统110和风格迁移神经网络112。

子系统110维护指定一组图像风格116中的每个图像风格的相应参数值的数据。所述一组图像风格116中的每个图像风格是特定图像或一组多个特定图像被描绘的风格，例如，绘画被绘制的风格、数字图像被编辑(例如，使用栅格(raster)图形编辑技术或其他图像编辑技术)的风格或特定方式、或者用于捕获特定图像或多个特定图像的相机设置的特定配置。已经通过训练风格迁移神经网络112来确定每个图像风格的相应参数值。下面参考图2详细描述用于训练风格迁移神经网络112的示例过程。

子系统110被配置为接收输入102，输入102包括输入图像和识别要被应用于输入图像的输入风格的数据，以生成处于该输入风格的风格化图像114。子系统110被配置为基于识别输入风格的数据从维护的数据确定输入风格的参数值。特别地，子系统110确定输入风格是来自所述一组图像风格的特定图像风格，并且将特定图像风格的参数值指定为输入风格的参数值。

例如，子系统110可以维护表或其他适当的数据结构，其将每个图像风格与该图像风格的相应参数值一般地进行映射。每个图像风格具有相应的索引，例如整数或字符串(例如，风格的名称)，索引可用于从表或其他适当的数据结构中查找或检索图像风格的参数的相应值。如果输入风格是来自由子系统110维护的所述一组图像风格的特定图像风格，则识别输入风格的数据可以包括图像风格的相应索引，例如图像风格的名称。

在一些实施方式中，当输入风格是来自所述一组图像风格的两个或更多个图像风格的组合时，子系统110将该两个或更多个图像风格的相应参数值进行组合以确定输入风格的参数值。

在一些实施方式中，当输入102指定要被应用于两个或更多个图像风格中的每一个的相应权重时，子系统110通过用要被应用于图像风格的权重对该两个或更多个图像风格中的每一个的相应参数值进行加权来组合该两个或更多个图像风格的相应参数值，以便确定输入风格的参数值。在一些情况下，子系统110接收限定相应权重的用户输入。

然后，子系统112被配置为通过使用风格迁移神经网络112处理输入图像来生成处于输入风格的风格化图像114。风格迁移神经网络112是被配置为接收输入图像并输出输入图像的风格化版本的神经网络。

虽然许多风格可以共享某种程度的计算，但是常规方法在构建N风格迁移系统时通常由于从零开始训练N个网络而忽略这种共享。例如，许多印象派绘画共享相似的绘画笔划，但使用的颜色调色板不同。在这种情况下，将一组N印象派绘画当作完全独立的风格是浪费的。为了顾及到这一点，风格迁移神经网络112包括一个或多个条件实例标准化层，并且在多个不同风格上进行训练，从而使系统100能够在多个不同风格上进行一般化。条件实例标准化层通过在对每个特定风格进行标准化之后确定缩放和移位参数来对风格进行建模。换言之，风格迁移神经网络112的所有卷积权重(即，参数)可以在许多风格之间共享，并且在对每个风格进行标准化之后调整仿射变换的参数就足够了。

在Justin Johnson、Alexandre Alahi和Li Fei-Fei的“实时风格迁移和超分辨率的感知损失(Perceptual losses for real-time style transfer and super-resolution)”(arXiv预印本arXiv:1603.08155,2016)中描述了可以被修改以包括条件实例标准化层的风格迁移神经网络架构的示例。例如，可以通过用条件实例标准化层替换批(batch)标准化层中的一些或全部来修改架构。

风格迁移神经网络112中的一个或多个条件实例标准化层中的每一个位于神经网络112中的相应神经网络层(例如，卷积神经网络层)之后。例如，如图1中所示，神经网络112包括条件实例标准化层106，其位于第一神经网络层104之后并且在第二神经网络层108之前。第一神经网络层104和第二神经网络层108是卷积神经网络网络层。

为了以输入风格对输入图像进行风格化，子系统110使用输入风格的所确定的参数值为神经网络中的每个条件实例标准化层设置条件实例标准化层参数的当前值。子系统110设置一个或多个条件实例标准化层(例如，层106)的参数的当前值，而不修改神经网络112的其他神经网络层(例如，层104和层108)的参数值。这样，子系统110保持神经网络中其他层的参数值对于所有输入图像是相同的，但是根据输入图像要被风格化的输入风格来修改所有条件实例标准化层的参数值。

如果在神经网络中存在单个条件实例标准化层，则子系统110将条件实例标准化层参数的当前值设置为输入风格的参数值。如果在神经网络中存在多个条件实例标准化层，则输入风格的参数值包括与每个条件实例标准化层对应的对应子组，并且系统将每个层的条件实例标准化层参数的当前值设置为输入风格的参数值的对应子组。

然后，子系统110被配置为在将条件实例标准化层参数的当前值设置为输入风格的所确定的参数值时通过经由神经网络112的每个神经网络层处理输入图像来生成风格化图像114。在神经网络112处理输入图像期间，每个条件实例标准化层被配置为接收由在该条件实例标准化层之前的神经网络层生成的层输出，并且根据该条件实例标准化层参数的当前值对该层输出进行变换，以生成条件实例标准化层输出，并提供该条件实例标准化层输出作为神经网络中另一神经网络层的输入。例如，条件实例标准化层106被配置为接收由第一神经网络层104生成的层输出118并且根据条件实例标准化层106的参数的当前值来对层输出118进行变换以生成条件实例标准化层输出120，并提供条件实例标准化层输出120作为第二神经网络层108的输入。

为了对层输出进行变换，条件实例标准化层使层输出标准化以生成标准化层输出，并根据条件实例标准化层参数的当前值对该标准化层输出进行变换以生成条件实例标准化层输出。

更具体地，条件实例标准化层通过对于层输出的每个深度维度确定第一层输出在第一层输出的空间维度上的分量的标准化统计量并使用标准化统计量对第一层输出的分量进行标准化，对层输出进行标准化。

然后，条件实例标准化层通过根据缩放条件实例标准化层参数的当前值对标准化层输出进行缩放以生成缩放的标准化层输出，并通过根据移位条件实例标准化层参数的当前值对缩放的标准化层输出进行移位以生成条件实例标准化层输出，对标准化层输出进行变换。

例如，特定于输入风格s的条件实例标准化层输出z可以具有以下形式：

其中x是由在条件实例标准化层之前的神经网络层生成的层输出，μ是x的平均值，并且σ是在层输出x的空间轴上获得的x的标准偏差。γ_s和β_s是输入风格s的识别的参数值，它们被设置为条件实例标准化层的参数的当前值。γ_s和β_s也分别被称为缩放和移位参数。

然后将条件实例标准化层输出提供为下一个神经网络层的输入进行处理。该过程继续，直到神经网络已经通过神经网络的所有层处理输入图像以生成风格化图像为止。

通过结合条件实例标准化层，风格迁移神经网络112提供了优于现有方法的许多技术优点。例如，条件实例标准化允许系统100将单个输入图像风格化为多个风格，例如N个风格，其中网络112的单个前馈传播(forward feed pass)具有N的批大小而不像其他单风格网络一样需要N个前馈传播来执行N风格迁移。另外，因为条件实例标准化层仅作用于缩放和移位参数γ和β，所以在N个风格上训练风格迁移神经网络112需要比训练N个单独网络的现有方法更少的参数。实际上，因为γ和β的大小相对于风格迁移神经网络112中的特征映射的数量线性增长，所以条件实例标准化方法需要O(N×L)个参数，其中L是风格迁移神经网络112中特征映射的总数。

在一些实施方式中，输入102可以识别包括多个视频帧的视频，并且输入图像是来自视频的视频帧。在这些实施方式中，系统100可以被配置为通过以上述相同的方式使用风格迁移神经网络112将输入风格应用于多个视频帧中的每一个来为视频中的多个视频帧中的每一个生成相应的风格化图像，但是风格迁移神经网络112已经被附加地训练以保证视频中的多个视频帧的风格化图像具有相似的风格化。

在生成输入图像的风格化图像或视频中的多个视频帧的多个风格化图像之后，系统100可以提供风格化图像114或多个风格化图像用于在用户设备上呈现。在一些情况下，用户设备是移动设备，并且在这些情况下，风格迁移神经网络112在移动设备上实现。神经网络112更适合于在移动设备上实现，因为它具有较少的参数，因此比常规的风格迁移网络需要更少的计算资源。

图2是用于训练风格迁移神经网络(例如图1的风格迁移神经网络112)的示例图。为方便起见，对风格迁移神经网络的训练将被描述为由位于一个或多个位置的一个或多个计算机的系统或该系统的子系统执行。例如，适当地被编程的图像风格迁移系统(例如，图1的图像风格迁移系统100)或图像风格迁移系统的子系统(例如，图1的子系统110)可以执行训练。

所述系统将输入图像202和一个或多个风格图像204提供给风格迁移神经网络112。对于每个风格图像204，风格迁移神经网络112可以识别风格图像被描绘的风格的对应索引s。

对于具有索引s的每个风格图像，风格迁移神经网络112维护一组缩放和移位条件实例标准化层参数(γ_s，β_s)作为训练参数。对于每个图像风格，风格迁移神经网络112从输入图像202和与图像风格对应的索引s生成风格化图像206。然后，系统将输入图像202、风格化图像206和风格图像作为输入提供给经训练的分类器208。经训练的分类器208包括多个卷积神经网络层，例如，卷积神经网络层210-220。经训练的分类器208可以已经经过训练，以使用常规的训练技术执行各种常规的图像处理任务中的任何任务，例如图像分类、对象检测等。

经训练的分类器208被配置为通过每个卷积神经网络层处理输入以生成输入的中间表示。所述系统使用得到的中间表示来计算内容损失L_c和风格损失L_s。特别地，内容损失L_c表示输入图像202的内容与风格化图像206的内容之间的相似度。如果由经训练的分类器208提取的两个图像的高级特征在欧几里得距离上接近，则这两个图像在内容上相似。使用由经训练的分类器208生成的前若干个中间表示(例如，由卷积神经网络层210-214生成的中间表示)来计算内容损失L_c。风格损失L_S表示输入图像202的风格与风格图像的风格之间的相似度。如果由经训练的分类器208提取的两个图像的低级特征共享相同的统计量，或者更具体地，如果特征的Gram矩阵之间的差异具有小的Frobenius范数，则该两个图像在风格上相似。使用由经训练的分类器208生成的靠后的中间表示(例如，由卷积神经网络层216-220生成的中间表示)来计算风格损失L_s。

系统然后使用内容损失L_c和风格损失L_S来形成如下的训练目标函数：

L(s，c)＝λ_sL_s(T(c，s))+λ_cL_c(T(c，s))，

其中λ_s和λ_c是风格损失L_s和内容损失L_c的加权系数，并且T(c，s)是使用输入图像c(202)和图像风格s由风格迁移神经网络112生成的风格化图像206。

所述系统使用标准训练方法(例如，梯度下降方法)训练风格迁移神经网络112以最小化训练目标函数。对于每个图像风格s，系统将相应的一组训练参数(γ_s，β_s)存储在例如表或其他适当的数据结构中，该表或其他适当的数据结构例如由图1的子系统110维护，以供将来在执行期间使用，例如，用于确定给定输入风格的相应参数值。

由于风格迁移神经网络112中的参数在风格之间共享，因此系统可以通过保持训练的参数固定并学习一组新参数(γ_s′，β_s′)来将新风格s′结合到训练网络112。因此，系统可以同时处理多个风格而不增加其他训练参数的数量，这导致更快的训练时间和减少的存储空间及系统复杂性。

图3是用于从输入图像和输入风格生成风格化图像的示例过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统或由该系统的子系统执行。例如，适当地被编程的图像风格迁移系统(例如，图1的图像风格迁移系统100)或图像风格迁移系统的子系统(例如，图1的子系统110)可以执行过程300。

所述系统维护指定一组图像风格中的每个图像风格的相应参数值的数据(步骤302)。

所述一组图像风格中的每个图像风格是特定图像或一组多个特定图像被描绘的风格，例如，绘画被绘制的风格、数字图像被编辑(例如，使用栅格图形编辑技术或其他图像编辑技术)的风格或特定方式、或者用于捕获特定图像或多个特定图像的相机设置的特定配置。已经通过训练风格迁移神经网络来确定每个图像风格的相应参数值。

所述系统接收包括输入图像和识别要被应用于输入图像的输入风格的数据的输入，以生成处于该输入风格的风格化图像(步骤304)。在一些实施方式中，所述系统可以通过用户界面接收识别特定输入风格的用户输入。在一些实施方式中，输入风格是来自所述一组图像风格的两个或更多个图像风格的组合。在这些实施方式中，输入可以指定要被应用于所述两个或更多个图像风格中的每一个的相应权重。在一些情况下，所述系统可以接收限定相应权重的用户输入。

所述系统从维护的数据确定输入风格的参数值(步骤306)。

特别地，所述系统确定输入风格是来自所述一组图像风格的特定图像风格，并且将特定图像风格的参数值指定为输入风格的参数值。

在一些实施方式中，当输入风格是来自所述一组图像风格的两个或更多个图像风格的组合时，所述系统组合两个或更多个图像风格的相应参数值以确定输入风格的参数值。当输入指定要被应用于两个或更多个图像风格中的每一个的相应权重时，所述系统通过用要被应用于图像风格的权重加权两个或更多个图像风格中的每一个的相应参数值来组合两个或更多个图像风格的相应参数值，以便确定输入风格的参数值。

所述系统通过使用风格迁移神经网络处理输入图像来生成风格化图像，该风格迁移神经网络被配置为处理输入图像以生成风格化图像(步骤308)。

风格迁移神经网络包括一个或多个条件实例标准化层。风格迁移神经网络中的一个或多个条件实例标准化层中的每一个位于神经网络中的相应神经网络层(例如，卷积神经网络层)之后。

为了以输入风格对输入图像进行风格化，所述系统使用输入风格的所确定的参数值为神经网络中的每个条件实例标准化层设置条件实例标准化层参数的当前值。所述系统设置一个或多个条件实例标准化层的参数的当前值，而不修改神经网络的其他神经网络层的参数值。

如果在神经网络中存在单个条件实例标准化层，则所述系统将条件实例标准化层参数的当前值设置为输入风格的参数值。如果在神经网络中存在多个条件实例标准化层，则输入风格的参数值包括与每个条件实例标准化层对应的相应子组，并且所述系统将每个层的条件实例标准化层参数的当前值设置为输入风格的参数值的对应子组。

风格迁移神经网络然后被配置为在将条件实例标准化层参数的当前值设置为输入风格的所确定的参数值时，通过经由神经网络的每个神经网络层处理输入图像来生成风格化图像。

在神经网络处理输入图像期间，每个条件实例标准化层被配置为接收由在条件实例标准化层之前的神经网络层生成的层输出，并且根据条件实例标准化层参数的当前值对层输出进行变换以生成条件实例标准化层输出，并提供条件实例标准化层输出作为神经网络中另一神经网络层的输入。

为了对层输出进行变换，条件实例标准化层使层输出标准化以生成标准化层输出，并根据条件实例标准化层参数的当前值对标准化层输出进行变换以生成条件实例标准化层输出。

然后，条件实例标准化层通过根据缩放条件实例标准化层参数的当前值对标准化层输出进行缩放以生成缩放的标准化层输出，并通过根据移位条件实例标准化层参数的当前值对缩放的标准化层输出进行移位以生成条件实例标准化层输出来对标准化层输出进行变换。然后将条件实例标准化层输出提供为下一个神经网络层的输入进行处理。该过程继续，直到神经网络已经通过神经网络的所有层处理输入图像以生成风格化图像为止。

在一些实施方式中，输入可以识别包括多个视频帧的视频，并且输入图像是来自视频的视频帧。在这些实施方式中，所述系统可以被配置为通过以上述相同的方式使用风格迁移神经网络将输入风格应用于多个视频帧中的每一个来为视频中的多个视频帧中的每一个生成相应的风格化图像，但是风格迁移神经网络已经被附加地训练以保证视频中的多个视频帧的风格化图像具有相似的风格化。例如，所述系统可以修改上面参考图2描述的目标函数，即，通过向目标函数添加约束以保证视频中的多个视频帧的风格化图像具有相似的风格，并且可以训练风格迁移神经网络以最小化修改的目标函数。

在生成输入图像的风格化图像或视频中的多个视频帧的多个风格化图像之后，所述系统可以可选地提供所述风格化图像或所述多个风格化图像用于在用户设备上呈现(步骤310)。在一些情况下，用户设备是移动设备，并且在这些情况下，风格迁移神经网络在移动设备上实现。

本说明书关于系统和计算机程序组件使用术语“被配置”。一个或多个计算机的系统被配置为执行特定操作或动作意味着所述系统已经在其上安装有软件、固件、硬件或它们的组合，其在操作中使得系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着所述一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能性操作的实施例可以在数字电子电路中、在有形地实现的计算机软件或固件中、在计算机硬件(包括本说明书中公开的结构及其结构等同物)中或者它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即，在有形非暂时性存储介质上编码的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备或它们中的一个或多个的组合。替代地或另外地，程序指令可以编码在人工生成的传播信号上，该人工生成的传播信号例如机器生成的电、光或电磁信号，其被生成以编码信息以便传输到合适的接收器装置以供数据处理装置执行。

术语“数据处理装置”指的是数据处理硬件并且包括用于处理数据的所有种类的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序也可以被称为或描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码，可以用任何形式的编程语言编写，包括编译或解释型语言，或声明或过程化语言；并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境中的其他单元。程序可以但不必与文件系统中的文件对应。程序可以存储在保存其他程序或数据的文件的一部分中，例如，一个或多个脚本存储在标记语言文档中、在专用于所讨论的程序的单个文件中或者在多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序以在一个计算机或位于一个站点上或分布在多个站点上并通过数据通信网络互连的多个计算机上执行

本说明书中描述的过程和逻辑流可以由一个或多个可编程计算机执行，所述一个或多个可编程计算机执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个经编程计算机的组合来执行。

适于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于施行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或结合在专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘)或操作性地耦接成从一个或多个大容量存储设备接收数据或向其传输数据，或者接收数据和传输数据。然而，计算机不必具有这样的设备。此外，计算机可以嵌入另一个设备(例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如通用串行总线(USB)闪存驱动器)，仅举几例)中。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；和CD ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实现，计算机具有用于向用户显示信息的显示设备和键盘及指示设备，显示设备例如CRT(阴极射线管)或LCD(液晶显示)监视器，指示设备例如鼠标或轨迹球，用户可通过键盘及指示设备向计算机提供输入。其他种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求将网页发送到用户设备上的web浏览器。此外，计算机可以通过向个人设备(例如，正在运行消息应用的智能电话)发送文本消息或其他形式的消息并且从用户接收作为回复的响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括，例如，专用硬件加速器单元，用于处理机器学习训练或生产的公共和计算密集部分，即推断、工作负载。

可以使用机器学习框架来实现和部署机器学习模型，例如TensorFlow框架、Microsoft认知工具包框架，Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可以在包括后端组件(例如作为数据服务器)，或者包括中间件组件(例如应用服务器)，或者包括前端组件(例如，具有图形用户界面、web浏览器或用户可以通过其与本说明书中描述的主题的实施方式进行交互的app的客户端计算机)，或者包括一个或多个这样的后端、中间件或前端组件的任意组合的计算系统中实现。系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系归因于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器将数据(例如，HTML页面)传输到用户设备，例如，用于向与作为客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。可以在服务器处从该设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体的实现细节，但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是作为可以具体于特定发明的特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中以组合形式实现。相反，在单个实施例的上下文中描述的各个特征也可以单独地或以任何合适的子组合在多个实施例中实现。此外，尽管特征可能在上面描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下可以从组合中去除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以指向子组合或子组合的变体。

类似地，虽然以特定顺序在附图中描绘并且在权利要求中记载了操作，但是这不应当被理解为要求以所示的特定顺序或按顺序执行这样的操作，或者要执行所有示出的操作，以达到期望的结果。在某些环境下，多任务处理和并行处理可以是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或打包成多个软件产品。

已经描述了主题的特定实施例。其他实施例在随附权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或按顺序来实现期望的结果。在某些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种计算机实现的用于处理图像的方法，包括：

由计算系统维护指定一组图像风格中的每个图像风格的相应参数值的数据；

响应于由所述计算系统接收包括输入图像和识别要被应用于所述输入图像以生成处于输入风格的风格化图像的输入风格的数据的输入：

由所述计算系统从所维护的数据确定所述输入风格的参数值；以及

由所述计算系统通过使用风格迁移神经网络处理所述输入图像来生成风格化图像，所述风格迁移神经网络被配置为处理所述输入图像以生成所述风格化图像，

其中，所述风格迁移神经网络包括第一神经网络层、第二神经网络层、以及所述第一神经网络层和所述第二神经网络层之间的条件实例标准化层，其中，所述条件实例标准化层被配置为在由所述风格迁移神经网络处理所述输入图像期间：

接收第一神经网络层生成的第一层输出，

根据条件实例标准化层参数的当前值对第一层输出进行变换以生成条件实例标准化层输出，以及

提供所述条件实例标准化层输出作为第二神经网络层的输入；以及其中，生成所述风格化图像包括：为了通过所述风格迁移神经网络处理所述输入图像，将所述条件实例标准化层参数的所述当前值设置为所述输入风格的所述参数值。

2.根据权利要求1所述的方法，其中，为了通过所述风格迁移神经网络处理所述输入图像，将所述条件实例标准化层参数的所述当前值设置为所述输入风格的所述参数值包括：

为了通过所述风格迁移神经网络处理所述输入图像，将所述条件实例标准化层参数的所述当前值设置为所述输入风格的所述参数值，而不修改第一神经网络层和第二神经网络层的参数值。

3.根据权利要求1或2中任一项所述的方法，还包括：

由所述计算设备提供所述风格化图像用于向用户呈现。

4.根据权利要求3所述的方法，其中，所述计算设备是移动设备，并且其中，所述风格迁移神经网络在所述移动设备上实现。

5.根据权利要求1-2中任一项所述的方法，其中，根据所述条件实例标准化层参数的所述当前值对第一层输出进行变换以生成所述条件实例标准化层输出包括：

对第一层输出进行标准化以生成标准化层输出；以及

根据所述条件实例标准化层参数的所述当前值对所述标准化层输出进行变换以生成所述条件实例标准化层输出。

6.根据权利要求5所述的方法，其中，对第一层输出进行标准化以生成标准化层输出包括：对于第一层输出的每个深度维度：

确定第一层输出在第一层输出的空间维度上的分量的标准化统计量；以及

使用所述标准化统计量来对第一层输出的所述分量进行标准化。

7.根据权利要求6所述的方法，其中，对所述标准化层输出进行变换包括：

根据缩放条件实例标准化层参数的当前值对所述标准化层输出进行缩放以生成缩放的标准化层输出；以及

根据移位条件实例标准化层参数的当前值对所述缩放的标准化层输出进行移位以生成所述条件实例标准化层输出。

8.根据权利要求1-2中任一项所述的方法，其中，从所维护的数据确定所述输入风格的参数值包括：

确定所述输入风格是来自所述一组图像风格中的特定图像风格；以及

将所述特定图像风格的参数值指定为所述输入风格的参数值。

9.根据权利要求8所述的方法，其中，接收所述输入包括：

接收识别所述特定图像风格的用户输入。

10.根据权利要求1-2中任一项所述的方法，其中，所述输入风格是来自所述一组图像风格的两个或更多个图像风格的组合，并且其中从所维护的数据确定所述输入风格的参数值包括：

组合所述两个或更多个图像风格的相应参数值以确定所述输入风格的参数值。

11.根据权利要求10所述的方法，其中，所述输入指定要被应用于所述两个或更多个图像风格中的每一个的相应权重，并且其中，组合所述两个或更多个图像风格的相应参数值以确定所述输入风格的参数值包括：

用要被应用于所述图像风格的权重对所述两个或更多个图像风格中的每一个的相应参数值进行加权。

12.根据权利要求11所述的方法，其中，接收所述输入包括：

接收限定所述相应权重的用户输入。

13.根据权利要求1-2中任一项所述的方法，其中，已经通过训练所述风格迁移神经网络确定了每个图像风格的相应参数值。

14.根据权利要求1-2中任一项所述的方法，其中，所述输入识别视频，并且其中所述输入图像是来自所述视频的视频帧。

15.根据权利要求1-2中任一项所述的方法，其中，通过将所述输入风格应用于每个视频帧，为所述视频中的多个视频帧中的每一个生成相应的风格化图像。

16.根据权利要求15所述的方法，其中，所述风格迁移神经网络已经被训练以保证所述视频中的所述多个视频帧的风格化图像具有相似的风格化。

17.一种用于处理图像的系统，包括一个或多个计算机和存储指令的一个或多个计算机可读存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行权利要求1-16的方法中的任意一个的相应操作。

18.一种或多种存储指令的计算机可读存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求1-16的方法中的任意一个的相应操作。

19.一种由一个或多个计算机实现的用于处理图像的系统，该系统包括：

风格迁移神经网络，被配置为处理输入图像以从所述输入图像生成风格化图像，

其中，所述风格迁移神经网络包括第一神经网络层、第二神经网络层、以及所述第一神经网络层和所述第二神经网络层之间的条件实例标准化层，

其中，所述条件实例标准化层被配置为在由所述风格迁移神经网络处理所述输入图像期间：

接收由第一神经网络层生成的第一层输出，

提供所述条件实例标准化层输出作为第二神经网络层的输入；以及

被配置为执行操作的子系统，所述操作包括：

维护指定一组图像风格中的每个图像风格的相应参数值的数据；

接收包括输入图像和识别要被应用于所述输入图像以生成处于输入风格的风格化图像的输入风格的数据的输入；

从所维护的数据确定所述输入风格的参数值；

将所述条件实例标准化层参数的所述当前值设置为所述输入风格的所述参数值；以及

通过在将所述条件实例标准化层参数的所述当前值设置为所述输入风格的所述参数值时使用所述风格迁移神经网络处理所述输入图像来生成所述风格化图像。

20.根据权利要求19所述的系统，其中，将所述条件实例标准化层参数的所述当前值设置为所述输入风格的所述参数值包括：

将所述条件实例标准化层参数的所述当前值设置为所述输入风格的所述参数值，而不修改第一神经网络层和第二神经网络层的参数值。

21.根据权利要求19或20中任一项所述的系统，所述操作还包括：

提供所述风格化图像用于在用户设备上呈现。

22.根据权利要求21所述的系统，其中，所述用户设备是移动设备，并且其中，所述风格迁移神经网络在所述移动设备上实现。

23.根据权利要求19-20中任一项所述的系统，其中，根据所述条件实例标准化层参数的所述当前值对第一层输出进行变换以生成所述条件实例标准化层输出包括：

对第一层输出进行标准化以生成标准化层输出；和

24.根据权利要求23所述的系统，其中，对第一层输出进行标准化以生成所述标准化层输出包括：对于第一层输出的每个深度维度：

确定第一层输出在第一层输出的空间维度上的分量的标准化统计量；和

25.根据权利要求24所述的系统，其中，对所述标准化层输出进行变换包括：

根据缩放条件实例标准化层参数的当前值对所述标准化层输出进行缩放以生成缩放的标准化层输出；和

26.根据权利要求19-20中任一项所述的系统，其中，从所维护的数据确定所述输入风格的参数值包括：

确定所述输入风格是一组图像风格中的特定图像风格；以及

27.根据权利要求26所述的系统，其中，接收所述输入包括：

接收识别所述特定图像风格的用户输入。

28.根据权利要求19-20中任一项所述的系统，其中，所述输入风格是来自所述一组图像风格的两个或更多个图像风格的组合，并且其中从所维护的数据确定所述输入风格的参数值包括：

29.根据权利要求28所述的系统，其中，所述输入指定要被应用于所述两个或更多个图像风格中的每一个的相应权重，并且其中，组合所述两个或更多个图像风格的相应参数值以确定所述输入风格的参数值包括：

30.根据权利要求29所述的系统，其中，接收所述输入包括：

接收限定所述相应权重的用户输入。

31.根据权利要求19-20中任一项所述的系统，其中，已经通过训练所述风格迁移神经网络确定了每个图像风格的相应参数值。

32.根据权利要求19-20中任一项所述的系统，其中，所述输入识别视频，并且其中所述输入图像是来自所述视频的视频帧。

33.根据权利要求19-20中任一项所述的系统，其中，通过将所述输入风格应用于每个视频帧，为所述视频中的多个视频帧中的每一个生成相应的风格化图像。

34.根据权利要求33所述的系统，其中，所述风格迁移神经网络已经被训练以保证所述视频中的所述多个视频帧的风格化图像具有相似的风格化。

35.一种或多种存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机实现权利要求19-34中任一项所述的相应系统。