CN109766895A

CN109766895A - 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法

Info

Publication number: CN109766895A
Application number: CN201910005026.8A
Authority: CN
Inventors: 朱丹; 张丽杰; 那彦波; 刘瀚文
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2019-05-17
Also published as: US20210012181A1; WO2020140421A1; US11537849B2

Abstract

本公开实施例公开了一种用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法。该方法包括：接收尺寸相同的内容图像和风格图像；基于所述内容图像和风格图像利用训练好的卷积神经网络来得到风格迁移后的输出图像，其中，所述卷积神经网络使用包括内容损失函数、风格损失函数和正则化损失函数三者的总损失函数来训练，所述正则化损失函数基于矩阵L构成。该方法对卷积神经网络的训练速度快，且风格迁移处理的效果较好，尤其具有显著改进的保边效果和防图像扭曲效果。

Description

用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法

技术领域

本公开涉及一种对图像进行处理的方法以及用于图像处理的深度学习网络的训练方法，尤其涉及一种用于图像风格迁移的卷积神经网络的训练方法、图像风格迁移方法、存储有计算机可执行指令以实现上述方法的非易失性计算机存储介质、以及相应的图像处理装置。

背景技术

目前在社交网络图片展示、商场推广活动以及数字画廊制作图片等各种服务中，需要呈现各种风格的图片，现有的原始图片并不足以满足这种需求。需要将各种原始图片灵活转换成具备某种特定艺术风格的图片，这种处理称为“风格迁移处理”。虽然也引入了深度学习网络对图像进行风格迁移处理，但是现有的深度学习网络在保持原始图片的边缘的效果上和风格迁移效果上还不够好。

发明内容

提供本公开以解决现有技术存在的上述技术问题。

需要一种对图像进行风格迁移处理的方法和该方法所使用的卷积神经网络的训练方法，其训练速度快，且风格迁移处理的效果较好，尤其具有显著改进的保边效果和防图像扭曲效果。

根据本公开的第一方案，提供一种用于图像风格迁移的卷积神经网络的训练方法，所述训练方法由计算机实现，所述训练方法包括：利用训练数据集基于总损失函数对所述卷积神经网络的参数进行优化，所述总损失函数包含内容损失函数、风格损失函数和正则化损失函数。

在一些实施例中，所述正则化损失函数基于矩阵得到，所述矩阵的维度为N×N，N是内容图像中的像素数量，所述矩阵利用如下公式得到，

其中，L表示所述矩阵，L_(i,j)表示所述矩阵第i行第j列的元素值，k是像素的序数，W_k是以像素k为中心的时窗矩阵，δ_ij是克罗内克函数，是时窗矩阵W_k内像素的方差，|W_k|是时窗矩阵W_k中像素数量的总和，ε为一预设的数值，I_i和I_j分别是对其进行抠图的原始图像的像素矩阵的第i行和第j行的行向量，而μ_k是维度分别与I_i和I_j相同且各个元素均是时窗矩阵W_k内像素的均值的行向量，

所述正则化损失函数基于所述矩阵利用如下公式得到：

其中，L_m表示所述正则化损失函数，C表示输出图像中的颜色通道的序号，O表示输出图像的像素矩阵，V_C[O]是通过将输出图像在序号为C的颜色通道上的像素值展平所得到的向量。

在一些实施例中，所述总损失函数通过对内容损失函数、风格损失函数和正则化损失函数加权求和得到。

在一些实施例中，内容损失函数、风格损失函数和正则化损失函数在总损失函数中的权重比例设置在1：1：0.1至2：1：0.1的范围内。

在一些实施例中，所述内容损失函数利用如下公式得到：

其中，L_content表示内容损失函数，e表示所述卷积神经网络中的卷积层的序号，C_e是用于对内容损失值进行标准化处理的常数，是基于输出图像由第e层卷积层中第i个卷积核输出的特征映射中第j个位置的值，是基于内容图像由第e层卷积层中第i个卷积核输出的特征映射中第j个位置的值。

在一些实施例中，所述卷积神经网络基于依序连接的编码器网络、自适应实例规范化网络和解码器网络构成，所述编码器网络用于为所述内容图像和所述风格图像分别提取内容特征映射和风格特征映射。

在一些实施例中，编码器网络为第一卷积神经网络，所述解码器网络为所述第一卷积神经网络的镜像网络，所述自适应实例规范化网络被配置为通过特定于内容的实例规范化，然后是特定于风格的仿射变换，将内容特征映射转换为样式特征映射；其中，所述第一卷积神经网络由如下层依序堆叠来形成：分别具有64个3×3×3卷积核的第一卷积子层和第二卷积子层，第一池化层，分别具有128个3×3×3卷积核的第三卷积子层和第四卷积子层，第二池化层，分别具有256个3×3×3卷积核的第五卷积子层、第六卷积子层和第七卷积子层，第三池化层，分别具有512个3×3×3卷积核的第八卷积子层、第九卷积子层和第十卷积子层，第四池化层，分别具有512个3×3×3卷积核的第十一卷积子层、第十二卷积子层和第十三卷积子层，第五池化层，三个全连接层以及软性最大化层。

在一些实施例中，所述内容损失函数是所提取的内容特征映射与所述自适应实例规范化网络输出的特征映射之间的标准化处理后的欧式距离。

根据本公开的第二方案，提供一种图像风格迁移方法，其由计算机实现，且所述图像风格迁移方法包括：接收内容图像和风格图像；基于所述内容图像和风格图像利用训练好的卷积神经网络来得到风格迁移后的输出图像，其中，所述卷积神经网络使用根据本公开各种实施例的训练方法来训练。

在一些实施例中，将训练好的卷积神经网络应用于具有相同的预定尺寸的所述内容图像和风格图像来得到风格迁移后的输出图像。

在一些实施例中，所述图像风格迁移方法包括：对所接收的内容图像和风格图像进行处理，使之具有相同的预定尺寸。

在一些实施例中，在所述内容图像的尺寸不同于所述预定尺寸时，对所述内容图像的周边进行像素填充或去除所述内容图像的边缘使之具有所述预定尺寸；以及在所述风格图像的尺寸不同于所述预定尺寸时，对所述风格图像的周边进行图像修补或去除所述风格图像的边缘使之具有所述预定尺寸。

根据本公开的第三方案，提供一种非易失性计算机存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现根据本公开各种实施例所述的用于图像风格迁移的卷积神经网络的训练方法，和/或根据本公开各种实施例所述的图像风格迁移方法。

根据本公开的第四方案，提供一种图像处理装置，其包括处理器，所述处理器被配置为执行实现根据本公开各种实施例所述的用于图像风格迁移的卷积神经网络的训练方法，和/或根据本公开各种实施例所述的图像风格迁移方法。

本公开的用于图像风格迁移的卷积神经网络的训练方法训练速度快，且训练好的卷积神经网络风格迁移的效果较好，尤其具有显著改进的保边效果和防图像扭曲效果。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出根据本公开实施例的对图像进行风格迁移处理的方法的图示；

图2示出根据本公开实施例的用于对图像进行风格迁移处理的卷积神经网络的结构图示；

图3示出根据本公开实施例的用于对图像进行风格迁移处理的卷积神经网络的示意图；

图4示出利用现有的风格迁移算法所得到的结果与利用根据本公开实施例的风格迁移处理方法所得到的结果的对比；以及

图5示出根据本公开实施例的图像处理装置的框图。

具体实施方式

为使本领域技术人员更好的理解本公开的技术方案，下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述，但不作为对本公开的限定。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

图1示出根据本公开实施例的对图像进行风格迁移处理的方法的图示，所述方法由计算机实现，其中，实线部分示出基于内容图像100和风格图像102利用卷积神经网络101进行风格迁移处理的在线流程，虚线部分示出对所述卷积神经网络101进行训练的流程(该流程可以离线进行)。如图1所示，对图像进行风格迁移处理的方法包括：接收内容图像100和风格图像102，其中，该内容图像100表示要进行风格迁移处理的原始图像，风格图像102的风格就是期望将内容图像100迁移到的风格。在一些实施例中，所接收的内容图像100和风格图像102具有相同的预定尺寸。训练好的卷积神经网络应用于具有相同的预定尺寸的所述内容图像100和风格图像102来得到风格迁移后的输出图像，如果所接收的内容图像100和风格图像102的尺寸不同于预定尺寸，则可以对所接收的内容图像100和风格图像102进行处理，使之具有相同的预定尺寸。

在一些实施例中，在所述内容图像100的尺寸不同于所述预定尺寸时，对所述内容图像100的周边进行像素填充(例如但不限于最简单的补零、图像修补方法等)或去除所述内容图像100的边缘使之具有所述预定尺寸。在一些实施例中，在所述风格图像102的尺寸不同于所述预定尺寸时，对所述风格图像102的周边进行图像修补或去除所述风格图像102的边缘使之具有所述预定尺寸。注意，在风格图像102的尺寸小于预定尺寸时，不能简单在缺失地方补零，以免影响其旨在体现的风格，而是进行图像修补，可以采用各种图像修补方法，着重于图像中待保留的不同方面的结构，包括几何结构、纹理等，从而尽可能不影响风格图像102的原有风格。在一个实施例中，可以选择匹配修补区域的边界处的梯度矢量的图像修补方法。

接着，基于具有相同预定尺寸的所述内容图像100和风格图像102利用训练好的卷积神经网络101来得到风格迁移后的输出图像103。其中，所述卷积神经网络101使用包含内容损失函数、风格损失函数和正则化损失函数三者得到的总损失函数来训练。通过将正则化损失函数用作损失函数的一部分，添加了与图像扭曲相关的适当惩罚项，确保不会丢失内容图像100的属性且能够保留其边缘，且能够在相当程度上防止图像扭曲。

在一些实施例中，所述正则化损失函数基于矩阵L(矩阵L的表达式会在下文中详述)构成。

在下文中(结合图4)会对本公开的训练好的卷积神经网络的风格迁移处理的结果与现有技术训练好的卷积神经网络的风格迁移处理的结果进行比对，从中可以直观地看到根据本公开实施例的方式训练好的卷积神经网络101在防止扭曲和保留边缘方面的显著效果。

卷积神经网络

下面首先对卷积神经网络101进行说明。

卷积神经网络是神经网络的一种特殊结构，可以将图像的像素矩阵作为输入和输出，并用卷积核替代标量的权值。

如图2所示，所述卷积神经网络可以是3层结构。该卷积神经网络可以具有2个输入，一个输入是内容图像，另一个输入是风格图像。该卷积神经网络可以具有1个输出，即风格迁移后所得到的图像。

该卷积神经网络中包括级联的两级卷积子网络，每级子网络可以由输入层、卷积层、激活函数层、(可选的)池化层等构成。如图2所示，每个模块表示一个卷积核，k表示卷积核所在的卷积层的层编号，i和j分别表示该卷积核对应的输入和输出的编号。偏置是一组叠加在卷积层的各个输出上的标量。卷积层的各个输出加上偏置后，被馈送到相应的激活层，以得到相应的隐藏层输出。如图2中所示，隐藏层具有三个输出，该三个输出随后被分别利用第二级卷积子网络进行处理，以得到风格迁移后的图像。

虽然图2示出了3层结构且每个输入对应3个卷积核作为示例，但通常情况下，每个卷积层可包含数十个或数百个卷积核，适用于本公开各个实施例的卷积神经网络可以包含5层以上的卷积层。卷积层的层数在5-8之间的卷积神经网络在训练速度、计算速度和风格迁移效果上能够取得较好的折衷。

在一些实施例中，激活函数可以采用例如RELU或者sigmoid函数。

在一些实施例中，在各级卷积子网络中(例如在卷积层的输出处)可以引入池化层。池化层是下采样的一种形式，能够减小卷积特征的尺寸，以扩大视野，提高风格迁移的全局效果。在一些实施例中，池化层可以采用最大池化层、平均池化层、欠采样层和解复用输出层中的任何一种。

在一些实施例中，可以在卷积神经网络中加入标准化处理层，以用于对所述卷积神经网络的各个卷积层输出的特征映射进行标准化处理。在一些实施例中所述标准化处理可以包括批次标准化处理和实例标准化中的至少一种。通过引入标准化处理，可以使得训练数据接近独立同分布的特点，使得卷积神经网络的训练更加稳定且收敛速度更快。

下面对批次标准化处理和实例标准化处理分别进行说明。

批次标准化处理根据每个特征映射自身的各个元素的均值和方差，对该特征映射进行标准化。假设最小批次(mini-batch)的尺寸为T，某卷积层输出的特征数量为C，每个特征映射均为H行W列的矩阵，则特征映射的形状为(T,C,W,H)，则利用如下公式(1)进行标准化处理：

其中，x_tijk和y_tijk分别是批次标准化处理层的输入和输出，x_tijk表示某卷积层输出的特征映射集合中的第t个块(patch)中第i个特征映射中的第j列第k行的值(x_tilm具有类似的定义，在此不赘述)，μ_i表示该第i个特征映射中的各个元素的均值，表示该i个特征映射中各个元素的方差；ε为一个很小的整数，用于避免分母为0。

实例标准化处理的标准化公式不同于批次标准化处理公式，具体说来，实例标准化处理采用如下公式(2)进行标准化处理：

其中与公式(1)相同的变量和参数具有相同的含义，在此不赘述；此外，μ_ti表示第t个块中第i个特征映射中各个元素的平均值，表示第t个块中第i个特征映射中各个元素的方差。

卷积神经网络的训练

如图1的虚线结合图2，对于根据本公开各种实施例的卷积神经网络的训练过程执行如下：将训练数据集(其中每个训练数据由内容图像100和对应的风格图像102构成)馈送到总损失函数以计算总损失，可以通过包括梯度下降方法、牛顿迭代法等各种优化方法，来针对使得总损失最小化的目标来对卷积神经网络中的各个参数进行优化，以得到训练好的卷积神经网络。

经过训练后，设定了卷积神经网络的卷积核和偏置等。

训练可以离线执行，在得到更新的训练数据集后，也可以对卷积神经网络进行补充训练，离线执行导致在训练时间上相当充裕，从而使得卷积神经网络的风格迁移的满意度能够受益于更新和丰富的训练数据集。

正则损失函数

在一些实施例中，矩阵L的维度为N×N，N是内容图像中的像素数量，L利用公式(3)得到，

其中，L表示所述矩阵，L_(i,j)表示所述矩阵第i行第j列的元素值，k是像素的序数，W_k是以像素k为中心的时窗矩阵，δ_ij是克罗内克函数，是时窗矩阵W_k内像素的方差，|W_k|是时窗矩阵W_k中像素数量的总和，ε为一预设的数值，I_i和I_j分别是对其进行抠图的原始图像的像素矩阵的第i行和第j行的行向量，而μ_k是维度分别与I_i和I_j相同且各个元素均是时窗矩阵W_k内像素的均值的行向量。

具体说来，旨在寻找色彩空间(以RGB为例但并不限于此)的图像局部仿射变换，也就是，将输入图像的某个区域的RGB值映射到输出区块中对应的位置上。输入图像的每个区域的仿射函数随空间变化而不同。这里可以考虑使用边缘检测区块。RGB通道的仿射合并会生成一组变量，但边缘不会移动，因为它在所有通道上都在相同的位置上。在一些实施例中，通过将L应用于输出图像中的各个像素的各个颜色通道的像素值，可以恰当地得到与图像扭曲的正则惩罚项，这个惩罚项的数值越大，那么就表示图像扭曲也就越厉害。

在一些实施例中，所述正则化损失函数可以利用如下公式(4)得到：

其中，L_m表示正则化损失函数，C表示输出图像中的颜色通道的序号，O表示输出图像的像素矩阵，V_C[O]是通过将输出图像在序号为C的颜色通道上的像素值展平所得到的向量。例如，在RGB三原色的情况下，C＝1表示R通道，C＝2表示G通道，C＝3表示B通道。

上述公式(2)仅仅是将L应用于输出图像中的各个像素的各个颜色通道的像素值以得到正则惩罚项的一个示例，具体说来，例如，也可以先对输出图像进行预处理(例如除噪、去背景等)然后再使用公式(4)，或者使用不同于公式(4)的公式，例如对L_m的结果针对N×N进行标准化，以避免图像像素幅值不同导致的图像扭曲度的幅度的偏差。

内容损失函数

在一些实施例中，所述内容损失函数利用如下公式(5)得到：

在特定结构的卷积神经网络中，内容损失函数可以具有简化的定义。例如，参见图3，卷积神经网络300可以基于依序连接的编码器网络301、自适应实例规范化网络302和解码器网络303构成，所述编码器网络301用于为所述内容图像和所述风格图像分别提取内容特征映射和风格特征映射。在一些实施例中，所述内容损失函数是所提取的内容特征映射与自适应实例规范化网络302输出的特征映射之间的标准化处理后的欧式距离，当然，也可以采用欧式距离以外的其他形式的距离。

在一些实施例中，编码器网络301使用第一卷积神经网络来实现。该第一卷积神经网络的深度为16层，以输入图像采用RGB格式(3个通道)的彩色图像为例，其由如下层依序堆叠形成：分别具有64个3×3×3卷积核的第一卷积子层和第二卷积子层(可总称为第一卷积层)，第一池化层(例如最大池化层)，分别具有128个3×3×3卷积核的第三卷积子层和第四卷积子层(可总称为第二卷积层)，第二池化层(例如最大池化层)，分别具有256个3×3×3卷积核的第五卷积子层、第六卷积子层和第七卷积子层(可总称为第三卷积层)，第三池化层(例如最大池化层)，分别具有512个3×3×3卷积核的第八卷积子层、第九卷积子层和第十卷积子层(可总称为第四卷积层)，第四池化层(例如最大池化层)，分别具有512个3×3×3卷积核的第十一卷积子层、第十二卷积子层和第十三卷积子层(可总称为第五卷积层)，第五池化层(例如最大池化层)，三个全连接层以及软性最大化(softmax)层。其中，例如ReLU的激活层和补零(padding)层可应用于相应的卷积子层，在此不赘述。

在一些实施例中，自适应实例规范化网络302被配置为通过特定于内容的实例规范化，然后是特定于风格的仿射变换，将内容特征映射转换为风格特征映射。自适应实例规范化网络302设有风格强度参数，其可用于在内容图像(当风格强度参数为零时)和目标风格图像(当风格强度参数为1时)之间插入输出图像的风格强度。与自适应实例规范化网络302相配合地，可以使用上述第一卷积神经网络来实现编码器网络301，并使用上述第一卷积神经网络的镜像网络来实现解码器网络303。如此，由于自适应实例规范化网络302和作为特征提取网络的第一卷积神经网络的确定性变换，在训练时仍然需要学习的部分是解码器网络303，这能够显著减少训练时间。

作为示例，所述内容损失函数可以利用如下公式(6)来得到：

其中，f(g(t))为自适应实例规范化网络302的输出特征，f(t)为编码器网络301输出的内容特征,t为训练数据的序数，Cl是训练数据的总数，|| ||₂表示欧式距离。

风格损失函数

在一些实施例中，风格损失可以用各种不同的函数来表示。下文中对风格损失函数的一个示例进行说明，但风格损失函数不限于此，现有的对迁移处理卷积神经网络进行训练所使用的各种风格损失函数均可以适用，在此不一一列举。

卷积神经网络中第l层的风格损失E_l定义如下：

其中，A^l和G^l分别为基于风格图像和风格迁移后图像由卷积神经网络中第l层处输出的特征映射的格拉姆(Gram)矩阵,i,j分别为第l层中卷积核的序号和特征映射中的元素(位置)序号，N_l表示该第l层中卷积核的数量，M_l表示该第l层输出的各个特征映射的尺寸(特征映射的行数×列数)，C2是用于对结果进行标准化处理的常数。具体说来，Gram矩阵在本领域中具有明确的定义，例如其可以表示各个通道(颜色通道)的特征映射之间的偏心协方差矩阵。

整个卷积神经网络的风格损失L_style可以利用如下公式表示：

其中w_l为第l层风格损失占总风格损失的权重。

总损失函数

在一些实施例中，用于训练的总损失函数可以表示为内容损失函数、风格损失函数和正则化损失函数的加权总和，具体说来，总损失函数L_total可以定义如下：

L_total＝αL_content+βL_style+γL_m 公式(9)

其中α、β和γ分别为总损失中内容损失L_content、风格损失L_style、正则化损失L_m所占的权重。在一些实施例中，总损失函数L_total可以以加权求和以外的方式来包含内容损失L_content、风格损失L_style、正则化损失L_m三种损失。作为示例，总损失函数L_total还可以包含这三种损失以外的损失项。

在一些实施例中，在总损失函数中的权重α、β，γ之间的比例可以设置在1：1：0.1至2：1：0.1的范围内。利用在此范围的权重比例，可以得到较快的训练速度，训练得到的卷积神经网络的保边效果和风格迁移效果也更好。

比较例

图4示出利用现有的风格迁移算法所得到的结果与利用根据本公开实施例的风格迁移处理方法(其中采用了内容损失函数、风格损失函数和正则化损失函数加权求和所得的总损失函数和相应训练好的卷积神经网络)所得到的结果的对比。图4中最左边的图像是内容图像；第一行是只用内容损失和风格损失两者作为损失函数训练好的卷积神经网络所得到的风格迁移后的图像，其中每张图片左下角的小图为对应的风格图像；第二行是除了内容损失和风格损失之外还计入正则化损失的总损失函数训练好的同样的卷积神经网络所得到的风格迁移后的图像。如图4所示，相较现有的风格迁移算法，根据本公开实施例的风格迁移处理方法保边效果显著更好，风格迁移效果也显著更好。

在一些实施例中，提供一种非易失性计算机存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现根据本公开各种实施例的对图像进行风格迁移处理的方法和/或根据本公开各种实施例的对图像进行风格迁移处理的卷积神经网络的训练方法。在一些实施例中，所述计算机可执行指令可利用软件代码的方式，诸如在执行期间或其他时间有形地存储在一个或多个非易失性有形计算机可读介质上。这些有形的计算机可读介质的示例可以包括但不限于硬盘、可移动磁盘、可移动光盘(例如，光盘和数字视频盘)、磁带盒、存储卡或棒、随机存取存储器(RAM)，只读存储器(ROM)等。

在一些实施例中，还提供一种图像处理装置，如图5所示，该图像处理装置500包括处理器501，所述处理器被配置为执行根据本公开各种实施例的对图像进行风格迁移处理的方法和/或根据本公开各种实施例的对图像进行风格迁移处理的卷积神经网络的训练方法。

处理器501可以是包括一个或多个通用处理装置的处理装置，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地，处理器501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或者运行指令集的组合的处理器。处理器501还可以是一个或多个专用处理装置，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)，片上系统(SoC)等。如本领域技术人员将理解的，在一些实施例中，处理器501可以是专用处理器，而不是通用处理器。处理器501可以包括一个或多个已知的处理装置，例如来自IntelTM制造的Pentium TM、Core TM、Xeon TM或Itanium系列的微处理器，由AMD TM制造的Turion TM、Athlon TM、Sempron TM、Opteron TM、FX TM、Phenom TM系列，或由SunMicrosystems制造的各种处理器。处理器501还可以包括图形处理单元，诸如来自的GPU，由Nvidia TM制造的系列，由Intel TM制造的GMA，Iris TM系列，或由AMD TM制造的Radeon TM系列。处理器501还可以包括加速处理单元，例如由AMD TM制造的Desktop A-4(6,6)系列，由Intel TM制造的Xeon Phi TM系列。

在一些实施例中，所述图像处理装置500可以可选地包括存储器502以存储上述计算机可执行指令，或者使得处理器501通信地耦合到别处的存储器502，以便处理器501可以执行存储在存储器502中的计算机程序指令序列，以执行本文公开的各种操作、过程和方法。

存储器502可以包括只读存储器(ROM)、闪存、随机存取存储器(RAM)、诸如同步DRAM(SDRAM)或Rambus DRAM的动态随机存取存储器(DRAM)、静态存储器(例如，闪存、静态随机存取存储器)等，计算机可执行指令以任何格式存储在其上。计算机程序指令可以由处理器501访问，从ROM或者任何其他合适的存储器位置读取，并且加载在RAM中以供处理器501执行。例如，存储器502可以存储一个或多个软件应用程序。存储在存储器502中的软件应用程序可以包括，例如，用于普通计算机系统的操作系统(未示出)以及用于软控制装置的操作系统。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种用于图像风格迁移的卷积神经网络的训练方法，所述训练方法由计算机实现，其特征在于，所述训练方法包括：

利用训练数据集基于总损失函数对所述卷积神经网络的参数进行优化，所述总损失函数包含内容损失函数、风格损失函数和正则化损失函数。

2.根据权利要求1所述的训练方法，其特征在于，

所述正则化损失函数基于矩阵得到，所述矩阵的维度为N×N，N是内容图像中的像素数量，所述矩阵利用如下公式得到，

所述正则化损失函数基于所述矩阵利用如下公式得到：

3.根据权利要求1所述的训练方法，其特征在于，所述总损失函数通过对内容损失函数、风格损失函数和正则化损失函数加权求和得到。

4.根据权利要求3所述的训练方法，其特征在于，内容损失函数、风格损失函数和正则化损失函数在总损失函数中的权重比例设置在1：1：0.1至2：1：0.1的范围内。

5.根据权利要求1所述的训练方法，其特征在于，所述内容损失函数利用如下公式得到：

6.根据权利要求1所述的训练方法，其特征在于，所述卷积神经网络基于依序连接的编码器网络、自适应实例规范化网络和解码器网络构成，所述编码器网络用于为所述内容图像和所述风格图像分别提取内容特征映射和风格特征映射。

7.根据权利要求6所述的训练方法，其特征在于，编码器网络为第一卷积神经网络，所述解码器网络为所述第一卷积神经网络的镜像网络，所述自适应实例规范化网络被配置为通过特定于内容的实例规范化，然后是特定于风格的仿射变换，将内容特征映射转换为样式特征映射；

其中，所述第一卷积神经网络由如下层依序堆叠来形成：分别具有64个3×3×3卷积核的第一卷积子层和第二卷积子层，第一池化层，分别具有128个3×3×3卷积核的第三卷积子层和第四卷积子层，第二池化层，分别具有256个3×3×3卷积核的第五卷积子层、第六卷积子层和第七卷积子层，第三池化层，分别具有512个3×3×3卷积核的第八卷积子层、第九卷积子层和第十卷积子层，第四池化层，分别具有512个3×3×3卷积核的第十一卷积子层、第十二卷积子层和第十三卷积子层，第五池化层，三个全连接层以及软性最大化层。

8.根据权利要求6所述的训练方法，其特征在于，所述内容损失函数是所提取的内容特征映射与所述自适应实例规范化网络输出的特征映射之间的标准化处理后的欧式距离。

9.一种图像风格迁移方法，其由计算机实现，且其特征在于，所述图像风格迁移方法包括：

接收内容图像和风格图像；

基于所述内容图像和风格图像利用训练好的卷积神经网络来得到风格迁移后的输出图像，其中，所述卷积神经网络使用根据权利要求1-8中的任何一项所述的训练方法来训练。

10.根据权利要求9所述的图像风格迁移方法，其特征在于，将训练好的卷积神经网络应用于具有相同的预定尺寸的所述内容图像和风格图像来得到风格迁移后的输出图像。

11.根据权利要求10所述的图像风格迁移方法，其特征在于，所述图像风格迁移方法包括：

对所接收的内容图像和风格图像进行处理，使之具有相同的预定尺寸。

12.根据权利要求11所述的图像风格迁移方法，其特征在于，

在所述内容图像的尺寸不同于所述预定尺寸时，对所述内容图像的周边进行像素填充或去除所述内容图像的边缘使之具有所述预定尺寸；以及

在所述风格图像的尺寸不同于所述预定尺寸时，对所述风格图像的周边进行图像修补或去除所述风格图像的边缘使之具有所述预定尺寸。

13.一种非易失性计算机存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现根据权利要求1-8中任何一项所述的用于图像风格迁移的卷积神经网络的训练方法，和/或根据权利要求9-12中任何一项所述的图像风格迁移方法。

14.一种图像处理装置，其包括处理器，所述处理器被配置为执行实现根据权利要求1-8中任何一项所述的用于图像风格迁移的卷积神经网络的训练方法，和/或根据权利要求9-12中任何一项所述的图像风格迁移方法。