CN109308679B

CN109308679B - 一种图像风格转换方法及装置、设备、存储介质

Info

Publication number: CN109308679B
Application number: CN201810917979.7A
Authority: CN
Inventors: 贺高远; 柳一村; 陈晓濠; 任思捷
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2022-08-30
Anticipated expiration: 2038-08-13
Also published as: TW202009800A; JP2020533660A; WO2020034481A1; US20200134778A1; US11200638B2; JP6874168B2; SG11202000062RA; TWI749356B; CN109308679A

Abstract

本发明实施例公开了一种图像风格转换方及装置、设备、存储介质，其中，所述方法包括：获取待进行风格转换的初始图像；将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得所述初始图像的在梯度域上的特征图；所述图像风格转换模型是在梯度域基于像素级损失和感知损失训练得到；根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

Description

一种图像风格转换方法及装置、设备、存储介质

技术领域

本发明涉及图像技术，尤其涉及一种图像风格转换方法及装置、设备、存储介质。

背景技术

基于深度学习的图像风格转换是近年来新起的一个研究问题。图像风格转换问题虽然一直都存在，但是2015年德国的研究员Gatys才第一次使用神经网络的方法打开了用深度学习创造图像艺术风格的大门。目前的技术并没有对人脸照片的风格转换进行优化，例如，现有的方法应用到自拍图像上时，普遍存在的缺点是：图像风格转换后导致的人脸边缘的变形及人脸肤色不一致。

发明内容

有鉴于此，本发明实施例为解决现有技术中存在的至少一个问题而提供一种图像风格转换方法及装置、设备、存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种图像风格转换方法，所述方法包括：

获取待进行风格转换的初始图像；

将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得所述初始图像的在梯度域上的特征图；所述图像风格转换模型是在梯度域基于像素级损失和感知损失训练得到；

根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

在其他实施例中，所述方法还包括：

训练所述图像风格转换模型；

其中，所述图像风格转换模型的训练目标为总的损失L_total最小，其中，L_total采用下式来表示：

L_total＝αL_feat+βL_pixel；

其中，所述L_feat表示感知损失，所述L_pixel表示像素级损失，所述α和所述β的取值均为实数。

在其他实施例中，所述图像风格转换模型包括像素级损失模型和感知损失模型，其中所述像素级损失模型是通过在梯度域将像素级损失最小作为训练目标而得到的，所述感知损失模型是通过在梯度域训练将感知损失最小作为训练目标而得到的。

在其他实施例中，所述像素级损失模型和所述感知损失模型的训练过程包括：

将训练样本的梯度输入所述像素级损失模型，从所述像素级损失模型获得所述训练样本的样本输出结果；

确定所述训练样本对应的风格化的参考图像的梯度；

根据所述参考图像的梯度在所述感知损失模型的第j层卷积层的第一输出特征图，和根据样本输出结果在所述感知损失模型的第j层卷积层的第二输出特征图，训练所述感知损失模型。

在其他实施例中，所述根据所述参考图像的梯度在所述感知损失模型的第j层卷积层的第一输出特征图，和根据样本输出结果在所述感知损失模型的第j层卷积层的第二输出特征图，训练所述感知损失模型，包括：

采用下式训练所述感知损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型的输出结果；

表示第i个训练样本的风格化的参考图像的梯度；ψ_j()表示感知损失模型采用感知损失模型时的第j层卷积层的输出特征图，C_jH_jW_j别表示第j层卷积层对应的特征图的通道数、高和宽。

在其他实施例中，所述像素级损失模型的训练过程包括：

将训练样本的梯度作为所述像素级损失模型的输入，从所述像素级损失模型获得样本输出结果；

确定所述训练样本对应的风格化的参考图像的梯度；

根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型。

在其他实施例中，所述像素级损失模型包括第一卷积层集合、上采样层和第二卷积层集合，所述根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型包括：

将所述训练样本的梯度输入到所述第一卷积层集合，得到样本特征图；

将所述样本特征图输入到所述上采样层，上采样至所述初始图像的像素尺寸；

将上采样后的样本特征图输入到所述第二卷积层集合，得到样本输出结果。

在其他实施例中，所述根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型，包括：

根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型；

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型F_W的输出结果；

表示第i个训练样本的风格化的参考图像的梯度。

在其他实施例中，所述根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型，包括：

采用下式训练所述像素级损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的风格化的参考图像的梯度，D表示训练样本集合中的样本数。

在其他实施例中，所述根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，作为所述风格图像；

其中，所述与所述初始图像的在梯度域上的特征图满足结构相似度条件，包括：

所述风格图像与所述初始图像的结构差异程度小于相似度阈值，或者，所述风格图像与所述初始图像的结构差异程度最小，其中，结构差异程度为梯度域上的风格图像与所述初始图像的在梯度域上的特征图在至少一个参考方向的变化趋势。

在其他实施例中，所述根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：

根据

进行图像重构，得到风格图像；

其中：

表示所述初始图像在x方向的梯度，

表示所述初始图像在x方向的梯度经过所述图像风格转换模型的在梯度域上的特征图，

表示所述初始图像在y方向的梯度，

表示所述初始图像在y方向的梯度经过所述图像风格转换模型的在梯度域上的特征图,

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

在其他实施例中，所述根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：

将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像满足颜色相似度条件的图像，作为所述风格图像。

在其他实施例中，所述方法还包括：

对所述初始图像进行特征提取，得到所述初始图像中的人脸区域；

对应地，所述根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像中的人脸区域满足颜色相似度条件的图像，作为所述风格图像。

在其他实施例中，所述将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像满足颜色相似度条件的图像，作为所述风格图像，包括：

根据

进行图像重构，得到风格图像；

其中：I表示初始图像，S表示风格图像，

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示所述初始图像在y方向的梯度经过所述图像风格转换模型的在梯度域上的特征图，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

在其他实施例中，所述将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得初始图像的在梯度域上的特征图，包括：

确定所述初始图像在至少一个参考方向的梯度；

将在至少一个参考方向的梯度输入到图像风格转换模型，从所述图像风格转换模型对应获得初始图像在至少一个参考方向的在梯度域上的特征图；

对应地，根据在至少一个参考方向的在梯度域上的特征图进行图像重构，得到风格图像。

在其他实施例中，所述至少一个参考方向包括在平面参考坐标系中的x、y方向上，对应地，

确定所述初始图像分别在x、y方向上的梯度；

分别将在x、y方向上的梯度输入到图像风格转换模型，从所述图像风格转换模型对应获得初始图像在x、y方向上的在梯度域上的特征图；

对应地，根据在x、y方向上的在梯度域上的特征图进行图像重构，得到风格图像。

本发明实施例提供一种图像风格转换装置，所述装置包括：

获取单元，用于获取待进行风格转换的初始图像；

获得单元，用于将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得所述初始图像的在梯度域上的特征图；所述图像风格转换模型是在梯度域基于像素级损失和感知损失训练得到；

重构单元，用于根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

在其他实施例中，所述装置还包括：

训练单元，用于训练所述图像风格转换模型，其中所述图像风格转换模型的训练目标为总的损失L_total最小，其中，L_total采用下式来表示：

L_total＝αL_feat+βL_pixel；

在其他实施例中，所述图像风格转换模型包括像素级损失模型和感知损失模型，其中所述像素级损失模型是通过在梯度域将像素级损失最小作为训练目标而得到，所述感知损失模型是通过在梯度域训练将感知损失最小作为训练目标而得到。

在其他实施例中，所述训练单元包括：

第一输入模块，用于将训练样本的梯度输入所述像素级损失模型，从所述像素级损失模型获得所述训练样本的样本输出结果；

第一确定模块，用于确定所述训练样本对应的风格化的参考图像的梯度；

第一训练模块，用于根据所述参考图像的梯度在所述感知损失模型的第j层卷积层的第一输出特征图，和根据样本输出结果在所述感知损失模型的第j层卷积层的第二输出特征图训练所述感知损失模型。

在其他实施例中，所述第一训练模块，用于采用下式训练所述感知损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型的输出结果；

在其他实施例中，所述训练单元包括：

第二确定模块，用于确定训练样本的梯度；

第二输入模块，用于将所述训练样本的梯度作为所述像素级损失模型的输入，从所述像素级损失模型获得样本输出结果；

第三确定模块，用于确定所述训练样本对应的风格化的参考图像的梯度；

第二训练模块，用于根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型。

在其他实施例中，所述像素级损失模型包括第一卷积层集合、上采样层和第二卷积层集合，所述第二训练模块包括：

第一输入子模块，用于将所述训练样本的梯度输入到所述第一卷积层集合，得到样本特征图；

上采样子模块，用于将所述样本特征图输入到所述上采样层，上采样至所述初始图像的像素尺寸；

第二输入子模块，用于将上采样后的样本特征图输入到所述第二卷积层集合，得到样本输出结果。

在其他实施例中，所述第二训练模块，用于根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型；

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的风格化的参考图像的梯度。

在其他实施例中，所述第二训练模块，用于采用下式训练所述像素级损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

在其他实施例中，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，作为所述风格图像；

在其他实施例中，所述重构单元，用于：

根据

进行图像重构，得到风格图像；

其中：

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

在其他实施例中，所述重构单元，用于根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

在其他实施例中，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像满足颜色相似度条件的图像，作为所述风格图像。

在其他实施例中，所述装置还包括：

提取单元，用于对所述初始图像进行特征提取，得到所述初始图像中的人脸区域；

对应地，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像中的人脸区域满足颜色相似度条件的图像，作为所述风格图像。

在其他实施例中，所述重构单元，用于根据

进行图像重构，得到风格图像；

其中：I表示初始图像，S表示风格图像，

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

在其他实施例中，所述获得单元，包括：

第四确定模块，用于确定所述初始图像在至少一个参考方向的梯度；

获得模块，用于将在至少一个参考方向的梯度输入到图像风格转换模型，从所述图像风格转换模型对应获得初始图像在至少一个参考方向的在梯度域上的特征图；

对应地，所述重构单元，用于根据在至少一个参考方向的在梯度域上的特征图进行图像重构，得到风格图像。

确定单元，用于确定所述初始图像分别在x、y方向上的梯度；

所述获得单元，用于分别将在x、y方向上的梯度输入到图像风格转换模型，从所述图像风格转换模型对应获得初始图像在x、y方向上的在梯度域上的特征图；

对应地，所述重构单元，用于根据在x、y方向上的在梯度域上的特征图进行图像重构，得到风格图像。

本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时上述图像风格转换方法中的步骤。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述图像风格转换方法中的步骤。

本发明实施例提供的图像风格转换方法及装置、设备、存储介质，其中，获取待进行风格转换的初始图像；将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得所述初始图像的在梯度域上的特征图；所述图像风格转换模型是在梯度域基于像素级损失和感知损失训练得到；根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像；如此，通过在梯度域基于像素级损失和感知损失训练得到的图像风格转换模型，能够克服相关技术中人脸的边缘变形和颜色不一致的缺点，能够在实现图像风格转换的同时，对输入的初始图像进行美化和增强。

附图说明

图1为本发明实施例网络架构的组成结构示意图；

图2A为本发明实施例图像风格转换方法的实现流程示意图；

图2B为本发明实施例的下载场景示意图；

图3A为本发明实施例的实施场景示意图一；

图3B为本发明实施例的实施场景示意图二；

图4A为本发明实施例的实施场景示意图三；

图4B为本发明实施例的实施场景示意图四；

图5A为本发明实施例提供的卷积神经网络模型的组成结构示意图；

图5B为本发明实施例像素级损失模型的组成结构示意图；

图6为本发明实施例图像风格转换装置的组成结构示意图；

图7为本发明实施例中计算机设备的一种硬件实体示意图。

具体实施方式

使用神经网络的方法生成风格图的过程一般是这样的：利用神经网络模型例如VGG16模型或VGG19，对一张原图(Content Image)和一张风格图像(Style Image)分别进行图像特征提取，即对原图提取内容特征，对风格图提取风格特征。通过利用对内容特征和风格特征构造损失函数，对一张随机初始化图像进行损失值计算并反馈重绘图像得到生成图(Generated Image)，这张生成图在内容上会与原图相似，在风格上会与风格图像相似。但是这个算法每一次生成一张图像都需要进行一次训练，需要耗费的时间比较长。

基于快速风格转移算法，训练一个网络，对于任意一张图像都可以转换成为网络对应的风格，所以每次生成一张图像仅仅是前向传播一次网络，速度会很快。

快速转移算法一般包含两个网络：一个为图像转换网络(Image TransformNetwork)，一个为损失网络(Loss Network)。图像转换网络用来对图像进行转换，它的参数是变化的，而损失网络的参数是保持不变的，可以用在ImageNet图像库训练好的VGG-16网络作为损失网络，原图经过图像转换网络的结果图、风格图和原图这3张图都通过损失网络，对其提取感知损失(Perceptual Loss)，利用感知损失来对图像转换网络进行训练。在训练阶段利用大量图像对图像转换网络进行训练得到模型，在输出阶段套用模型进行输出得到生成图，这样得出的网络相对Gatys的模型得到生成图的速度快上三个数量级。

但是，目前的技术并没有对人脸照片的风格转换进行优化，例如：现有的方法应用到自拍图像上时，普遍存在两个明显的缺点：1)人脸的边缘可能会偏离与原始的图像，即输出图像的结构信息发生变化；2)人脸的肤色可能与原始的肤色不一致，即输出图像的颜色信息发生变化。这样导致一个后果就是，在风格化之后，会让用户觉得不像是本人，例如初始图像中用户A的人像是圆脸，经过风格化之后，输出的风格图像中用户A的人像是锥子脸；再如，用户B的皮肤白皙，风格化之后，输出的风格图像的用户B的皮肤黝黑。即如何更好地保持原初始图像的结构信息和颜色信息成为需要解决的问题。

为了解决目前技术中的问题，本发明实施例提出了一种完全基于图像梯度域的图像风格转换的卷积神经网络(Convolutional Neural Networks，CNN)结构；由于梯度域学习的保边性，使得本实施例提供的图像风格转换网络可以克服以前方法的边缘形变的缺点。

本发明实施例中，在图像风格转换的图像重构阶段，引入了称为颜色置信度(color confidence)的术语来保持结果图像皮肤颜色上的逼真性。图像重构阶段既利用了原图的结构信息，也利用了原图的颜色信息，这样可以使得结果更为自然。

本发明实施例中，首次直接在梯度域使用感知损失(perceptual loss)，使得学习到的风格信息更聚焦在笔画上而不是颜色上，使得其更适合与人脸的风格转换任务。

为了更好地理解本发明的各实施例，现对有关名词进行解释：

采样操作，通常采样操作指的是下采样(subsampled)操作或降采样(down-sampled)，如果采样对象是连续信号，那么连续信号经过下采样操作之后，得到的是离散信号。对于图像来说，下采样操作的目的可能是为了在计算上比较方便而缩小图像。下采样操作的原理：对于一幅图像I尺寸为M*N，对其进行s倍下采样，即得到(M/s)*(N/s)尺寸的得分辨率图像，当然s应该是M和N的公约数才行，如果考虑的是矩阵形式的图像，就是把原始图像s*s窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。

上采样操作，是下采样操作的逆过程，也称增取样(Up-sampling)或内插(Interpolating)。对于图像而言，经过上采样操作可以得到高分辨率的图像。上采样操作的原理：图像放大几乎都是采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的像素。

通道(channel)，该词语有两种不同的含义，第一种是对于样本图像(图像作为训练样本)，通道是指颜色通道(Number of color channels in the example images)，下面将用颜色通道来表示样本图像的通道；第二种是输出空间的维数，例如卷积操作中输出通道的个数(The dimensionality of the output space,i.e.the number of outputchannels(filters)in the convolution)，或者说每个卷积层中卷积核的数量。

颜色通道，把图像分解成一个或多个颜色成分或颜色分量。

单颜色通道，一个像素点只需一个数值表示，只能表示灰度，0为黑色。

三颜色通道，如果采用红绿蓝(Red Green Blue，RGB)色彩模式，把图像分为红绿蓝三个颜色通道，可以表示彩色，全0表示黑色。

四颜色通道，在RGB色彩模式的基础上加上alpha通道，表示透明度，alpha＝0表示全透明。

卷积神经网络，是一种多层的监督学习神经网络，隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。卷积神经网络的低隐层是由卷积层和最大池采样层交替组成，高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器，可以采用逻辑回归，Softmax回归甚至是支持向量机对初始图像进行分类。CNN中每一层的由多个map组成，每个map由多个神经单元组成，同一个map的所有神经单元共用一个卷积核(即权重)，卷积核往往代表一个特征，比如某个卷积核代表一段弧，那么把这个卷积核在整个图像上卷积一遍，卷积值较大的区域就很有可能是一段弧。CNN一般采用卷积层与采样层交替设置，即一层卷积层接一层采样层，采样层后接一层卷积；当然也可以多个卷积层接一个采样层，这样卷积层提取出特征，再进行组合形成更抽象的特征，最后形成对图像对象的描述特征，CNN后面还可以跟全连接层。

卷积神经网络结构包括卷积层、降采样层和全连接层。每一层有多个特征图，每个特征图通过一种卷积滤波器提取输入的一种特征，每个特征图有多个神经元。

卷积层，使用卷积层的原因是卷积运算的一个重要特点是，通过卷积运算，可以使原信号特征增强，并且降低噪音。

降采样层，使用降采样的原因是，根据图像局部相关性的原理，对图像进行子采样可以减少计算量，同时保持图像旋转不变性。

全连接层，采用softmax全连接，得到的激活值即卷积神经网络提取到的图像特征。

激活函数，神经元是一个多层感知机的基本单元，它的函数就成为激活传输。即对于一个神经元来说，输入是部分或全部的卷积神经网络的输入或部分或全部的前一层的输出，经过激活函数的计算，得出的结果作为神经元的输出结果。常用的激活函数有sigmoid函数、tanh函数、线性整流函数(Rectified Linear Unit，ReLu)。

ReLu函数，其公式即为个ReLu(x)＝max(0,x)，从ReLu函数的图形可以看出ReLu与其他激活函数例如sigmoid函数相比，主要变化有三点：①单侧抑制；②相对宽阔的兴奋边界；③稀疏激活性。

像素级损失(Pixel-wise Loss)，假设I_est是卷积神经网络的输出结果，I_HR是原始高分辨率图像，那么pixel-wise loss强调的是两幅图像I_est和I_HR之间每个对应像素的匹配，这与人眼的感知结果有所区别。一般来说，通过pixel-wise loss训练的图像通常会较为平滑，缺少高频信息。

感知损失(Perceptual Loss)，假设I_est表示卷积神经网络的输出结果，I_HR表示原始高分辨率图像，将I_est和I_HR分别输入到一个可微分的函数Φ中，这样避免了要求网络输出图像与原始高分辨率图像在pixel-wise上的一致。

VGG模型，VGG模型结构简单有效，前几层仅使用3×3卷积核来增加网络深度，通过最大池化(max pooling)依次减少每层的神经元数量，最后三层分别是2个有4096个神经元的全连接层和一个softmax层。“16”和“19”表示网络中的需要更新需要权重(即weight，要学习的参数)的网络层数，VGG16模型和VGG19模型的权重都由ImageNet训练而来。

模型参数，一般可以理解为模型内部的配置变量，可以用历史数据或训练样本估计模型参数的值，或者说，模型参数是可以通过历史数据或训练样本自动学习出的变量。在某种程度上，模型参数有以下特征：进行模型预测时需要模型参数；模型参数值可以定义模型功能；模型参数用数据估计或数据学习得到；模型参数一般不由实践者手动设置；模型参数通常作为学习模型的一部分保存；通常使用优化算法估计模型参数，优化算法是对参数的可能值进行的一种有效搜索。在人工神经网络中，网络模型的权重、偏差一般称为模型参数。

模型超参数，一般可以理解为模型外部的配置，其值不能从数据估计得到。在某种程度上，模型超参数特征有：模型超参数常应用于估计模型参数的过程中；模型超参数通常由实践者直接指定；模型超参数通常可以使用启发式方法来设置；模型超参数通常根据给定的预测建模问题而调整。换句话说，模型超参数就是用来确定模型的一些参数，超参数不同，模型是不同的。这个模型不同的意思就是有微小的区别，比如假设都是CNN模型，如果层数不同，模型不一样，虽然都是CNN模型哈。在深度学习中，超参数有：学习速率、迭代次数、层数、每层神经元的个数等等。

下面结合附图和实施例对本发明的技术方案进一步详细阐述。

本实施例先提供一种网络架构，图1为本发明实施例网络架构的组成结构示意图，如图1所示，该网络架构包括两个或多个电子设备11至1N和服务器31，其中电子设备11至1N与服务器31之间通过网络21进行交互。电子设备在实现的过程中可以为各种类型的具有信息处理能力的计算机设备，例如所述电子设备可以包括手机、平板电脑、台式机、个人数字助理、导航仪、数字电话、电视机等。

本实施例提出一种图像风格转换方法，能够有效解决输出图像的结构信息与初始图像相比发生变化的问题，该方法应用于电子设备，该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。

图2A为本发明实施例图像风格转换方法的实现流程示意图，如图2A所示，该方法包括：

步骤S201，获取待进行风格转换的初始图像；

本实施例提供的图像风格转换方法在实现的过程中可以通过客户端(应用程序)来体现。参见图2B所示，用户在自己上的电子设备12上从服务器31下载客户端，例如，电子设备12向服务器31发送下载请求，该下载请求用于下载客户端，服务器31响应该下载请求，服务器31向电子设备12发送下载响应，该下载响应中携带有客户端，例如安卓系统时的安卓应用包(Android Package，APK)然后用户在自己的电子设备上安装下载的客户端，然后电子设备运行客户端，即电子设备可以实现本实施例提供的图像风格转换方法。

如果步骤S201是在电子设备侧实现，那么实现过程可以是这样的：当用户从相册中选择一张图片，客户端接收用户的选择图片的操作，即客户端将选择的图片确定为待进行风格转换的初始图像；或者，用户用电子设备的相机或外置相机拍摄一张照片，客户端接收用户拍摄照片的操作，即客户端将拍摄的照片确定为待进行风格转换的初始图像。本领域的技术人员应当理解，该步骤还可以有其他的实施方式。

步骤S202，将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得所述初始图像的在梯度域上的特征图；

这里，所述图像风格转换模型是经过训练的，并且在梯度域基于像素级损失和感知损失训练得到。在其他实施例中，所述图像风格转换模型是通过在梯度域将像素级损失和感知损失作为训练目标而得到的；

步骤S203，根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

其中风格图像，是重构的进行风格化的图像。

在实现的过程中，经过训练的图像风格转换模型可以在电子设备的本地，也可以是在服务器端。当经过训练的图像风格转换模型在电子设备本地时，可以是电子设备安装客户端的时候，即安装了经过训练的图像风格转换模型，这样，参见图3A所示，电子设备通过步骤S201获得初始图像，然后通过步骤S202获得所述初始图像的在梯度域上的特征图(即输出结果)，最后通过步骤S203获得输出的风格图像。从以上过程可以看出，电子设备在安装完客户端之后，上述的步骤S201至步骤S203都在电子设备本地执行，最后，电子设备将得到的风格图像输出给用户。

在其他的实施例中，经过训练的图像风格转换模型也可以位于服务器端，参见图3B所示，这样电子设备将初始图像发送给服务器，这样服务器接收电子设备发送的初始图像，这样服务器实现了步骤S201，换句话说，如果上述的方法是在服务器端实现，那么步骤S201，包括：服务器接收电子设备发送的初始图像，即服务器获取待进行风格转换的初始图像，然后服务器通过步骤S202获得所述初始图像的在梯度域上的特征图，最后通过步骤S203获得输出的风格图像；从以上过程可以看出，上述的步骤S201至步骤S203都在服务器端执行，最后服务器还可以将风格图像发送给电子设备，这样电子设备接收到风格图像后，输出风格图像给用户。本实施例中，电子设备在安装完客户端之后，用户上传用户的初始图像，以及接收服务器发送的风格图像，并将风格图像输出给用户。

在其他的实施例中，上述的步骤S201至步骤S203还可以有部分是由电子设备来完成的，也可以有部分是由服务器来完成，例如，参见图4A，步骤S201和步骤S202可以由电子设备在本地来执行，然后电子设备将初始图像的在梯度域上的特征图发送给服务器，服务器执行步骤S203之后，得到风格图像，然后再将风格图像发送给电子设备，由电子设备输出风格图像。又如，参见图4B，步骤S201和步骤S202可以由服务器来执行，服务器将初始图像的在梯度域上的特征图发送给电子设备，电子设备执行步骤S203之后，得到风格图像，然后再将风格图像输出给用户。

在其他的实施例中，所述方法还包括：训练所述图像风格转换模型，其中，所述图像风格转换模型的训练目标为总的损失L_total最小，其中，L_total采用下式来表示：

L_total＝αL_feat+βL_pixel；

其中，所述L_feat表示感知损失，所述L_pixel表示像素级损失，所述α和所述β的取值均为实数。所述α与所述β的比值大于10且小于10的五次方。本领域的例如，所述α的取值为10000，所述β的取值为1。本领域的技术人员应当理解，所述α与所述β的取值可以根据具体的应用场景而进行相应设置，本发明实施例对其取值不作限定。

在其他的实施例中，所述图像风格转换模型包括像素级损失模型和感知损失模型，其中，所述像素级损失模型是通过在梯度域将像素级损失最小作为训练目标而得到的像素级损失模型，所述的感知损失模型是通过在梯度域训练将感知损失最小作为训练目标而得到的。

其中，所述像素级损失模型为像素级损失模型，且所述感知损失模型为感知损失模型时的训练过程，包括：

步骤S11，确定训练样本的梯度；

假设用I_i表示第i个训练样本时，确定第i个训练样本I_i的梯度为

步骤S12，将所述训练样本的梯度输入所述像素级损失模型，从所述像素级损失模型获得所述训练样本的样本输出结果；

其中，将第i个训练样本I_i的梯度

输入所述像素级损失模型F_W，从像素级损失模型获得训练样本的样本输出结果

步骤S13，确定所述训练样本对应的风格化的参考图像的梯度；

其中，风格化的参考图像可以为用现有的风格化算法得到的令人不满意的风格化参考图片，那么假设所述训练样本I_i对应的风格化的参考图像为

那么参考图像的梯度为

步骤S14，根据所述参考图像的梯度在所述感知损失模型的第j层卷积层的第一输出特征图，和根据样本输出结果在所述感知损失模型的第j层卷积层的第二输出特征图训练所述感知损失模型。

其中，第j卷积层可以是卷积神经网络模型中的任意一层，当该卷积神经网络为VGG16时，第j卷积层可以为VGG16中的conv3-3层。

在其他的实施例中，所述像素级损失模型包括第一卷积层集合、上采样层和第二卷积层集合，所述根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型包括：

在其他的实施例中，所述根据所述参考图像的梯度在所述感知损失模型的第j层卷积层的第一输出特征图，和根据样本输出结果在所述感知损失模型的第j层卷积层的第二输出特征图，训练所述感知损失模型，包括：

采用下式训练所述感知损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型的输出结果；

表示第i个训练样本的风格化的参考图像的梯度；ψ_j()表示感知损失模型采用卷积神经网络模型时的第j层卷积层的输出特征图，C_jH_jW_j别表示第j层卷积层对应的特征图的通道数、高和宽。

在其他的实施例中，当所述卷积神经网络模型采用VGG16时，第j层卷积层为conv3-3。

在其他的实施例中，所述像素级损失模型为像素级损失模型时的训练过程包括：

步骤S21，确定训练样本的梯度；

步骤S22，将所述训练样本的梯度作为所述像素级损失模型的输入，从所述像素级损失模型获得样本输出结果；

步骤S23，确定所述训练样本对应的风格化的参考图像的梯度；

步骤S24，根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型。

其中，所述根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型，包括：

根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型；

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的风格化的参考图像的梯度。

在其他的实施例中，所述根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型，包括：

采用下式训练所述像素级损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型的输出结果；

在其他的实施例中，所述根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：

将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，作为所述风格图像。

其中，所述与所述初始图像的在梯度域上的特征图满足结构相似度条件，包括：所述风格图像与所述初始图像的结构差异程度小于相似度阈值或者，所述风格图像与所述初始图像的结构差异程度最小，其中，结构差异程度为梯度域上的风格图像与所述初始图像的在梯度域上的特征图在至少一个参考方向的变化趋势。

其中，参考方向可以取图像的在平面参考坐标系中的x、y方向，当然可以有其他更多的方向，或者只使用一个方向。差异程度可以采用差值或差值的绝对值或基于差值的各种数学变形运算(例如在x、y方向差值的绝对值的平方和，即

其中I表示初始图像，S表示风格图像，‖‖表示绝对值符号)。

根据

进行图像重构，得到风格图像；

其中：

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

其中，所述根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：

在其他的实施例中，所述方法还包括：对所述初始图像进行特征提取，得到所述初始图像中的人脸区域；

其中颜色相似度条件，即颜色信息满足的颜色相似条件，即风格图像与初始图像的颜色的差异程度即小于设定值或最小，其中，颜色的差异程度采用待处理图像与目标图像的采样点的颜色值的差值表示，即采用‖S-I‖表示，其中I表示初始图像，S表示风格图像)。

本实施例中，为了不改变初始图像的颜色或者人脸的脸色，因此设置了颜色相似度条件，其中，颜色相似度条件中可以整个初始图像的颜色，也可以是初始图像中人脸的颜色。

需要说明的是，上述两个条件结构相似度条件和颜色相似度条件，从理论上可以单独使用，即只使用一个条件来计算风格图像；也可以同时采用两个，同时分配对应的系数(权重)，例如λ的取值为实数。

在其他的实施例中，所述将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像满足颜色相似度条件的图像，作为所述风格图像，包括：

根据

进行图像重构，得到风格图像；

其中：I表示初始图像，S表示风格图像，

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

在其他的实施例中，所述将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得初始图像的在梯度域上的特征图，包括：

步骤S31，确定所述初始图像在至少一个参考方向的梯度；

步骤S32，将在至少一个参考方向的梯度输入到图像风格转换模型，从所述图像风格转换模型对应获得初始图像在至少一个参考方向的在梯度域上的特征图；

在其他的实施例中，所述至少一个参考方向包括在平面参考坐标系中的x、y方向上，对应地，

所述确定所述初始图像在至少一个参考方向的梯度，包括：确定所述初始图像分别在x、y方向上的梯度；

所述将在至少一个参考方向的梯度输入到图像风格转换模型，从所述图像风格转换模型对应获得初始图像在至少一个参考方向的在梯度域上的特征图，包括：分别将在x、y方向上的梯度输入到图像风格转换模型，从所述图像风格转换模型对应获得初始图像在x、y方向上的在梯度域上的特征图；

对应地，所述根据在至少一个参考方向的在梯度域上的特征图进行图像重构，得到风格图像，包括：根据在x、y方向上的在梯度域上的特征图进行图像重构，得到风格图像。

下面分三阶段来介绍本实施例的技术方案：第一阶段先绍一下本发明实施例提供的卷积神经网络模型的结构，然后在第二阶段介绍一下提供的卷积神经网络模型的训练过程，接着在第三阶段介绍一下利用训练的卷积神经网络进行图像重建的过程，即对初始图像进行图像风格转换的方法。

第一阶段：卷积神经网络模型的结构

图5A为本发明实施例提供的卷积神经网络模型的组成结构示意图，如图5A所示，该卷积神经网络网络由两部分构成：

第一部分是要训练的卷积神经网络51(第一卷积神经网络)，其将自拍图像的梯度作为输入，后面接连续的卷积层和ReLu层，然后采用上采样操作将特征图(feature map)上采样至原图大小，最后与艺术风格的参考图像的梯度计算像素级损失(Pixel-wise Loss)L_pixel；

其中，将自拍图像的梯度作为输入包括：将自拍图像在x方向上的梯度

和自拍图像在y方向上的梯度

分别作为卷积神经网络的输入。

在卷积神经网络中，卷积层的每一个卷积滤波器重复的作用于整个感受野中，对输入的自拍图像进行卷积，卷积的结果构成了输入的自拍图像的特征图，这样就提取出了自拍图像的局部特征。

卷积神经网络的一个特点就是：最大池化(max-pooling)采样，它是一种非线性降采样方法，从最大池化的数学公式可以看出，最大池化即对邻域内特征点取最大。在通过卷积获取图像特征之后是利用这些特征进行分类，在获取图像的卷积的特征图后，要通过最大池采样方法对卷积特征进行降维。将卷积特征划分为数个的不相交区域，用这些区域的最大(或平均)特征来表示降维后的卷积特征。最大池采样方法的作用体现在两个方面：(1)、它减小了来自上层隐藏层的计算复杂度；(2)、这些池化单元具有平移不变性，即使图像有小的位移，提取到的特征依然会保持不变。由于增强了对位移的鲁棒性，最大池采样方法是一个高效的降低数据维度的采样方法。

第二部分是在ImageNet中已经训练好的VGG-16网络52(第二卷积神经网络)，用来计算感知损失(perceptual loss)L_feat。实际使用VGG-16的conv3-3层的输出来计算感知损失。

最后，将第一部分的L_pixel和第二部分的L_feat加在一起就是要计算的最终的总的目标函数(即总的损失L_total)。

在一种实施例中，总的目标函数L_total可以采用下面的公式(3-1)来计算。

L_total＝αL_feat+βL_pixel (3-1)；

其中，α和β的取值均为实数。例如，在训练中可以将α和β分别设为整数。

下面简单介绍一下图像梯度，图像梯度是描述图像像素之间差异的一种方法，可以作为图像的一种特征表征图像。从数学角度而言，图像梯度是指像素的一阶导数，可以用下面的公式来表示图像x方向的梯度

和y方向的梯度

分别用下面的公式(3-2)和公式(3-3)来表示：

需要说明的是，计算图像的梯度本身就有很多计算方法，只要能够描述像素之间的差异即可，本领域的技术人员应当理解，计算图像的梯度并不是一定用上述公式(3-2)和公式(3-3)，事实上通常用的也是其它公式。例如，如果是叠加卷积操作来计算图像梯度，那么所使用的模板，通常为称其为梯度算子，常见的梯度算子有Sobel算子、Robinson算子、Laplace算子等。

第二阶段：对第一部分的卷积神经网络的训练过程

首先，确定训练样本，假设采集了D组训练图像

其中I_i表示第i张原始图像，

表示对第i张原始图像I_i采用现有的风格化算法得到的令人不满意的风格化参考图像。

图3中第一部分所计算的像素级损失L_pixel的定义如公式(4-1)所示：

公式(4-1)中，

表示第i张原始图像I_i在x方向的梯度或梯度表示，

表示y方向的梯度或梯度表示。

表示原始图像的梯度，

表示原始图像I_i的在x方向上的梯度，

表示原始图像I_i的在y方向上的梯度。F_W表示第一部分的卷积神经网络模型，所以

表示第i张原始图像I_i的梯度经过卷积神经网络网络的结果，

表示第i张原始图像I_i在x方向上的梯度经过卷积神经网络网络的结果，

表示第i张原始图像I_i在y方向上的梯度经过卷积神经网络网络的结果。

表示第i张原始图像I_i的风格化参考图像的梯度，

表示第i张原始图像I_i的风格化参考图像在x方向上的梯度，

表示第i张原始图像I_i的风格化参考图像在y方向上的梯度。

图3中第二部分所计算的感知损失L_feat的定义如公式(4-2)所示：

公式(4-2)中，ψ_j()表示VGG-16网络的第j层卷积层的输出特征图(feature map)，C_j、H_j、W_j分别表示第j层卷积层对应的特征图的通道数、高和宽。

在实施的过程中，使用VGG-16的conv3-3层。

和

的含义同第一部分相同，

表示原始图像的梯度经过网络的结果；

表示原始图像的风格化参考图像的梯度。

总的目标函数是感知损失L_feat与像素级损失L_pixel二者的和；

L_total＝αL_feat+βL_pixel (4-3)；

公式(4-3)中，α和β的取值均为实数。例如，在训练中可以将α和β分别设为整数。

在训练中将α和β分别设为了10000和1，用英伟达的Titan X GPU进行了100K次的迭代，使用adam优化方法来对目标函数公式3进行优化，前50K次迭代，将学习率设为10^-8，后50K次，将学习率设为10^-9。

需要说明的是，本领域的技术人员在实施的过程中，可以对公式(4-1)和公式(4-2)进行一些修改。对公式(4-1)，只要这些修改能够表示出像素级损失即可，例如，将公式(4-1)中的

修改为别的数值，例如

或

等等，将将公式(4-1)中的绝对值的平方修改为绝对值，或者，将将公式(4-1)中的绝对值的平方修改为绝对值的平方根。

第三阶段、图像重建过程

当新输入一张图像，如新的自拍图像，为得到其对应的风格图像，采用如下的公式(5)来确定输出的风格化的图像。

公式(5)中，I表示新的自拍图像即初始图像，S表示新的自拍图像对应的风格图像。

表示自拍图像x方向的梯度，

表示自拍图像x方向的梯度经过训练好的模型的输出，同样的

是自拍图像y方向的梯度，

表示自拍图像y方向的梯度经过训练好的模型的输出,

表示风格图像x方向的梯度，

表示风格图像y方向的梯度。

在上式中‖S-I‖是利用了原图的色彩信息进行图像重构，可以称为颜色置信度(color confidence)；

是利用了原图的结构信息进行图像重构，λ表示这两个信息的权重参数。

在实施的过程中，λ取10。通过对上式进行优化，即可得到S，即新的自拍图像的风格图像。

从以上实施例可以看出，本实施例实现了一种面向自拍的图像风格转换算法，克服了之前的风格转换方法应用到人脸上时的两个重要缺点：一，人脸边缘的变形；二，人脸肤色的不一致。本实施例的神经网络结构完全是在梯度域进行学习。相比于其他的图像风格转换方法，本方法在自拍照片的风格转换，会克服之前方法边缘形变和颜色不一致的缺点，能够在实现图像风格转换的同时，对图像进行美化和增强。

在其他的实施例中，第一部分是要训练的卷积神经网络51(第一卷积神经网络)可以采用如图5B的卷积神经网络，图5B为本发明实施例卷积神经网络模型的组成结构示意图，如图5B所示，该模型的结构包括：

输入层(input)501，自拍图像在x或y方向上的梯度作为输入；

需要说明的是，h表示自拍图像在x或y方向上的梯度的高(high)，w表示自拍图像在x或y方向的梯度的宽(width)。对于一幅自拍图像I来说，对自拍图像I在x方向上求梯度得到

和对自拍图像I在y方向上求梯度得到

然后将

和

的每一个颜色通道(或颜色分量)作为输入。如果采用RGB(Red Green Blue，红绿蓝)颜色模型，则有三个颜色通道；对应地，对于一幅自拍图像来说，就有6个输入，分别是

在R颜色通道、

在G颜色通道和

在B颜色通道，

在R颜色通道、

在G颜色通道和

在B颜色通道。

conv1+ReLu1层、conv2+ReLu2层、conv3+ReLu3层、conv4+ReLu4层、conv5+ReLu5层、conv6+ReLu6层和conv7+ReLu7层；

经过卷积层和ReLu层后，输出的结果是一个特征图502，该特征图502的高为

该特征图502的宽为

该特征图502的通道数为c，其中，r是系数，r和c的取值与本实施例中的卷积神经网络模型的模型超参数有关，在本实施例中，模型超参数包括卷积核的大小(size)、卷积核的移动步长(stride)、输入特征图补的数据(padding)。一般来说，卷积核的个数决定输出特征图的通道数c。

上采样层，输入为511至51C，输出为521至52C。

将输出的特征图按照通道数c拆解开，这样得到c个特征图511至51C，对511至51C中的每一个特征图上采样至初始图像的大小。在输入层501中提到初始图像即自拍图像，自拍图像的大小为h*w，那么上采样层输出的上采样图像的大小521至52C也为h*w。在上采样层中，输入511对应的输出为521，输入512对应的输出为522，以此类推，输入51C对应的输出为52C。

合成层531，输入为521至52C，输出为531；

将上采样图像521至52C进行合并，得到特征图531；

输出层，输入为531，输出为541；

对特征图531进行卷积和激励，即先后输入到conv8、ReLu8和conv9，最终得到输出541，输出541的大小为原图的大小h*w。

需要说明的是，图5B所示的卷积神经网络模型可以用于替换图5A中网络部分53。在本实施例中，在上采样之前的卷积过程有7层，分别为conv1至conv7，在上采样之前的激励过程也有7层，分别为ReLu1至ReLu7。其中，7层卷积层(conv1至conv7)可以认为是像素级损失模型的第一卷积层集合，当然，还可以将7层卷积层和7层激励层(ReLu1至ReLu7)认为是像素级损失模型的第一卷积层集合。在上采样之后的也有两层卷积，分别为conv8和conv9；在上采样之后还有一层的激励过程，即激励层ReLu8。其中，2层卷积层(conv8和conv9)可以认为是像素级损失模型的第二卷积层集合，当然，还可以将2层卷积层和1层激励层(ReLu8)认为是像素级损失模型的第二卷积层集合。

本领域的技术人员应当理解的是，在上采样之前的卷积层的层数(第一卷积层集合中卷积层的层数)可以有变化，例如采用5层，9层、10层或者几十层，对应的，在上采样之前的激励层的层数(第一卷积层集合中激励层的层数)也可以有变化，例如采用5层、6层、9层、15层等等。在实施例中，在上采样之前，卷积层后面会跟随一个激励层，即上采样之前，一个卷积层与一个激励层是交替地，本领域的技术人员应当理解的是，上述卷积层与激励层的交替层数也可以变化，例如两个卷积层后跟随一个激励层，然后一个卷积层后跟随两个激励层。本实施例中，激励层采用的激励函数为ReLu，在其他的实施例中，激励层还可以采用其他的激励函数，例如sigmoid函数。在图5B所述的实施例中未表现出池化层，在其他的实施例中，还可以加入池化层。在上采样之后，卷积层的层数(第二卷积层集合中卷积层的层数)、以及卷积层与激励层的顺序都是可以变化的。

基于前述的实施例，本发明实施例提供一种图像风格转换装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图6为本发明实施例图像风格转换装置的组成结构示意图，如图6所示，所述装置600包括获取单元601、获得单元602和重构单元603，其中：

获取单元601，用于获取待进行风格转换的初始图像；

获得单元602，用于将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得所述初始图像的在梯度域上的特征图；所述图像风格转换模型是在梯度域基于像素级损失和感知损失训练得到；

重构单元603，用于根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

在其他的实施例中，所述装置还包括训练单元，用于训练所述图像风格转换模型，所述图像风格转换模型的训练目标为总的损失L_total最小，其中，L_total采用下式来表示：

L_total＝αL_feat+βL_pixel；

在其他的实施例中，所述α与所述β的比值大于10且小于10的五次方。

在其他的实施例中，所述图像风格转换模型包括像素级损失模型和感知损失模型，其中，所述感知损失模型是通过在梯度域将像素级损失最小作为训练目标而得到的像素级损失模型，所述感知损失模型是通过在梯度域训练将感知损失最小作为训练目标而得到的。

在其他的实施例中，所述训练单元包括：

在其他的实施例中，所述第一训练模块，用于采用下式训练所述感知损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型的输出结果；

在其他的实施例中，当所述感知损失模型采用VGG16时，第j层卷积层为conv3-3。

在其他的实施例中，所述训练单元还包括：

第二确定模块，用于确定训练样本的梯度；

将所述训练样本的梯度输入到第一卷积层集合，得到作为样本特征图；

将所述样本特征图输入到上采样层，上采样至所述初始图像的像素尺寸；

将上采样后的样本特征图输入到第二卷积层集合，得到样本输出结果。

在其他的实施例中，所述第二训练模块，用于根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型；

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的风格化的参考图像的梯度。

在其他的实施例中，所述第二训练模块，用于采用下式训练所述像素级损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

在其他的实施例中，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，作为所述风格图像。

在其他的实施例中，所述与所述初始图像的在梯度域上的特征图满足结构相似度条件，包括：

所述风格图像与所述初始图像的结构差异程度小于相似度阈值或者，所述风格图像与所述初始图像的结构差异程度最小，其中，结构差异程度为梯度域上的风格图像与所述初始图像的在梯度域上的特征图在至少一个参考方向的变化趋势。

在其他的实施例中，所述重构单元，用于：

根据

进行图像重构，得到风格图像；

其中：

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

在其他的实施例中，所述重构单元，用于根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

在其他的实施例中，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像满足颜色相似度条件的图像，作为所述风格图像。

在其他的实施例中，所述装置还包括：提取单元，用于对所述初始图像进行特征提取，得到所述初始图像中的人脸区域；对应地，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像中的人脸区域满足颜色相似度条件的图像，作为所述风格图像。

在其他的实施例中，所述重构单元，用于根据

进行图像重构，得到风格图像；

其中：I表示初始图像，S表示风格图像，

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

在其他的实施例中，所述获得单元，包括：

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

需要说明的是，本发明实施例中，如果以软件功能模块的形式实现上述的图像风格转换方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个电子设备或服务器等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

对应地，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的图像风格转换方法中的步骤。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时上述的图像风格转换方法中的步骤。

本发明实施例提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现上述图像风格转换方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明存储介质和设备实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

需要说明的是，图7为本发明实施例中计算机设备的一种硬件实体示意图，如图7所示，该计算机设备700的硬件实体包括：处理器701、通信接口702和存储器703，其中

处理器701通常控制计算机设备700的总体操作。

通信接口702可以使计算机设备通过网络与其他终端或服务器通信。

存储器703配置为存储由处理器701可执行的指令和应用，还可以缓存待处理器701以及计算机设备700中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是电子设备或者服务器等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像风格转换方法，其特征在于，所述方法包括：

获取待进行风格转换的初始图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

训练所述图像风格转换模型；

L_total＝αL_feat+βL_pixel；

3.根据权利要求2所述的方法，其特征在于，所述图像风格转换模型包括像素级损失模型和感知损失模型，其中所述像素级损失模型是通过在梯度域将像素级损失最小作为训练目标而得到的，所述感知损失模型是通过在梯度域训练将感知损失最小作为训练目标而得到的。

4.根据权利要求3所述的方法，其特征在于，所述像素级损失模型和所述感知损失模型的训练过程包括：

确定所述训练样本对应的风格化的参考图像的梯度；

5.根据权利要求4所述的方法，其特征在于，所述根据所述参考图像的梯度在所述感知损失模型的第j层卷积层的第一输出特征图，和根据样本输出结果在所述感知损失模型的第j层卷积层的第二输出特征图，训练所述感知损失模型，包括：

采用下式训练所述感知损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型的输出结果；

6.根据权利要求3所述的方法，其特征在于，所述像素级损失模型的训练过程包括：

确定所述训练样本对应的风格化的参考图像的梯度；

7.根据权利要求6所述的方法，其特征在于，所述像素级损失模型包括第一卷积层集合、上采样层和第二卷积层集合，所述根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述参考图像的梯度和样本输出结果训练所述像素级损失模型，包括：

根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型；

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的风格化的参考图像的梯度。

9.根据权利要求8所述的方法，其特征在于，所述根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型，包括：

采用下式训练所述像素级损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

10.根据权利要求1至9任一项所述的方法，其特征在于，所述根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，作为所述风格图像；

11.根据权利要求10所述的方法，其特征在于，所述根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：

根据

进行图像重构，得到风格图像；

其中：

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

12.根据权利要求1至9任一项所述的方法，其特征在于，所述根据所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：

13.根据权利要求12所述的方法，其特征在于，所述根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像，包括：

14.根据权利要求12所述的方法，其特征在于，所述方法还包括：

15.根据权利要求13所述的方法，其特征在于，所述将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像满足颜色相似度条件的图像，作为所述风格图像，包括：

根据

进行图像重构，得到风格图像；

其中：I表示初始图像，S表示风格图像，

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

16.根据权利要求1至9任一项所述的方法，其特征在于，所述将所述初始图像的梯度输入到图像风格转换模型，从所述图像风格转换模型获得初始图像的在梯度域上的特征图，包括：

确定所述初始图像在至少一个参考方向的梯度；

17.根据权利要求16所述的方法，其特征在于，所述至少一个参考方向包括在平面参考坐标系中的x、y方向上，对应地，

确定所述初始图像分别在x、y方向上的梯度；

18.一种图像风格转换装置，其特征在于，所述装置包括：

获取单元，用于获取待进行风格转换的初始图像；

19.根据权利要求18所述的装置，其特征在于，所述装置还包括：

L_total＝αL_feat+βL_pixel；

20.根据权利要求19所述的装置，其特征在于，所述图像风格转换模型包括像素级损失模型和感知损失模型，其中所述像素级损失模型是通过在梯度域将像素级损失最小作为训练目标而得到，所述感知损失模型是通过在梯度域训练将感知损失最小作为训练目标而得到。

21.根据权利要求20所述的装置，其特征在于，所述训练单元包括：

22.根据权利要求21所述的装置，其特征在于，所述第一训练模块，用于采用下式训练所述感知损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的梯度经过像素级损失模型的输出结果；

23.根据权利要求20所述的装置，其特征在于，所述训练单元包括：

第二确定模块，用于确定训练样本的梯度；

24.根据权利要求23所述的装置，其特征在于，所述像素级损失模型包括第一卷积层集合、上采样层和第二卷积层集合，所述第二训练模块包括：

25.根据权利要求24所述的装置，其特征在于，所述第二训练模块，用于根据每一训练样本的

与对应的

之差的绝对值训练所述像素级损失模型；

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

表示第i个训练样本的风格化的参考图像的梯度。

26.根据权利要求25所述的装置，其特征在于，所述第二训练模块，用于采用下式训练所述像素级损失模型：

其中，

表示第i个训练样本的梯度，F_W表示像素级损失模型，

27.根据权利要求18至26任一项所述的装置，其特征在于，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，作为所述风格图像；

28.根据权利要求27所述的装置，其特征在于，所述重构单元，用于：

根据

进行图像重构，得到风格图像；

其中：

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

29.根据权利要求18至26任一项所述的装置，其特征在于，所述重构单元，用于根据所述初始图像的颜色信息和所述初始图像的在梯度域上的特征图进行图像重构，得到风格图像。

30.根据权利要求29所述的装置，其特征在于，所述重构单元，用于将与所述初始图像的在梯度域上的特征图满足结构相似度条件的图像，且将与所述初始图像满足颜色相似度条件的图像，作为所述风格图像。

31.根据权利要求29所述的装置，其特征在于，所述装置还包括：

32.根据权利要求30所述的装置，其特征在于，所述重构单元，用于根据

进行图像重构，得到风格图像；

其中：I表示初始图像，S表示风格图像，

表示所述初始图像在x方向的梯度，

表示所述初始图像在y方向的梯度，

表示风格图像在x方向的梯度，

表示风格图像在y方向的梯度。

33.根据权利要求18至26任一项所述的装置，其特征在于，所述获得单元，包括：

34.根据权利要求33所述的装置，其特征在于，所述至少一个参考方向包括在平面参考坐标系中的x、y方向上，对应地，

35.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至17任一项所述图像风格转换方法中的步骤。

36.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至17任一项所述图像风格转换方法中的步骤。