CN111986302A

CN111986302A - 一种基于深度学习的图像风格迁移方法及装置

Info

Publication number: CN111986302A
Application number: CN202010717100.1A
Authority: CN
Inventors: 张宁; 范崇睿; 任晗; 谢敏怡
Original assignee: Beijing Institute of Petrochemical Technology
Current assignee: Beijing Institute of Petrochemical Technology
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-24

Abstract

本发明公开了一种基于深度学习的图像风格迁移方法，首先获取原始图像，并对所述原始图像进行内容图像的特征提取和风格图像的特征提取，分别得到第一特征图像和第二特征图像；创建白噪声图像，将所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中；再将所述白噪声图像进行迭代最小化，并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。上述方法及装置能够解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。

Description

一种基于深度学习的图像风格迁移方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的图像风格迁移方法及装置。

背景技术

目前图像处理技术开始越来越广泛地应用到社会各个领域，这其中人工智能与艺术的交叉碰撞，在相关的技术领域和艺术领域引起了高度关注，各类与图像艺术化相关的应用也盛行起来，如动画制作、游戏渲染、广告设计等。图像风格迁移又可以看成是图像纹理转移的问题，在计算机发展之初，科学家发明了真实感绘制技术，它是以数学、计算机科学等相关知识作为基础，利用真实世界中的场景、造型、光源等因素，在计算机图形输出设备上绘制出逼真景象的技术，但由于其时间成本巨大，于是随着计算机技术的发展，图形学上又出现了非真实感绘制技术，与传统计算机图形学追求真实感不同，其主要用于模拟艺术式绘制风格的技术，在电影、电子游戏领域、艺术领域、科研领域都有所应用。

但现有的图像风格迁移技术通常是对图片进行颜色转换、纹理的简单合成，最终的图像合成较为粗糙，合成效果较差，难以符合实际需求。

发明内容

本发明的目的是提供一种基于深度学习的图像风格迁移方法及装置，能够解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。

本发明的目的是通过以下技术方案实现的：

一种基于深度学习的图像风格迁移方法，所述方法包括：

步骤1、获取原始图像，并对所述原始图像进行内容图像的特征提取和风格图像的特征提取，分别得到第一特征图像和第二特征图像；

步骤2、创建白噪声图像，将所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中；

步骤3、再将所述白噪声图像进行迭代最小化，并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。

由上述本发明提供的技术方案可以看出，上述方法及装置能使得迁移后得到的图像细腻、合成效果较好，解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于深度学习的图像风格迁移方法流程示意图；

图2为本发明实施例所述ReLU函数图形的示意图；

图3为本发明所举实例中不同迭代次数获得的风格迁移图像示意图；

图4为本发明实施例所述基于深度学习的图像风格迁移装置结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实施例作进一步地详细描述，如图1所示为本发明实施例提供的基于深度学习的图像风格迁移方法流程示意图，所述方法包括：

在该步骤中，具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取，所选用的卷积神经网络为VGG-19网络模型；

基于所述VGG-19网络模型的激活函数为ReLU函数，其表达式为：

f(x)＝max(0，x)

其中，x是输入信号，f(x)输出信号；如图2所示为本发明实施例所述ReLU函数图形的示意图，当输入信号小于零时，输出为零；当输入信号大于零时，输出为输入信号的值。

相对于其他激活函数，该ReLU函数的梯度信息不会饱和，并且不需要指数运算，运算复杂率较低。

举例来说，白噪声图像的创建是使用tf.random_normal(content_images.shape)创建出一个和内容图像大小一样的白噪声图像。

然后设定Variable(initializer)函数，用于构造风格迁移迭代时函数变量的初始值，将所得到的第一特征图像和第二特征图像通过迭代优化后加入在白噪声图像上，将函数中的initializer值设置为白噪声图像。

在该步骤中，所述内容损失函数是通过将内容图像和所创建的白噪声图像分别传入卷积神经网络，并用二范数建立起内容图像和白噪声图像之间的距离函数，以此作为损失函数；

举例来说，首先创建content_loss(target_features,content_featur)函数作为内容损失函数，其中target_features为目标图像，content_featur为内容图像；然后使用Tensorflow下L2范数来计算生成图的特征图与原始输入的特征图之间的差异，使用的是tf.nn.l2_loss()函数。

此外因损失值与数量无关，故需要得到内容的数量值，这是通过Map(lambda)函数对内容图像进行遍历操作，读取出图像的高度height、宽度width、通道channel，后将三者进行相乘得出内容图像大小content_size，将其使用在差异值计算上，以此排除数量所带来的影响。

另外，对应所述白噪声图像中的第L层的内容损失函数通过以下公式得到：

其中，

为原始图像，

为生成图像，

表示第i个过滤器在层L中的第j个位置的ReLU激活函数；F^l和P^l为各自在L层中的特征表达；

所述风格损失函数是通过将风格图像和所创建的白噪声图像分别传入卷积神经网络后，计算在各个卷积层间的格莱姆矩阵来建立的。具体实现中，格莱姆矩阵是用于度量各个维度自己的特性以及各个维度之间的关系，使用tf.matmul(valueA,valueB)矩阵乘法函数来实现格莱姆矩阵，其中valueA为风格特征的转置值(经过降维操作后的风格特征转置)，valueB为风格特征值(经过降维操作后的风格特征)，最终风格图像与白噪声图像的格莱姆矩阵结果之差做为风格损失函数。

此外以上步骤也需排除个数影响，故都需除以风格图像高度、宽度、通道所相乘的大小值。

另外，在步骤3对图像进行风格迁移过程中：

通过对风格损失函数和内容损失函数中的权重参数进行更改，使得迁移后的目标图像更偏向于内容图像或更偏向于风格图像，通过对不同权重参数所迭代出来的实验结果进行对比，目标图像随着权重参数所占的比例的不同，而使得内容或风格更为突出，从而通过权重参数的更改，就可以得到自己更为满意的风格迁移图像。

下面以具体的实例来进行说明：

首先创建images(self)函数，此函数用作对原始图像的预处理，首先需要分别将输入的原始图像的内容特征和风格特征进行导入，具体可以使用Image.open()函数；

然后设定Variable(initializer)函数，用于构造风格迁移迭代时函数变量的初始值，由于风格迁移是将原始图像的内容特征和风格特征加入在白噪声图像上，故将函数中的initializer值设置为白噪声图像，其中白噪声图像的创建，本实施例可以使用tf.random_normal(content_images.shape)创建出一个和原始图像大小一样的白噪声图像；

再使用Tensorflow函数进行迭代操作，将loss值和迭代次数(iter)进行展示，同时设置每一次迭代就输出一次实验结果，即风格迁移后的图像，如图3所示为本发明所举实例中不同迭代次数获得的风格迁移图像示意图，由图3可知：从左至右随着迭代次数的增加，通过风格迁移后的图片既具有原始图像的内容，又具备艺术画的风格效果，从而解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。

基于上述的方法，本发明实施例还提供了一种基于深度学习的图像风格迁移装置，如图4所示为本发明实施例所述基于深度学习的图像风格迁移装置结构示意图，所述装置主要包括：

特征提取单元，用于获取原始图像，并对所述原始图像进行内容图像的特征提取和风格图像的特征提取，分别得到第一特征图像和第二特征图像；

白噪声图像创建单元，用于创建白噪声图像，并将所述特征提取单元所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中；

图像迁移单元，用于将所述白噪声图像创建单元得到的白噪声图像进行迭代最小化，并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。

具体实现中，所述特征提取单元具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取；

其中，所选用的卷积神经网络为VGG-19网络模型；

基于所述VGG-19网络模型的激活函数为ReLU函数，其表达式为：

f(x)＝max(0，x)

其中，x是输入信号，f(x)输出信号；当输入信号小于零时，输出为零；当输入信号大于零时，输出为输入信号的值。

上述各单元的具体实现过程如上述方法实施例所述。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

另外，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现，具体可以将上述方法实施例中的相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输；计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质，存储介质可以是通用或专用计算机能够存取的任何可用介质。

综上所述，本发明实施例所述方法及装置与传统的图像处理相比，迁移成本降低花费时间更少，且图像风格化不再是以改变像素对应关系的处理，而是形成整体风格的差异；同时经过神经网络处理后的图片，可根据所需样式形成新的图像，即保留了原始图像的内容，又具备不同的风格效果，使得迁移后得到的图像细腻，合成效果较好，从而解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于深度学习的图像风格迁移方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于深度学习的图像风格迁移方法，其特征在于，在所述步骤1中，具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取，所选用的卷积神经网络为VGG-19网络模型；

基于所述VGG-19网络模型的激活函数为ReLU函数，其表达式为：

f(x)＝max(0，x)

3.根据权利要求1所述基于深度学习的图像风格迁移方法，其特征在于，在步骤3中，所述内容损失函数是通过将内容图像和所创建的白噪声图像分别传入卷积神经网络，并用二范数建立起内容图像和白噪声图像之间的距离函数，以此作为损失函数；

所述风格损失函数是通过将风格图像和所创建的白噪声图像分别传入卷积神经网络后，计算在各个卷积层间的格莱姆矩阵来建立的。

4.根据权利要求3所述基于深度学习的图像风格迁移方法，其特征在于，在步骤3中，对应所述白噪声图像中的第L层的内容损失函数通过以下公式得到：

其中，

为原始图像，

为生成图像，

表示第i个过滤器在层L中的第j个位置的ReLU激活函数；F^l和P^l为各自在L层中的特征表达。

5.根据权利要求3所述基于深度学习的图像风格迁移方法，其特征在于，所述格莱姆矩阵是用于度量各个维度自己的特性以及各个维度之间的关系；

具体使用tf.matmul(valueA,valueB)矩阵乘法函数来实现格莱姆矩阵，其中valueA为风格特征的转置值，valueB为风格特征值，最终风格图像与白噪声图像的格莱姆矩阵结果之差做为风格损失函数。

6.根据权利要求1所述基于深度学习的图像风格迁移方法，其特征在于，在步骤3对图像进行风格迁移过程中：

通过对风格损失函数和内容损失函数中的权重参数进行更改，使得迁移后的目标图像更偏向于内容图像或更偏向于风格图像。

7.一种基于深度学习的图像风格迁移装置，其特征在于，所述装置包括：

8.根据权利要求7所述基于深度学习的图像风格迁移装置，其特征在于，所述特征提取单元具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取；

其中，所选用的卷积神经网络为VGG-19网络模型；

基于所述VGG-19网络模型的激活函数为ReLU函数，其表达式为：

f(x)＝max(0，x)