CN111667401A

CN111667401A - 多层次渐变图像风格迁移方法及系统

Info

Publication number: CN111667401A
Application number: CN202010514836.9A
Authority: CN
Inventors: 解庆; 曾华锋; 马艳春; 刘永坚; 白立华
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-09-15
Anticipated expiration: 2040-06-08
Also published as: CN111667401B

Abstract

本发明涉及图像处理技术领域，尤其涉及多层次渐变图像风格迁移方法及系统，所述方法包括：构建多层次的迁移网络模块：将其中一层构建为由至少两个残差层并列而成的残差层组；构建图像损失计算模块，针对迁移网络模块进行优化；将待处理图像输入至优化后的迁移网络模块，得到多张风格渐变的目标图像；所述待处理图像，包括：待处理内容图和待处理风格图；每张目标图像对应一个残差层。本发明能够避免图像风格迁移模型生成结果过于单一固定的问题。

Description

多层次渐变图像风格迁移方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及多层次渐变图像风格迁移方法及系统。

背景技术

随着计算机技术和多媒体技术的不断发展，社交网络中的资源不再局限于文本、语音。更为直观、丰富的图像和视频等资源所占的比重不断加大。基于此背景，对图像处理的研究也不断深入、细分。如何利用计算机生成一张具有艺术化风格图片的研究也就此展开，这一相关领域被称之为：图像风格迁移。

早期的图像风格迁移研究局限于技术发展，对相关问题的解决思路是通过分析某一风格图像来创建出符合该图像的数学或者统计模型。从结果上来说，该思路确实解决了问题，但其缺陷也十分显著。这种方法只能针对单一风格类型建模，局限性很大，效率较低。

发明内容

为了解决上述技术问题，本发明提供的多层次渐变图像风格迁移方法及系统，其能够避免图像风格迁移模型生成结果过于单一固定的问题。

一方面，本发明提供的多层次渐变图像风格迁移方法，包括：

构建多层次的迁移网络模块：将其中一层构建为由至少两个残差层并列而成的残差层组；

构建图像损失计算模块，针对迁移网络模块进行优化；

将待处理图像输入至优化后的迁移网络模块，得到多张风格渐变的目标图像；所述待处理图像，包括：待处理内容图和待处理风格图；每张目标图像对应一个残差层。

进一步地，所述将待处理图像输入至优化后的迁移网络模块，得到多张风格渐变的目标图像，之后还包括：

构建生成结果处理模块，执行如下操作：

用双边滤波处理迁移网络模块输出的各风格渐变的目标图像；

针对各处理后的目标图像，以线性插值的方式在相邻两张目标图像之间生成至少一张中间图；

将各处理后的目标图像，以及对应生成的中间图，按序叠加生成渐变动态图。

更进一步地，所述构建多层次的迁移网络模块，具体包括：由上至下，依次构建下采样层、残差层组和上采样层；

所述下采样层和上采样层都为多层卷积层结构；

每个残差层包括多个残差块。

再进一步地，所述依次构建下采样层、残差层组和上采样层，之后还包括：

在上采样层的下层，利用Tanh函数构建归一化层。

还进一步地，所述将待处理图像输入至优化后的迁移网络模块，得到多张风格渐变的目标图像，具体包括：

下采样层对待处理图像进行下采样处理，得到抽取图像，并送至每个残差层；

每个残差层输出对应特征图像，并将抽取图像与对应特征图像进行叠加，得到对应叠加图像送至上采样层；

上采样层将每张应叠加图像还原与待处理内容图大小一致；

归一化层将每张还原后的应叠加图像对应处理为在像素表示范围内的目标图像。

在上述技术方案中，所述构建图像损失计算模块，针对迁移网络模块进行优化，具体包括：

利用训练集对迁移网络模块进行训练，输出训练结果；所述训练集中每个训练样本包括：原内容图和指定风格图；每个训练样本对应的输出训练结果为一组迁移生成图像；

构建图像损失计算模块，计算训练样本与对应训练结果的总损失函数；

利用自适应矩估计优化器最小化总损失函数，以迭代优化迁移网络模块的参数，得到优化后的迁移网络模块。

进一步地，所述总损失函数由迁移生成图像组与对应指定风格图的风格损失、迁移生成图像组与对应原内容图的内容损失，以及，迁移生成图像组的噪声损失叠加构成；

所述总损失函数为：

L_total＝L_content+L_style+L_tv (1)

公式(1)中，L_content为内容损失，L_style为风格损失，L_tv为噪声损失；

所述内容损失的表达式为：

公式(2)中，C_jH_jW_j分别对应第j层特征图的channel、height、weight三个属性，C_jH_jW_j值表示第j层输出的特征图的尺寸大小；

表示的是迁移生成图像组中第i张图像与原内容图在第j层的特征图的差值；

所述风格损失表达式为：

公式(3)中，

表示的是迁移生成图像组中第i张图像与指定风格图特征图在第j层的gram矩阵的差值；。α_i表示的是第i张迁移生成图像的风格影响系数。

优选地，所述中间图的表达式为：

公式(4)中，I_i表示第i张生成中间图，I_f和I_l分别表示具有前后相邻关系的目标图像，n则表示所述线性插值所需生成中间图的数量。

另一方面，本发明提供的多层次渐变图像风格迁移系统，包括：多层次的迁移网络模块和图像损失计算模块；

所述迁移网络模块的其中一层为由至少两个残差层并列而成的残差层组；

所述图像损失计算模块，用于针对迁移网络模块进行优化；

优化后的迁移网络模块，用于处理待处理图像，得到多张风格渐变的目标图像；每张目标图像对应一个残差层。

所述待处理图像，包括：待处理内容图和待处理风格图。

进一步地，还包括：结果处理模块，用于：

在本发明中，构建的迁移网络模块为多层次结构，其中一层为由多个残差层并列而成的残差层组。构建上述结构，使得迁移网络模块可一次性输出一组目标图像，该组目标图像的数量与残差层数量相同。由此，本发明与现有的图像迁移方法相比，解决了风格迁移结果过于固定且单一的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的系统结构示意图；

图3为本发明实施例中各模块之间的结构示意图；

图4为本发明实施例中迁移网络模块的结构示意图；

图5为本发明实施例中图像损失计算模块的工作流程示意图；

图6为本发明实施例中待处理图像和目标图像的效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和3所示，本实施例提供的多层次渐变图像风格迁移方法，包括：

101、构建多层次的迁移网络模块：将其中一层构建为由至少两个残差层并列而成的残差层组；

102、构建图像损失计算模块，针对迁移网络模块进行优化；

103、将待处理图像输入至优化后的迁移网络模块，得到多张风格渐变的目标图像；所述待处理图像，包括：待处理内容图和待处理风格图；每张目标图像对应一个残差层。

所述103，之后还包括：

104、构建生成结果处理模块，执行如下操作：

在本实施例中，经过图像损失计算模块优化后的迁移网络模块，对于待处理图像，输出一组具有指定风格的渐变图像组，即多张目标图像。将该图像组输入到生成结果处理模块后，可输出相应的风格渐变动态图。

本实施例中，残差层有八个，则优化后的迁移网络模块输出的一组目标图像的数量为八张。

如图4所示，所述构建多层次的迁移网络模块，具体包括：

由上至下，依次构建下采样层、残差层组、上采样层和归一化层，连接形成神经网络。

所述下采样层和上采样层都为三层卷积层结构；

每个残差层为五层卷积层，即，包括五个残差块。

所述归一化层，根据激活函数：Tanh函数构建。

在本实施例中，下采样层由三层卷积组成，此三层卷积自上而下为一层步长为1，大小为9*9的卷积核以及两层步长为2，大小为3*3的卷积。下采样层的作用是对输入图像进行下采样处理。下采样层之后是八个并列的残差层。残差层的结构为五个步长为1，3*3大小的残差块组成。残差层组的下一层是上采样层，作用是将特征图组还原到初始大小。上采样层之后为归一化层，通过Tanh函数将特征图的像素点范围限制在[0,255]，使其符合像素的表示范围。

残差块相比普通卷积核的区别在于：残差块将原始输入与经过卷积的特征图叠加作为下一层的输入。

本实施例在此处采用残差层而不是卷积层的原因在于：对于图像风格迁移来说，内容与风格的比例必须平衡；高层语义信息要尽量保留低层的内容结构信息，防止迁移后的图像失去过多的内容信息。

将多个残差层并列的目的为：通过风格影响系数来调整不同残差层的风格影响程度，从而得到一组具有渐变风格的图像。对于这八个残差层，每一个残差层都输出了一张特征图，将这八张特征图按序收集构建成为一组特征图输入下一层中。

如图4所示，所述103，具体包括：

1031、下采样层对待处理图像进行下采样处理，得到抽取图像，并送至每个残差层；

1032、每个残差层输出对应特征图像，并将抽取图像与对应特征图像进行叠加，得到对应叠加图像送至上采样层；

1033、上采样层将每张应叠加图像还原与待处理内容图大小一致；

1034、归一化层将每张还原后的应叠加图像对应处理为在像素表示范围内的目标图像。

如图6所示，将一张白猫的内容图放入到一个已训练好的毕加索画风格的迁移网络模块中，较好的得到了一组八张具有渐变风格的图片组。

如图3和5所示，所述102，具体包括：

1021、利用训练集对迁移网络模块进行训练，输出训练结果；所述训练集中每个训练样本包括：原内容图和指定风格图；每个训练样本对应的输出训练结果为一组迁移生成图像；

在本实施例中，未优化之前的迁移网络模块的结构和优化后的迁移网络模块的结构相同。因此，在针对迁移网络模块的训练过程中，迁移网络模块中各层之间的作用和优化后的迁移网络模块相同。步骤1021的训练过程，与步骤103相同。

在本实施例中，采用普适性的大规模图像数据集作为训练集。在将训练集输入前，需要做的是将不同尺寸的训练样本缩放到统一尺寸。本实施例将训练集预处理，使训练样本中的图像呈256*256分辨率。

1022、构建图像损失计算模块，计算训练样本与对应训练结果的总损失函数；

在本实施例中，图像损失计算模块使用VGG19模型。VGG-19模型分为5个卷积层，每个卷积层有2-4个卷积核以及相应的relu层和池化层。

1023、利用自适应矩估计优化器最小化总损失函数，以迭代优化迁移网络模块的参数，得到优化后的迁移网络模块。

如图4和5所示，针对每个训练样本，优化过程如下：

步骤1、预处理当前样本，使各图像呈256*256分辨率；

步骤2、将当前样本输入迁移网络模块，首先进入下采样层进行下采样处理；

Input代表输入的训练样本；

步骤3、经过下采样处理后的样本，进入八个并列的残差层，输出八张特征图；

步骤4、上采样层将八张特征图还原到初始大小；

步骤5、归一化层将还原后的八张特征图的像素点范围限制在[0,255]，使其符合像素的表示范围，输出八张迁移生成图像；

步骤6、VGG19模型分别计算迁移生成图像组与对应指定风格图的风格损失、迁移生成图像组与对应原内容图的内容损失，以及，迁移生成图像组的噪声损，并进行叠加得到总损失函数；

步骤7、采用自适应矩估计(Adam)优化器最小化总损失函数，从而迭代优化迁移网络模块的参数，得到优化后的迁移网络模块。

在本实施例中，采用的训练参数如下：学习率为0.001，batch_size(一次训练所选取的样本数)为4，epochs(向前和向后传播中所有批次的单次训练迭代)为5，coco数据集的大小约为12万。在实际训练过程中，当训练进行到1/3时，总损失基本收敛，所以适当降低epochs也是可行的，并且可以提高效率。

所述总损失函数由迁移生成图像组与对应指定风格图的风格损失、迁移生成图像组与对应原内容图的内容损失，以及，迁移生成图像组的噪声损失叠加构成；

所述总损失函数为：

L_total＝L_content+L_style+L_tv (1)

所述内容损失的表达式为：

公式(2)中，C_jH_jW_j分别对应第j层特征图的channel(信道)、height(高度)、weight(重量)三个属性，C_jH_jW_j值表示第j层输出的特征图的尺寸大小；

表示的是迁移生成图像组中第i张图像与原内容图在第j层的特征图的差值。

在具体实施过程中，将原内容图与迁移网络生成图像组输入到图像损失计算模块中，依次计算在relu4_2层中两者的欧式距离除以尺寸。可见的是，该步骤将得到生成图像组规模数量的内容损失，将所有内容损失单纯相加作为总内容损失。

所述风格损失表达式为：

公式(3)中，

在具体实施过程中，α_i代表了风格对迁移结果的影响程度。本实施例采用了[0.1,0.2,0.4,0.8,1.6,3.2,6.4,12]的风格影响系数。所得到的结果较好地体现了渐变效果。

在公式(3)中，

表示的是指定风格图与迁移网络模块生成图像组在第j层特征图的Gram矩阵之间的差异。

须明确的是，Gram矩阵所反映出的物理意义在于特征向量之间的相关性，即度量各个维度中特征与特征之间的关系，有效反映了当前图像风格。因此，公式(3)的意义是得出指定风格图与迁移网络模块生成图像组之间的风格差异。又由于输入为包含八张图像的图像组，因此在计算风格损失时也将得到八个值。通过风格损失的定义，将这八个值依次乘以相应的风格影响系数后相加得到总的风格损失。在实际实施过程中，可根据需要自行调整风格影响系数以最优化生成结果。

对于噪声损失，采用的是常规的计算方式，属于已有技术，在此不予赘述。

如图6所示，将八张目标图像组按序编号后，依次取相邻的两张图进行后续处理。在此以具有先后顺序的图1与图2作为例子阐述处理方法。由于优化后的迁移网络模块所生成的目标图像具有相当大的噪声，先使用双边滤波方法分别处理图1与图2。然后以图1与图2为基础，通过线性插值的方式生成图1与图2的中间图。

所述中间图的表达式为：

在具体实施过程中，本实施例将n设为4，通过该方法可得到由图1与图2生成的4张中间图。对每一组图片处理后，按序收集中间图与各目标图像得到一组36张的连续图片组。以每一张图为一桢，叠加生成得到具有风格渐变效果的gif格式动态图。在实施过程中，取duration为0.1。在实际实施过程中，如果想要生成结果更加平滑，将n取值变大即可。

如图2所示，本实施例所述的多层次渐变图像风格迁移系统，包括：多层次的迁移网络模块21和图像损失计算模块22；

所述迁移网络模块21的其中一层为由至少两个残差层并列而成的残差层组；

所述图像损失计算模块22，用于针对迁移网络模块21进行优化；

优化后的迁移网络模块21，用于处理待处理图像，得到多张风格渐变的目标图像；每张目标图像对应一个残差层。

所述待处理图像，包括：待处理内容图和待处理风格图。

所述系统，还包括：结果处理模块23，用于：

本发明实施例提供了多层次渐变图像风格迁移系统，可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明将风格迁移网络中的残差层重新设计并且改进了损失计算函数，有效实现了对待处理图像处理生成一组具有渐变风格图像以及相应风格渐变动态图的功能，弥补了当前图像风格渐变迁移的空白，解决了传统方式风格迁移方式单一固定的弊端，做到了对图像风格迁移的应用扩展。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。