CN112288621A

CN112288621A - 基于神经网络的图像风格迁移方法及系统

Info

Publication number: CN112288621A
Application number: CN202010995164.8A
Authority: CN
Inventors: 李大锦
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2021-01-29
Anticipated expiration: 2040-09-21
Also published as: CN112288621B

Abstract

本申请公开了基于神经网络的图像风格迁移方法及系统，将待转换的内容图像输入到VGG网络中，提取网络各个池化层的内容特征图；将风格样本图像输入到VGG网络中，提取网络各个池化层的风格特征图；在VGG网络的第i池化层，利用该层的内容特征图与该层的风格特征图通过特征匹配搜索合成该层目标特征图；对第i层目标特征图进行上采样，得到第i‑1层初始特征图，以第i‑1层内容特征图为约束，以第i‑1层风格特征图作为样本，在第i‑1层初始特征图上进行逐点合成，得到第i‑1层目标特征图；判断i‑1是否等于设定值，如果是，就将第i‑1层目标特征图作为最终目标特征图，对最终目标特征图进行逆变换，得到风格迁移后的图像。

Description

基于神经网络的图像风格迁移方法及系统

技术领域

本申请涉及图像风格迁移技术领域，特别是涉及基于神经网络的图像风格迁移方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

风格迁移是利用一幅艺术图像作为样本，将其它内容图像的外观转换为样本的艺术风格。风格迁移在影视制作、游戏设开发、数字设计等领域具有广泛的应用。

基于神经网络的风格迁移(neural style transfer)是近年来兴起的一种风格绘制技术，他借助于一个分类神经网络，得到内容图像和风格样本图像的深度特征图，然后以风格特征为样本，以内容图像为约束，通过优化或训练一个图像转换神经网络将内容图像转换为样本的艺术风格。基于神经网络的风格迁移充分利用了深度特征表达力强的优点，使目标图像更符合内容图像和风格纹理的语义特征，能更完整的保持笔画的纹理结构。然而，作为一个端到端的黑盒子系统，目前对神经网络的研究还无法从图像的表征中分离出诸如笔画几何、笔画结构等信息，也不能对纹理结构和局部笔画进行显式的干预。这种不可控制性往往会导致模棱两可的语义表达或降低绘制的艺术效果。不可控制性导致的另一个缺陷是其交互性很差，而交互性在艺术化绘制的应用中又起着的重要的作用。

发明内容

为了解决现有技术的不足，本申请提供了基于神经网络的图像风格迁移方法及系统；

第一方面，本申请提供了基于神经网络的图像风格迁移方法；

基于神经网络的图像风格迁移方法，包括：

将待转换的内容图像输入到VGG网络中，提取网络各个池化层的内容特征图；将风格样本图像输入到VGG网络中，提取网络各个池化层的风格特征图；

在VGG网络的第i池化层，利用该层的内容特征图与该层的风格特征图通过特征匹配搜索合成该层目标特征图；

对第i层目标特征图进行上采样，得到第i-1层初始特征图，以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图；i为正整数；i>1；

判断i-1是否等于设定值，如果是，就将第i-1层目标特征图作为最终目标特征图，进入下一步；如果否，就对i进行减1处理，继续对返回上一步；

对最终目标特征图进行逆变换，得到风格迁移后的图像。

第二方面，本申请提供了基于神经网络的图像风格迁移系统；

基于神经网络的图像风格迁移系统，包括：

提取模块，其被配置为：将待转换的内容图像输入到VGG网络中，提取网络各个池化层的内容特征图；将风格样本图像输入到VGG网络中，提取网络各个池化层的风格特征图；

目标特征图合成模块，其被配置为：在VGG网络的第i池化层，利用该层的内容特征图与该层的风格特征图通过特征匹配搜索合成该层目标特征图；

逐点合成模块，其被配置为：对第i层目标特征图进行上采样，得到第i-1层初始特征图，以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图；i为正整数；i>1；

判断模块，其被配置为：判断i-1是否等于设定值，如果是，就将第i-1层目标特征图作为最终目标特征图，进入逆变换模块；如果否，就对i进行减1处理，继续返回逐点合成模块；

逆变换模块，其被配置为：对最终目标特征图进行逆变换，得到风格迁移后的图像。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

1)具有良好的局部可控性，用户可以交互调节风格纹理的完整性、内容表达与风格表达的强度。

2)本申请中的风格迁移过程是一个独立于神经网络的特征合成过程，与神经网络的参数无关。所以可以实现任意风格的风格迁移网络。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的风格迁移方法流程图；

图2为第一个实施例的逐层合成的特征合成方法流程图；

图3为第一个实施例的VGG19网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于神经网络的图像风格迁移方法；

如图1和图2所示，基于神经网络的图像风格迁移方法，包括：

S101：将待转换的内容图像输入到VGG网络中，提取网络各个池化层的内容特征图；将风格样本图像输入到VGG网络中，提取网络各个池化层的风格特征图；

S102：在VGG网络的第i池化层，利用该层的内容特征图与该层的风格特征图通过特征匹配搜索合成该层目标特征图；

S103：对第i层目标特征图进行上采样，得到第i-1层初始特征图，以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图；i为正整数；i>1；

S104：判断i-1是否等于设定值，如果是，就将第i-1层目标特征图作为最终目标特征图，进入S105；如果否，就对i进行减1处理，继续对返回S103；

S105：对最终目标特征图进行逆变换，得到风格迁移后的图像。

进一步地，所述i的初始值为4。

以VGG19网络的池化层作为特征合成的操作层，VGG19网络包括5个池化层，从第1到第5个池化层深度逐渐增加。从第4个池化层开始，由深到浅逐层合成每一层的目标特征图，在第4层，利用贪婪法进行特征匹配搜索，合成第4层目标特征图，对5个池化层由浅到深依次编号1、2、3、4、5。

作为一个或多个实施例，如图3所示，所述VGG网络为VGG19网络，所述VGG19网络，包括依次连接的：

第一特征图提取模块、第二特征图提取模块、第三特征图提取模块、第四特征图提取模块、第五特征图提取模块、全连接模块，其中，

第一特征图提取模块，包括：依次连接的第一卷积层、第二卷积层和第一池化层；

第二特征图提取模块，包括：依次连接的第三卷积层、第四卷积层和第二池化层；

第三特征图提取模块，包括：依次连接的第五卷积层、第六卷积层、第七卷积层、第八卷积层和第三池化层；

第四特征图提取模块，包括：依次连接的第九卷积层、第十卷积层、第十一卷积层、第十二卷积层和第四池化层；

第五特征图提取模块，包括：依次连接的第十三卷积层、第十四卷积层、第十五卷积层、第十六卷积层和第五池化层；

其中，第一池化层还与第三卷积层连接；第二池化层还与第五卷积层连接；第三池化层还与第九卷积层连接；第四池化层还与第十三卷积层连接，第五池化层还与第一全连接层连接。

作为一个或多个实施例，所述S101中，将待转换的内容图像输入到VGG网络中，提取网络各个池化层的内容特征图；具体步骤包括：

将待转换的内容图像输入到VGG19网络中，得到VGG19网络的第1池化层、第2池化层、第3池化层和第4池化层上的内容特征图。

应理解的，每个内容特征图，是由对应的池化层得到的。

作为一个或多个实施例，所述S101中，将风格样本图像输入到VGG网络中，提取网络各个池化层的风格特征图；具体步骤包括：

将风格图像输入到VGG19网络中，得到VGG19网络的第1池化层、第2池化层、第3池化层和第4池化层上的风格特征图。

应理解的，每个风格特征图，是由对应的池化层提取得到的。

应理解的，所述内容图像，是指：已有的一幅图像，该图像将被转换成具有与风格图像相同的艺术风格，在风格转换过程中起到语义约束的作用。

应理解的，所述风格图像，是指：已有的一幅图像，是画家通过手绘得到的具有某种艺术风格的图像，该图像在风格转换中作为特征点采样的样本。

作为一个或多个实施例，所述S102中，在VGG网络的第i池化层，利用该层的内容特征图与该层的风格特征图通过特征匹配搜索合成该层目标特征图；具体步骤包括：

对第i池化层内容特征图上的每个特征点，依次采用贪婪搜索算法在第i池化层风格特征图上搜索与第i池化层内容特征图中当前点相匹配的若干特征点；

从得到的匹配的若干特征点中，随机选择一个特征点作为当前特征点的采样点，并将该采样点复制到目标特征图上对应的点位置，所有点处理完成后得到第i池化层的目标特征图。

作为一个或多个实施例，所述S103中，对第i层目标特征图进行上采样，得到第i-1层初始特征图；目的和意义包括：目的是通过上采样放大特征图的尺寸，使其尺寸和第i-1层的特征图相同，以便于进行第i-1层的特征合成。上采样操作使用双线性差值法。上采样后得到的第i-1层的初始特征图为第i-1层特征合成起到了初始化目标特征图的作用。

作为一个或多个实施例，所述S103：以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图；具体步骤包括：

按行依次处理第i-1层初始特征图上的每个特征点；将每个特征点依次作为待合成点；

计算第i-1层初始特征图上当前待合成点与候选点集合中的所有候选点之间的内容匹配误差和风格纹理误差；

根据内容匹配误差和风格纹理误差，得到每个候选点的总误差；

选择总误差最小的候选点，作为待合成点的最佳采样点；

将待合成点的最佳采样点在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图。

进一步地，所述候选点集合的构建步骤包括：

根据第i-1层初始特征图上当前待合成点的L形邻域内已合成的特征点与当前点的位置偏移，找到第i-1层风格特征图上相同位置偏移的点作为候选点，所有候选点构成了一个候选点集合。

进一步地，所述内容匹配误差，采用方形邻域内的特征误差计算：选取初始特征图上当前待合成点周围的一块方形特征图块，与当前待合成点的所有候选点在风格特征图上的方形邻域比较，计算其余弦距离，计算如下：

其中，

为当前待合成点p与候选点j的内容误差。x_s、x_c分别表示风格特征图、内容特征图，对于当前待合成点p和候选点集合中的某个候选点j，

为内容特征图x_c在点p处的方形邻域特征块。

为候选点j在风格特征图x_s上的方形邻域特征块，NB表示方形邻域。符号·表示向量的点积运算。

进一步地，所述风格纹理误差，采用L形邻域内的特征误差：选取初始特征图上当前待合成点的L形邻域内的特征点，与当前待合成点的所有候选点在风格特征图上的L形邻域比较，计算其余弦距离，计算如下：

其中，

为当前待合成点p与候选点j的风格误差。x_t表示目标特征图，NL表示L形邻域，其他符号的意义同上。

进一步地，所述总误差的计算公式为：

其中，w为均衡内容特征表达和风格特征表达的权值。

采用内容匹配误差和风格纹理误差共同衡量采样点的特征匹配度。待合成点p的最佳采样点NN(P)为总误差最小的特征点。

作为一个或多个实施例，所述S104：判断i-1是否等于设定值，如果是，就将第i-1层目标特征图作为最终目标特征图，这里的设定值，为自定义数值，允许为1、2、3。

作为一个或多个实施例，所述S105：对最终目标特征图进行逆变换，得到风格迁移后的图像；具体步骤包括：

采用迭代优化策略进行逆变换，或者，训练一个将特征图转换为图像的图像生成网络来进行逆变换。

迭代优化是将目标图像用噪声初始化，利用噪声图像的特征图和已合成目标特征图的平方差为损失函数，在最小化损失函数的过程中迭代优化目标图像。直至损失函数不再减小为止。

设X_c为内容图像，X_s为风格图像，我们以VGG19作为特征编码器。首先将内容图像X_c和风格图像X_s送入VGG网络分别得到他们在各池化层次上的特征图；然后以风格图像特征图为样本，以内容图像特征图为约束，通过特征合成生成目标图像的特征图，因为该特征图直接从风格特征图上采样，能保持样本的风格特征，同时在语义上与内容特征相匹配；最后，将目标特征图进行逆变换生成目标图像，逆变换过程可以采用优化策略或训练一个将特征图转换为图像的图像生成网络来实现。图1示意了本申请的风格迁移流程图。X_t为最终得到的目标风格图像。

为了使采样的特征点在语义上更好的匹配内容图像，给出一种逐层合成的方法。合成过程如下：

(1)将内容图像和风格样本图像输入VGG19网络，得到他们在各层上的特征图；

(2)在初始层(第4池化层)，使用贪婪搜索法搜索匹配的特征点，在若干较匹配的特征点中随机选择一个作为采样点，合成该层特征图。

(3)对后一层已合成的特征图进行上采样，将特征图传递到上一层，得到上一层的初始特征图。

(4)在当前层的初始特征图的基础上，以当前层的内容特征为约束，风格特征为样本，逐点合成该层的目标特征图。

(5)重复(3)、(4)两步，直至达到目标层。在目标层将合成后的目标特征图通过逆变换还原为图像。图2是逐层特征合成方法的流程图。

实施例二

本实施例提供了基于神经网络的图像风格迁移系统；

基于神经网络的图像风格迁移系统，包括：

特征图提取模块，其被配置为：将待转换的内容图像输入到VGG网络中，提取网络各个池化层的内容特征图；将已有的风格图像输入到VGG网络中，提取网络各个池化层的风格特征图；

预处理模块，其被配置为：将第4池化层上的内容特征图与风格特征图通过特征匹配搜索，得到第4池化层上的目标特征图；

特征图合成模块，其被配置为：对下一层的目标特征图进行上采样，得到上一层的初始特征图；设目标特征图层次序号i的初始值为4；在第i-1层初始特征图的基础上，以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，进行逐点合成，得到第i-1层个目标特征图；i为正整数；i>1；

判断模块，其被配置为：判断i-1是否等于设定值，如果是，就将第i-1层目标特征图作为最终目标特征图，进入逆变换模块；如果否，就对i进行减1处理，继续返回特征图合成模块；

此处需要说明的是，上述特征图提取模块、预处理模块、特征图合成模块判断模块和逆变换模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于神经网络的图像风格迁移方法，其特征是，包括：

对第i层目标特征图进行上采样，得到第i-1层初始特征图，以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图；_i为正整数；i>1；

判断i-1是否等于设定值，如果是，就将第i-1层目标特征图作为最终目标特征图，进入下一步；如果否，就对_i进行减1处理，继续对返回上一步；

对最终目标特征图进行逆变换，得到风格迁移后的图像。

2.如权利要求1所述的方法，其特征是，将待转换的内容图像输入到VGG网络中，提取网络各个池化层的内容特征图；具体步骤包括：

3.如权利要求1所述的方法，其特征是，将风格样本图像输入到VGG网络中，提取网络各个池化层的风格特征图；具体步骤包括：

4.如权利要求1所述的方法，其特征是，在VGG网络的第i池化层，利用该层的内容特征图与该层的风格特征图通过特征匹配搜索合成该层目标特征图；具体步骤包括：

对第i池化层内容特征图上的每个特征点，依次采用贪婪搜索算法在第i池化层风格特征图上搜索与第i池化层内容特征图当前点相匹配的若干特征点；

5.如权利要求1所述的方法，其特征是，以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图；具体步骤包括：

选择总误差最小的候选点，作为待合成点的最佳采样点；

6.如权利要求5所述的方法，其特征是，候选点集合的构建步骤包括：

7.如权利要求5所述的方法，其特征是，所述内容匹配误差，采用方形邻域内的特征误差计算：选取初始特征图上当前待合成点周围的一块方形特征图块，与当前待合成点的所有候选点在风格特征图上的方形邻域比较，计算其余弦距离，计算如下：

其中，

为当前待合成点p与候选点j的内容误差；x_s、x_c分别表示风格特征图、内容特征图和待合成的目标特征图，对于当前待合成点p和候选点集合中的某个候选点j，

为内容特征图x_c在点p处的方形邻域特征块；

为候选点j在风格特征图x_s上的方形邻域特征块，NB表示方形邻域；符号·表示向量的点积运算。

8.如权利要求5所述的方法，其特征是，所述风格纹理误差，采用L形邻域内的特征误差：选取初始特征图上当前待合成点的L形邻域内的特征点，与当前待合成点的所有候选点在风格特征图上的L形邻域比较，计算其余弦距离，计算如下：

其中，

为当前待合成点p与候选点j的风格误差；x_t表示目标特征图，NL表示L形邻域；

或者，

所述总误差的计算公式为：

其中，w为均衡内容特征表达和风格特征表达的权值；

采用内容匹配误差和风格纹理误差共同衡量采样点的特征匹配度；待合成点p的最佳采样点NN(_P)为总误差最小的特征点。

9.基于神经网络的图像风格迁移系统，其特征是，包括：

逐点合成模块，其被配置为：对第i层目标特征图进行上采样，得到第i-1层初始特征图，以第i-1层内容特征图为约束，以第i-1层风格特征图作为样本，在第i-1层初始特征图上进行逐点合成，得到第i-1层目标特征图；_i为正整数；i>1；

判断模块，其被配置为：判断i-1是否等于设定值，如果是，就将第i-1层目标特征图作为最终目标特征图，进入逆变换模块；如果否，就对_i进行减1处理，继续返回逐点合成模块；

10.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-8任一项所述的方法。