CN113516582A

CN113516582A - 用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN113516582A
Application number: CN202110391630.6A
Authority: CN
Inventors: 赵磊; 陈海博; 王志忠; 张惠铭; 李艾琳; 左智文; 邢卫; 鲁东明
Original assignee: Zhejiang University ZJU
Current assignee: Yiyuan Digital Beijing Technology Group Co ltd; Zhejiang University ZJU
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-10-19
Anticipated expiration: 2041-04-12
Also published as: CN113516582B

Abstract

本申请涉及一种用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质。所述方法包括：获取风格图像数据集以及内容图像数据集，并分别从风格图像数据集以及内容图像数据集中进行随机采样获取一张风格图像以及一张内容图像，将风格图像输入已训练的图像卷积神经网络得到高层图像特征，将内容图像以及高层图像特征输入网络模型，得到迁移图像，并计算抗损失函数以及风格损失函数从整体风格以及具体风格两个层面对迁移图像进行约束，且对网络模型进行不断训练，直至损失函数符合预设标准，采用本方法训练得到的网络模型具备生成质量高且风格可控的迁移图像。

Description

用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉和深度学习技术领域，特别是涉及一种用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质。

背景技术

图像风格迁移是指将一张或多张艺术图像的风格迁移到日常照片上，使原照片保留原始内容的同时还具有独特的艺术风格，从而创造出新的艺术图像。传统的风格迁移方法主要通过构建数学或者统计模型来实现风格的变换，但这类方法需要为每一种风格建立一个模型，每个模型都是定制的，不能泛化使用，灵活性很差。

2015年，Gatys等人首次将深度学习引入到风格迁移任务中，指出图像的内容和风格是可分割的，并可进行重新组合。由此，通过对艺术图像的风格和日常照片的内容进行分割和再组合，即可合成出新的艺术图像。受此启发，越来越多的研究者开始尝试将深度学习技术应用到图像风格迁移领域中来，并在图像生成的质量、效率、泛化性、多样性等多个方面取得了非常显著的进步。根据艺术风格是从单张艺术图像中学习的还是从整个艺术图像数据集中学习的，可以将现有的基于深度学习的风格迁移方法分为两类：第一类方法只利用单张艺术图像的信息去学习风格，它们所创造出的艺术图像的风格比较可控，但质量比较差；第二类方法提出从整个艺术图像数据集中学习风格，它们所创造出的艺术图像的质量很高，但风格不可控。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决上述至少一个问题的的用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质。

一种用于图像风格迁移的网络模型训练方法，所述方法包括：

获取风格图像数据集以及内容图像数据集，所述风格图像数据集以及内容图像数据集中分别包括多张风格图像以及多张内容图像；

分别从所述风格图像数据集以及内容图像数据集中进行随机采样获取一张风格图像以及一张内容图像；

将所述风格图像输入已训练的图像卷积神经网络，得到与所述风格图像相关的高层图像特征；

将所述内容图像以及高层图像特征输入网络模型，得到迁移图像；

根据所述内容图像、风格图像数据集、风格图像以及迁移图像进行计算得到损失函数，通过所述损失函数对所述网络模型的参数进行调整，直至所述损失函数符合预设标准，完成对所述图像迁移网络模型的训练；

其中，所述损失函数包括根据所述风格图像数据集以及迁移图像计算得到的对抗损失函数，以及根据所述风格图像以及迁移图像计算得到的风格损失函数。

可选地，进行训练的网络模型包括对抗网络中的生成器、判别器以及风格控制模块。

可选地，将所述内容图像以及高层图像特征输入网络模型，得到迁移图像包括：

所述生成器包括编码器以及解码器；

将所述高层图像特征输入风格控制模块，得到与所述风格图像相关的风格信息，并将所述风格信息注入所述解码器中；

将所述内容图像输入生成器，得到所述迁移图像。

可选地，计算所述对抗损失函数包括：

通过将所述风格图像数据集以及迁移图像输入所述判别器中进行对抗损失函数的计算。

可选地，计算所述风格损失函数包括：

通过将所述风格图像以及迁移图像输入已训练的图像卷积神经网络计算两者在高层特征统计量上的差值，并将其作为所述风格损失函数。

可选地，所述损失函数还包括软重建损失函数；

所述软重建损失函数为将所述内容图像以及迁移图像分别进行平均池化处理后两者之间的差值。

可选地，所述损失函数还包括内容损失函数；

所述内容损失函数为所述内容图像以及迁移图像两者内容特征之间的差值；

其中所述内容图像以及迁移图像的内容特征通过编码器得到。

本申请还提供了一种风格迁移图像获取方法，包括：

获取第一图像以及第二图像；

将所述第一图像输入已训练的图像卷积神经网络，得到与所述第一图像相关的高层图像特征；

将所述第二图像以及高层图像特征输入基于上述用于图像风格迁移的网络模型训练方法训练的网络模型，得到风格迁移图像，该风格迁移图像具有与第二图像相同的内容结构以及与第一图像相同的风格特征。

本申请还提供了一种用于图像风格迁移的网络模型训练装置，包括：

数据集获取模块，用于获取风格图像数据集以及内容图像数据集，所述风格图像数据集以及内容图像数据集中分别包括多张风格图像以及多张内容图像；

图像采样模块，用于分别从所述风格图像数据集以及内容图像数据集中进行随机采样获取一张风格图像以及一张内容图像；

高层图像特征获取模块，用于将所述风格图像输入已训练的图像卷积神经网络，得到与所述风格图像相关的高层图像特征；

迁移图像获取模块，用于将所述内容图像以及高层图像特征输入网络模型，得到迁移图像；

参数调整模块，用于根据所述内容图像、风格图像数据集、风格图像以及迁移图像进行计算得到损失函数，通过所述损失函数对所述网络模型的参数进行调整，直至所述损失函数符合预设标准，完成对所述网络模型的训练；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质，通过在对用于图像风格迁移的网络模型进行训练时，利用风格图像数据集对生成的迁移图像在大概风格内容上进行约束的同时，还利用风格图像数据集中任意一张风格图像对迁移图像在具体风格上进行约束，在整体风格与具体风格两个层面上对生成的迁移图像的风格进行增强，从而使得训练后的网络模型具有生成质量高且风格可控的迁移图像。

附图说明

图1为一个实施例中网络模型训练方法的流程示意图；

图2为另一个实施例中训练网络模型算法的流程示意图；

图3为一个实施例中网络模型训练装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，本申请提供了一种用于图像风格迁移的网络模型训练方法，包括以下步骤：

步骤S101，获取风格图像数据集以及内容图像数据集，风格图像数据集以及内容图像数据集中分别包括多张风格图像以及多张内容图像；

步骤S102，分别从风格图像数据集以及内容图像数据集中进行随机采样获取一张风格图像以及一张内容图像；

步骤S103，将风格图像输入已训练的图像卷积神经网络，得到与风格图像相关的高层图像特征；

步骤S104，将内容图像以及高层图像特征输入网络模型，得到迁移图像；

步骤S105，根据内容图像、风格图像数据集、风格图像以及迁移图像进行计算得到损失函数，通过损失函数对网络模型的参数进行调整，直至损失函数符合预设标准，完成对图像迁移网络模型的训练；

其中，损失函数包括根据风格图像数据集以及迁移图像计算得到的对抗损失函数，以及根据风格图像以及迁移图像计算得到的风格损失函数。

在步骤S101中，对网络模型进行训练的数据为两个数据集，包括用于提供迁移后图像的内容结构的内容图像数据集，其中包括有多张不同的内容图像，其中内容图像可选择日常内容的图像。以及用于提供迁移后图像的风格特点的风格图像数据集，其中同样包括来自同一画作风格的多张风格图像，其中风格图像可选择具有艺术风格的图像。

在其中一实施例中，内容图像数据集可采用Place365数据集。

在其中一实施例中，风格图像数据集可采用WikiArt数据集。且WikiArt数据集中的风格图像按照作者类别分为若干个子集，在训练时以一个作者的作品集为单位对网络模型进行训练。

在步骤S102中，再对网络模型进行训练时，将采用随机采样的方式分别从内容图像数据集以及风格图像数据集中抽取内容图像以及风格图像对网络模型进行训练，这样的训练过程会重复多次，直至损失函数最终收敛至预设标准。

在步骤S103中，图像卷积神经网络为在ImageNet数据集的分类任务上进行过预训练的深度神经网络VGG-19，用于对风格图像的高层图像特征进行提取。

在其中一实施例中，进行训练的网络模型包括对抗网络中的生成器、判别器以及风格控制模块(style-control block，简称SCB)。

在其中一实施例中，对抗模型为GAN(Generative Adversarial Networks)网络模型。

进一步的，生成器包括编码器以及解码器。

内容图像通过编码器生成对应的特征图像，再由解码器生成迁移图像，在此过程中，还有风格图像通过图像卷积神经网络以及风格控制模块生成对应的风格信息与特征图像一起输出解码器，从而使得在对图像进行迁移时，参考风格信息，使得生成的迁移图像具有风格图像的风格特征。

在其中一实施例中，编码器包括一个步长为1的卷积层和四个步长为2的卷积层。

在其中一实施例中，解码器包括九个残差块，四个上采样层，以及一个步长为1的卷积层。

在其中一实施例中，判别器包括七个步长为2的卷积层。

在步骤S104中，将内容图像以及高层图像特征输入网络模型，得到迁移图像包括：将高层图像特征输入风格控制模块，得到与风格图像相关的风格信息，并将风格信息注入解码器中。再将内容图像输入生成器，得到迁移图像。这样内容图像在生成器中编码，再进行解码时，由于风格信息已注入解码器中，以使解码后生成的迁移图像具有风格图像的风格特征以及内容图像的具体内容。

在其中一实施例中，选取VGG-19中Relu5_1层的输出作为所述风格控制模块的输入，而风格控制模块输出的风格信息注入解码器的第一层以及第二层。

在本申请中，为了保证生成的迁移图像从单张的风格图像中学习具体的画作风格以及从画家的创作风格或会话也就是整个风格图像数据集中学习整体风格基调，在步骤S105中，还通过迁移图像、风格图像、风格图像数据集以及内容图像计算损失函数，若损失函数不符合预设标准，则相应调节网络模型中各参数，再重复S102-S105步骤中的内容，直至损失函数符合预设标准，以完成对网络模型的训练，此时网络模型具备生成质量高且风格可控的迁移图像的能力。

进一步的，损失函数包括对抗损失函数以及风格损失函数。其中对抗损失函数由风格图像数据集以及迁移图像进行计算得到，也就是利用风格图像数据集对迁移图像的整体风格进行约束。而风格损失函数由风格图像以及迁移图像计算得到，也就是利用单张的风格图像中具体的风格特征例如色彩或纹理等信息对迁移图像进行约束。

在其中一实施例中，计算对抗损失函数包括：通过将风格图像数据集以及迁移图像输入判别器中进行对抗损失函数的计算。

将风格图像数据集中的图像作为真实数据，将迁移图像作为虚假数据同时输入判别器中，而判别器对输入的数据进行分类，力图能准确地将生成的迁移图像与真实的艺术图像区分开；与此同时，生成器力图生成与真实的风格图像在风格特征上十分相似的迁移图像，以骗过判别器。

利用对抗损失函数去指导网络模型的训练，使得生成器和判别器在不断地对抗训练过程中，获得性能上的不断提升。对抗损失函数的计算公式为：

L_adv＝E_y～Y[log(D_s(y))]+E_x～X[log(1-D_s(D(E(x),τ)))] (1)

在公式(1)中，x表示内容图像，X表示内容图像数据集；y表示风格图像，Y表示风格图像数据集，D_s表示判别器，D表示解码器，E表示编码器，τ表示从风格图像中提取出的风格信息。

在其中一个实施例中，计算风格损失函数包括：通过将风格图像以及迁移图像输入已训练的图像卷积神经网络计算两者在高层特征统计量上的差值，并将其作为所述风格损失函数。

其中，这里所应用到的已训练的图像卷积神经网络也为在ImageNet数据集的分类任务上进行过预训练的深度神经网络VGG-19，通过深度神经网络VGG-19提取风格图像以及迁移图像的高层特征，并计算两者高特征统计量也就是包括均值和标准差上的差值，将该差值作为风格损失函数，并在风格损失函数的约束下不断对网络模型进行训练，风格损失函数的计算公式为：

在公式(2)中，L_s为风格损失函数，其中μ表示均值，σ表示标准差，φ_i表示VGG-19的第i层。

具体地，本方法选取VGG-19中的Relu1_1，Relu2_1，Relu3_1，Relu4_1，和Relu5_1层进行风格损失函数L_s的计算。

在本申请中，除了利用对抗损失函数L_adv以及风格损失函数对L_s对迁移图像在风格特征上进行约束外，损失函数还包括软重建损失函数以及内容损失函数对迁移图像的内容结构上进行约束，使得迁移图像能够保留内容图像的内容结构信息。

在其中一实施例中，软重建损失函数为将内容图像以及迁移图像分别进行平均池化处理后两者之间的差值，软重建损失函数计算公式为：

在公式(3)中，P表示一个平均池化层，D(E(x),τ)表示生成的迁移图像，x表示内容图像。

在其中一实施例中，内容损失函数为内容图像以及迁移图像两者内容特征之间的差值，其中内容图像以及迁移图像的内容特征通过编码器得到，内容损失函数计算公式为：

在公式(4)中，E为编码器，D(E(x),τ)表示生成的迁移图像，x为内容图像。

在本申请中，在对网络模型进行训练的过程中，通过调整生成对抗损失函数L_adv、风格损失函数L_s、软重建损失函数L_p，和内容损失函数L_SA的权重来协调画家风格、画作风格以及内容结构信息的融合，即，

L_full＝λ_advL_adv+λ_sL_s+λ_pL_p+λ_SAL_SA (5)

在公式(5)中，L_full表示最终的损失函数，λ_adv表示对抗损失函数L_adv的权重，λ_s表示风格损失函数L_s的权重，λ_p表示软重建损失函数L_p的权重，λ_SA表示内容损失函数L_SA的权重。

如图2所示，提供了一种训练网络模型的算法流程图，当网络模型完成训练后，网络模型中将判别器去掉，在进行风格迁移时，也不再需要进行损失函数计算。

上述用于图像风格迁移的网络模型训练方法中，通过在对网络模型进行训练时，在风格特征上分别从整体和具体两种风格对迁移图像进行约束从而训练网络模型，这样能够克服以往的风格迁移方法在图像质量和风格可控性上不能兼顾的缺陷，在整体和具体两个层面上对生成图像的风格进行增强，从而能够生成质量高且风格可控的迁移图像。

本申请与传统的风格迁移方法相比，以深度神经网络作为模型的基本架构，利用其强大的泛化和特征提取能力，克服了传统方法在泛化能力和质量上的缺陷，具有更高的实用性。而与现有的基于深度学习的风格迁移方法相比，能够同时从单张风格图像中学习具体的画作风格以及从整个风格图像数据集中学习整体的画家风格。其中，整体的画家风格用来确定生成的艺术图像的风格基调，具体的画作风格用来确定生成的艺术图像在风格上的细节信息，例如颜色和纹理等。通过整体和具体的结合，从而生成质量高且风格可控的迁移图像。

本申请与其他的风格引导方法相比，使用了可学习、可训练的SCB模块，能够在网络训练的过程中学习对于艺术图像风格信息的最优提取方式，而不再是人工地定义一些风格提取规则，因而，本方法在艺术风格的迁移效果上要优于其他的方法。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在本实施例中，还提供一种基于上述网络模型训练方法完成训练的网络模型进行图像风格迁移的方法，方法包括：

获取第一图像以及第二图像；

将第一图像输入已训练的图像卷积神经网络，得到与第一图像相关的高层图像特征；

将第二图像以及高层图像特征输入已训练的网络模型，得到风格迁移图像，该风格迁移图像具有与第二图像相同的内容结构以及与第一图像相同的风格特征。

在本实施例中，第一图像为具有艺术风格的图像，而第二图像为日常图像或照片，通过已训练的网络模型可将艺术风格迁移到日常照片上，创造出新的艺术图像。

其中，已训练的图像卷积神经网络也采用在ImageNet数据集的分类任务上进行过预训练的深度神经网络VGG-19。

在一个实施例中，如图3所示，提供了一种用于图像风格迁移的网络模型训练装置，包括：数据集获取模块201、图像采样模块202、高层图像特征获取模块203、迁移图像获取模块204和参数调整模块205，其中：

数据集获取模块201，用于获取风格图像数据集以及内容图像数据集，风格图像数据集以及内容图像数据集中分别包括多张风格图像以及多张内容图像；

图像采样模块202，用于分别从风格图像数据集以及内容图像数据集中进行随机采样获取一张风格图像以及一张内容图像；

高层图像特征获取模块203，用于将风格图像输入已训练的图像卷积神经网络，得到与风格图像相关的高层图像特征；

迁移图像获取模块204，用于将内容图像以及高层图像特征输入网络模型，得到迁移图像；

参数调整模块205，用于根据内容图像、风格图像数据集、风格图像以及迁移图像进行计算得到损失函数，通过损失函数对所述网络模型的参数进行调整，直至损失函数符合预设标准，完成对网络模型的训练；

其中，损失函数包括根据所述风格图像数据集以及迁移图像计算得到的对抗损失函数，以及根据风格图像以及迁移图像计算得到的风格损失函数。

关于用于图像风格迁移的网络模型训练装置的具体限定可以参见上文中对于用于图像风格迁移的网络模型训练方法的限定，在此不再赘述。上述用于图像风格迁移的网络模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于图像风格迁移的网络模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.用于图像风格迁移的网络模型训练方法，其特征在于，包括：

2.根据权利要求1所述的网络模型训练方法，其特征在于，进行训练的网络模型包括对抗网络中的生成器、判别器以及风格控制模块。

3.根据权利要求2所述的网络模型训练方法，其特征在于，将所述内容图像以及高层图像特征输入网络模型，得到迁移图像包括：

所述生成器包括编码器以及解码器；

将所述内容图像输入生成器，得到所述迁移图像。

4.根据权利要求2所述的网络模型训练方法，其特征在于，计算所述对抗损失函数包括：

5.根据权利要求1所述的网络模型训练方法，其特征在于，计算所述风格损失函数包括：

6.根据权利要求1所述的网络模型训练方法，其特征在于，所述损失函数还包括软重建损失函数；

7.根据权利要求3所述的网络模型训练方法，其特征在于，所述损失函数还包括内容损失函数；

8.风格迁移图像获取方法，其特征在于，包括：

获取第一图像以及第二图像；

将所述第二图像以及高层图像特征输入基于权利要求1-7中任一项所述用于图像风格迁移的网络模型训练方法训练的网络模型，得到风格迁移图像，该风格迁移图像具有与第二图像相同的内容结构以及与第一图像相同的风格特征。

9.一种用于图像风格迁移的网络模型训练装置，其特征在于，包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述用于图像风格迁移的网络模型训练方法的步骤。