CN113570500A

CN113570500A - 一种基于全局信息引导网络实现真实图像风格迁移的方法

Info

Publication number: CN113570500A
Application number: CN202110891687.2A
Authority: CN
Inventors: 张文强; 张颖涛; 戈维峰; 张巍; 张睿
Original assignee: Guanghua Lingang Engineering Application Technology Research and Development Shanghai Co Ltd
Current assignee: Guanghua Lingang Engineering Application Technology Research and Development Shanghai Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-10-29

Abstract

本发明属于计算机视觉风格迁移领域，具体涉及一种基于全局信息引导网络实现真实图像风格迁移的方法。步骤：获取包含有内容图片和风格图片的数据集，并进行预处理，构建全局信息引导网络，训练优化全局信息引导网络，采用Adam优化器，通过反向传播算法，最小化总损失函数，按照设定的学习率进行参数的迭代更新，直至损失趋于平衡，停止迭代，保存训练好的网络；测试训练好的全局信息引导网络；对内容图片和风格图片进行风格迁移。本发明采用分区自适应实例归一化，使网络能够获得更多的通道信息，能够提升网络色调风格迁移的能力；采用跨通道分区注意力模块，能够使网络更好的利用全局上下文信息，引导网络实现更好的整体迁移效果。

Description

一种基于全局信息引导网络实现真实图像风格迁移的方法

技术领域

本发明属于计算机视觉风格迁移技术领域，具体涉及一种基于全局信息引导网络实现真实图像风格迁移的方法。

背景技术

图像风格迁移，是指利用算法学习一幅图像的风格特征，然后再把这种风格特征应用到另一幅图片上的技术，图像风格迁移在计算机视觉领域具有很重要的地位，根据想要的目标风格，把现有图像进行风格转换为目标风格图像，风格迁移在动画制作、相机拍照和模拟系统中有着很多的应用。目前的图像风格迁移方法基本是建立在艺术风格迁移的基础上，向艺术风格迁移网络输入内容图片和艺术风格图片，可以生成富有艺术感的图像，但这种方式通常会产生以下问题：1)艺术风格迁移网络生成的结果往往会伴随扭曲与形变，无法保持真实感，生成图片在内容上难以与内容图片保持一致，因为风格是一种极为抽象的特征，风格迁移被看作是一种纹理迁移，而纹理的迁移则必然会导致图像的扭曲与形变，造成细节丢失；2)为抑制图像形变与风格溢出等问题需进行预处理或后处理；3)现有的艺术风格迁移方法无法充分利用全局的色彩信息，导致图片生成效果差。与艺术风格迁移不同的是真实图像风格迁移要求生成图片在迁移风格的同时保持真实性，即在内容上与内容图片保持一致，因此真实图像风格迁移可以看做是一种色调迁移，通过真实图像风格迁移，我们能得到保持真实感的生成图像。

发明内容

本发明的目的是克服现有技术中存在的无法充分利用全局色彩信息、生成图片存在扭曲变形与细节丢失以及等需进行预处理和后处理缺陷，提供一种能够处分利用全局色彩信息和全局上下文信息、能够有效避免形变的产生以及迁移效果好的基于全局信息引导网络实现真实图像风格迁移的方法。

本发明解决其技术问题所采用的技术方案是：

一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于，包括以下步骤：

S1、获取数据集；

获取包含有内容图片和风格图片的数据集，将所述数据集中的内容图片和风格图片进行预处理，从预处理后的数据集中随机抽取内容图片和风格图片分别建立测试集和训练集；

S2、构建全局信息引导网络；

S21、所述全局信息引导网络为编码器-解码器结构，首先使用预训练的VGG-19作为编码器分别对内容图片和风格图片进行编码，并分别提取内容图片和风格图片在不同层的特征，输出内容特征和风格特征；

S22、将提取到的对应层次的内容特征和风格特征输入到分区自适应实例归一化模块进行实例归一化，得到的浅层特征通过下采样模块后与下一层的深层特征逐元素相加进行特征传递；

S23、将步骤S22输出的特征进行卷积操作，然后经过双线性插值上采样操作后送入跨通道分区注意力模块，接下来通过跳连接将跨通道分区注意力模块输出的特征与实例归一化操作得到的同尺度特征进行通道拼接；

S24、最后将步骤S23中得到的特征进行卷积操作后送入解码器，得到风格迁移后的生成图片；

S3、训练优化全局信息引导网络；

S31、将所述训练集输入到构建好的全局信息引导网络中，对网络进行优化训练，利用步骤S21中的编码器作为损失网络进行内容损失和风格损失计算，具体的表达为：内容损失的内容损失函数为：

式中F[O]为生成图片送入VGG-19提取到的conv4-1层特征，F[C]为内容图片送入VGG-19提取到的conv4-1层特征；风格损失的风格损失函数为：

式中F[O]为生成图片送入VGG-19提取到的特征，F[S]表示风格图片送入VGG-19提取到的特征；

S32、将表示生成图片和风格图片各个颜色通道的二维矩阵展平成一维向量，并将向量按数值大小进行升序排序，然后将向量均分成相同数量像素的色彩区域，分别对各个色彩区域取均值，得到均值向量，计算生成图片和风格图片均值向量的均方误差，得到色域均值损失函数；

S33、利用梯度损失函数

计算梯度损失，其中

为索贝尔算子；

S34、将步骤S31中的内容损失函数和风格损失函数、步骤S32中的色域均值损失函数以及步骤S33中的梯度损失函数线性组合成一个新的损失函数作为总损失函数；

S35、采用Adam优化器，通过反向传播算法，最小化总损失函数，按照设定的学习率进行参数的迭代更新，直至损失趋于平衡，停止迭代，保存训练好的网络；

S4、测试训练好的全局信息引导网络；

将所述测试集输入训练好的全局信息引导网络中，输出风格迁移后的生成图片，通过SSIM和PSNR指标来判别生成图片分别与原内容图片和风格图片相比是否失真，若否，保留下网络；若是，则重新进行步骤S3，调整损失函数的权重和训练轮数；

S5、对内容图片和风格图片进行风格迁移；

获取内容图片和风格图片，将内容图片和风格图片输入到训练好的全局信息引导网络进行风格迁移，输出风格迁移后的生成图片。

进一步地，所述分区自适应实例归一化包括先将内容特征和风格特征各通道内像素按数值进行排序并均分成数量相等的分区，计算各分区内内容特征和风格特征的方差和均值，然后按照排序后的对应位置实现各分区内容特征和风格特征的自适应实例归一化，完成归一化后将像素顺序还原。

进一步地，所述跨通道分区注意力模块包括对施加十字交叉注意力得到的特征进行卷积操作，将各通道上的特征按数值升序排序并均分成含相同数量像素的区间，计算各区间的平均值，并表示成向量，得到均值向量，进行挤压激发操作得到各通道的权重向量，将权重向量与对应的区间相乘，并将各像素位置还原。

进一步地，步骤S1中对所述内容图片和风格图片进行预处理包括：将所述内容图片和所述风格图片统一裁剪成256×256尺寸，并将所述内容图片和所述风格图片的像素值进行归一化至范围[-1，1]。

进一步地，所述VGG-19网络分别提取内容图片和风格图片在conv1_1、conv2_1、conv3_1和conv4_1层的特征，输出内容特征和风格特征。

进一步地，所述编码器共有四个卷积层，各卷积层的卷积核大小均为3×3，下一层卷积核个数是上一层的两倍，所述卷积层均采用ReLU函数作为激活函数。

进一步地，色域均值损失函数的计算公式为：

其中c为颜色通道数量，p为通道色域数量，Ov_ij为生成图片第i个颜色通道第j个色域的均值向量，Sv_ij为风格图片第i个颜色通道第j个色域的均值向量。

进一步地，所述总损失函数的计算公式为：

式中λ₁，λ₂，λ₃和λ₄为权重超参数。

进一步地，所述Adam优化器中，设置指数衰减率β₁＝0.9，指数衰减率β₂＝0.999，∈＝10^-8。

更进一步地，网络训练使用动态的学习率衰减策略，即当前学习率

式中epoch为当前训练轮次，网络的初始学习率lr_origin设置为10^-3，学习率衰减值lr_decay设置为0.05。

本发明的一种基于全局信息引导网络实现真实图像风格迁移的方法的有益效果是：

1、本发明采用分区自适应实例归一化，使网络能够获得更多的通道信息，能够提升网络色调风格迁移的能力；采用跨通道分区注意力模块，能够使网络更好的利用全局上下文信息，引导网络实现更好的整体迁移效果。

2、本发明通过采用色域均值损失函数，充分利用全局色彩分布信息，使网络能够取得更好的生成效果，而且能够有效避免形变的产生，不需要进行额外的预处理或后处理操作。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例的整体流程图；

图2是本发明实施例中步骤S2流程图；

图3是本发明实施例中步骤S3流程图；

图4是本发明实施例的全局信息引导网络的结构示意图；

图5是本发明实施例的部分数据集构成图；

图6是本发明实施例的色域均值损失示意图；

图7是本发明实施例的跨通道分区注意力模块示意图；

图8是本发明实施例的真实图像风格迁移示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1-图8所示的本发明的一种基于全局信息引导网络实现真实图像风格迁移的方法的具体实施例，包括以下步骤：

S1、获取数据集；

获取包含有内容图片和风格图片的数据集，将数据集中的内容图片和风格图片进行预处理，并从预处理后的数据集中随机抽取内容图片和风格图片分别建立测试集和训练集；对内容图片和风格图片进行预处理包括：将内容图片和风格图片统一裁剪成256×256像素，并作标准化，并将内容图片和风格图片的像素值进行归一化至范围[-1，1]，方便对网络进行训练。本实施例中，在Landscape Pictures数据集4319张图片的基础上，加入部分网络爬取和自行拍摄的图片，得到包含6130张图片的训练数据集，数据集中的图片内容以自然风景和城市风景为主，在原图的基础上进行调整与剪裁，统一尺寸为256×256像素。在训练时会对内容图片和风格图片进行随机配对，并将图片归一化到[-1,1]的区间内。

S2、构建全局信息引导网络；

S21、全局信息引导网络包含分区自适应实例归一化和跨通道分区注意力等模块，且为编码器-解码器结构，首先使用预训练的VGG-19作为编码器分别对内容图片和风格图片编码，并分别提取内容图片和风格图片在conv1-1,conv2-1,conv3-1和conv4-1四个不同层的特征，输出内容特征和风格特征；编码器共有四个卷积层，各卷积层的卷积核大小均为3×3，可以减小参数的数量，在加深网络的同时不至于使网络太过复杂和难以训练，下一层卷积核个数是上一层的两倍，卷积层均采用ReLU函数作为激活函数。

S22、将提取到的对应层次的内容特征和风格特征输入到分区自适应实例归一化模块进行实例归一化，得到的浅层特征通过下采样模块后与下一层的深层特征逐元素相加进行特征传递；本实施例中，分区自适应实例归一化对自适应实例归一化提出了，自适应实例归一化对每个特征通道只取一个均值和方差，无法充分获取通道信息，而改进后的改进分区自适应实例归一化包括先将内容特征和风格特征各通道内像素按数值进行排序并均分成像素数量相等的分区，计算各分区内内容特征和风格特征的方差和均值，然后按照排序后的对应位置实现各分区内容特征和风格特征的自适应实例归一化，完成归一化后将各像素位置的顺序还原。将对应层次的内容特征和风格特征进行分区自适应实例归一化操作，得到的浅层特征会进行一次缩小为原来尺寸一半的下采样，并与深层特征逐元素相加进行特征传递。本发明采用分区自适应实例归一化，使网络能够获得更多的通道信息，能够提升网络色调风格迁移的能力。

S23、将步骤S22输出的特征进行卷积操作，然后经过双线性插值上采样操作后送入跨通道分区注意力模块，接下来通过跳连接将跨通道分区注意力模块输出的特征与实例归一化操作得到的同尺度特征进行通道拼接；跨通道分区注意力模块，首先对施加十字交叉注意力得到的特征进行卷积操作，将各通道上的特征按数值升序排序并均分成含相同数量像素的区间，计算各区间的平均值并连接得到均值向量，均值向量长度为通道数与分区数的乘积，参考SENet中的方法，进行挤压激发操作得到各通道分区的权重向量，将权重向量与对应分区相乘，并将各像素位置还原至排序之前的状态。本发明采用跨通道分区注意力模块，能够使网络更好的利用全局上下文信息，引导网络实现更好的整体迁移效果

S24、最后将步骤S23中得到的特征进行卷积操作后送入解码器，得到风格迁移后的生成图片；在解码部分，考虑到深层特征信息丢失的问题，参考U型网络，将编码得到的特征经过卷积操作与双线性插值上采样操作后送入跨通道分区注意力模块，并通过跳连接与分区自适应实例归一化操作得到的同尺度特征进行通道拼接。解码器同样为4层，各层特征图大小，卷积核数量与编码器保持一致。

S3、训练优化全局信息引导网络；

S31、将训练集输入到构建好的全局信息引导网络中，对网络进行优化训练，通过分别计算色域均值损失、内容损失和风格损失和梯度损失，基于反向传播算法和Adam优化器优化网络参数，按照设定的学习率进行参数的迭代更新。具体的，Adam优化器中，设置指数衰减率β₁＝0.9，指数衰减率β₂＝0.999，∈＝10^-8。网络训练使用动态的学习率衰减策略，

即当前学习率

式中epoch为当前训练轮次，网络的初始学习率lr_origin设置为10^-3，学习率衰减值lr_decay设置为0.05。当利用全局信息引导的真实风格迁移网络的迁移效果良好时，网络训练完成。

利用步骤S21中的编码器作为损失网络进行内容损失和风格损失计算，具体的表达为：内容损失的内容损失函数为：

S32、将表示生成图片和风格图片各个颜色通道的二维矩阵展平成一维向量，并将向量按数值大小进行升序排序，然后将向量均分成相同数量像素的色彩区域，分别对各个色彩区域取均值，得到均值向量，计算生成图片和风格图片均值向量的均方误差，得到色域均值损失；色域均值损失函数的计算公式为：

其中c为颜色通道数量，p为通道色域数量，Ov_ij为生成图片第i个颜色通道第j个色域的均值向量，Sv_ij为风格图片第i个颜色通道第j个色域的均值向量。本发明通过采用色域均值损失函数，充分利用全局色彩分布信息，使网络能够取得更好的生成效果，而且能够有效避免形变的产生，不需要进行额外的预处理或后处理操作。

S33、利用梯度损失函数

计算梯度损失，其中

为索贝尔算子；

S34、将步骤S31中的内容损失函数和风格损失函数、步骤S32中的色域均值损失函数以及步骤S33中的梯度损失函数线性组合成一个新的损失函数作为总损失函数；总损失函数的计算公式为：

式中λ₁，λ₂，λ₃和λ₄为权重超参数。其中，色域均值损失控制色调的迁移，内容损失保证生成图片与内容图片在内容上的一致，风格损失控制风格的迁移，梯度损失保持生成图片与内容图片的边缘一致性。

S35、采用Adam优化器，通过反向传播算法，最小化总损失函数，按照设定的学习率进行参数的迭代更新，直至损失趋于平衡，停止迭代，保存训练好的网络；运用Adam优化器对网络进行优化，通过训练不断更新参数，使得总损失值达到最小并趋于稳定。

S4、测试训练好的全局信息引导网络；

将测试集输入训练好的全局信息引导网络中，输出风格迁移后的生成图片，通过SSIM和PSNR指标来判别生成图片分别与原内容图片和风格图片相比是否失真，若否，保留下网络；若是，则重新进行步骤S3，调整损失函数的权重和训练轮数；本实施例中，优选地，epoch＝50，λ₁＝10000,λ₂＝10,λ₃＝10和λ₄＝100。

S5、对内容图片和风格图片进行风格迁移；

真实图像风格迁移的全局信息引导网络将对输入的内容图片和风格图片进行真实风格迁移，在保持内容图片内容基本不变的同时，将风格图片的色调风格迁移到内容图像上，最终得到了内容上与内容图片一致，色彩风格上与风格图片一致的生成图片，本发明提出的方法能够在保持内容图片内容细节和色彩层次的前提下，实现真实图像风格的迁移。

应当理解，以上所描述的具体实施例仅用于解释本发明，并不用于限定本发明。由本发明的精神所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于，包括以下步骤：

S1、获取数据集；

S2、构建全局信息引导网络；

S3、训练优化全局信息引导网络；

S33、利用梯度损失函数

计算梯度损失，其中

为索贝尔算子；

S34、将内容损失函数、风格损失函数、色域均值损失函数以及梯度损失函数线性组合成一个新的损失函数作为总损失函数；

S4、测试训练好的全局信息引导网络；

将所述测试集输入训练好的全局信息引导网络中，输出风格迁移后的生成图片，通过SSIM和PSNR指标来判别生成图片分别与原内容图片和风格图片相比是否失真，若否，保留下网络；若是，则重新进行步骤v3，调整损失函数的权重和训练轮数；

S5、对内容图片和风格图片进行风格迁移；

2.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：所述分区自适应实例归一化包括先将内容特征和风格特征各通道内像素按数值进行排序并均分成像素数量相等的分区，计算各分区内内容特征和风格特征的方差和均值，然后按照排序后的对应位置实现各分区内容特征和风格特征的自适应实例归一化，完成归一化后将各像素位置的顺序还原。

3.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：所述跨通道分区注意力模块包括对施加十字交叉注意力得到的特征进行卷积操作，将各通道上的特征按数值升序排序并均分成含相同数量像素的区间，计算各区间的平均值，并表示成向量，得到均值向量，进行挤压激发操作得到各通道的权重向量，将权重向量与对应的区间相乘，并将各像素位置还原。

4.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：步骤S1中对所述内容图片和风格图片进行预处理包括：将所述内容图片和所述风格图片统一裁剪成256×256尺寸，并将所述内容图片和所述风格图片的像素值进行归一化至范围[-1，1]。

5.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：所述VGG-19网络分别提取内容图片和风格图片在conv1_1、conv2_1、conv3_1和conv4_1层的特征，输出内容特征和风格特征。

6.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：所述编码器共有四个卷积层，各卷积层的卷积核大小均为3×3，下一层卷积核个数是上一层的两倍，所述卷积层均采用ReLU函数作为激活函数。

7.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：所述色域均值损失函数的计算公式为：

8.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：所述总损失函数的计算公式为：

式中λ₁，λ₂，λ₃和λ₄为权重超参数。

9.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：所述Adam优化器中，设置指数衰减率β₁＝0.9，指数衰减率β₂＝0.999，∈＝10^-8。

10.根据权利要求1所述的一种基于全局信息引导网络实现真实图像风格迁移的方法，其特征在于：网络训练使用动态的学习率衰减策略，当前学习率