CN111429340A

CN111429340A - 一种基于自注意力机制的循环图像翻译方法

Info

Publication number: CN111429340A
Application number: CN202010217766.0A
Authority: CN
Inventors: 刘琚; 鲁昱; 刘晓玺; 赵雪圻
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-17

Abstract

为了解决CycleGAN网络生成图像细节模糊不清且训练缓慢的问题，本发明提出了一种基于自注意力机制的循环图像翻译方法。主要思想在于在生成器网络中使用自注意力机制模块，扩大特征图的感受野，增强其对中心像素点周围空间结构的描述；此外，为了解决网络训练中收敛缓慢且不稳定的问题，在训练过程中使用了谱归一化方法和双尺度更新策略，对生成器和判别器分别使用不同的学习速率进行梯度更新；最终，本发明设计了一种基于最小二乘的对抗损失和循环一致性损失结合的目标函数，实现更真实的图像翻译。该方法可以实现更精准的图像特征转换，其在图像翻译任务中进行实验，达到了优异的效果，充分证明方法具有较强的转换能力。

Description

一种基于自注意力机制的循环图像翻译方法

技术领域

本发明涉及一种图像翻译技术，属于图像、多媒体信号处理技术领域。

技术背景

互联网技术和多媒体技术的发展，极大地促进了人们对某单一图像的风格转换和迁移需求。近年来，随着计算机视觉和模式识别领域的快速发展，基于深度学习的图像翻译任务在转换效果和速度上有了显著提升。具体来讲，图像翻译是指将某一具有显著特性的图像域X整体转换到另一种特性的图像域Y中，比如从冬天变夏天，从苹果变橙子，从普通风景照变梵高风格画作等。翻译任务通常对图像的原始结构和内容不做修改，而是在色调、纹理、亮度等方面进行一定的处理和调整，从而在视觉上给人图像风格迁移的效果。

在图像翻译任务出现的前期，带有图像标签的有监督学习占主导地位。监督学习可以更加快速的帮助网络学习到X域和Y域图像的不同特性，例如Pix2Pix方法就是在成对的有标签数据上进行训练。但是现实场景的应用中，要收集到大量成对的X域Y域图像并对其逐个打标签，极其耗费人力物力，半监督甚至无监督下的图像翻译方法应运而生。其中，CycleGAN作为最早被提出的一种无监督方法，利用生成对抗网络实现了小数据量下的图像翻译。生成对抗网络(Generative Adversarial Network,GAN)包含生成器和判别器两个部分，生成器企图学习并生成和真实图像在风格上无限逼近的假图，而判别器则努力辨别输入的图像是真图还是假图。二者在博弈对抗过程中最终达到全局平衡点，该点被称为纳什均衡点。在深度学习中，生成器和判别器通常由两个独立的神经网路构成。CycleGAN在传统生成对抗网络只有一对生成器和判别器的基础上，改进使用完全对称的两对生成器和判别器实现了无标记、非成对图像的一对一转换。CycleGAN对无标签的无监督图像翻译提供了一种较好的解决方法。

然而，CycleGAN在训练中仍具有传统生成对抗网络常见的问题，如训练缓慢且不稳定，博弈过程中常落入局部最优值等。如何在CycleGAN循环对抗生成模式的基础上，提升该方法的转换效果，并且优化训练过程成为关键问题。

发明内容

为了提升图像翻译的生成效果并优化训练过程，本发明在基于生成对抗网络CycleGAN的基础上，提出了一种基于自注意力机制的循环图像翻译方法。具体技术方案如下：

一种基于自注意力机制的循环图像翻译方法，该方法基于循环对抗一致的CycleGAN网络，其特征在于该方法包括以下步骤：

步骤1：从两个待转换的X域和Y域图像数据库中分别随机选取一张图像，送入循环生成对抗网络；

步骤2：所述图像分别经过X域和Y域的带有自注意力机制的生成器，得到输出对应转换的Y域和X域生成图像；

步骤3：所述两个生成图像分别送入Y域和X域的判别器中进行判别，得到介于[0,1]之间的两个得分；

步骤4：利用循环一致性损失函数计算生成的假图和真实输入图像之间的误差，利用判别得分计算生成对抗过程中的最小二乘对抗损失函数；

步骤5：基于损失函数进行网络优化，通过梯度下降与反向传播不断迭代以更新X域和Y域的生成器和判别器网络参数，使全部四个网络达到动态平衡点，即纳什均衡；

步骤4中所述的损失函数分别如下所示：

L(G,F,D_X,D_Y)＝L_DX+L_DY+L_G+L_F+λL_cyc(G,F)

其中，L_cyc(G,F)是循环一致性损失函数，

L_G和L_F分别是X域、Y域的判别对抗损失以及X→Y和Y→X转换的生成对抗损失，且均为最小二乘形式的对抗损失函数，L(G,F,D_X,D_Y)是完整的网络损失函数。其中，x～p_data(x)和y～p_data(y)来自X域和Y域的真实图像分布，E(·)代表数学期望，G(·)表示X→Y的生成器，F(·)表示Y→X的生成器，||·||₁表示L₁范数，D_X(x)表示X域判别器对真实X域图像的判别分数，则对应的，D_Y(G(x))表示Y域判别器对生成的Y域假图的判别分数，λ表示循环一致性损失在全损失函数中的权重，是一个超参数，其取值范围为λ∈(0,1)。

特别地，步骤2中的自注意力机制具体为：上层输出的特征向量图，分别经过三个变换函数f(x)、g(x)和h(x)，转换后的三个特征图叠加上原始的特征图输入到网络的下一层。

特别地，在训练过程中使用了两种策略增强网络稳定性，减少梯度异常的概率，同时减少梯度更新需要的时间；第一种策略，针对所有的生成器和判别器网络，均使用谱归一化方法；第二种策略，对于生成器和判别器，使用双尺度更新策略，分别使用不同的学习速率进行梯度更新，加快对抗博弈的过程，更快地找到纳什均衡点。

从上述技术方案可以看出，为了解决CycleGAN生成图像细节处理不足、空间结构信息表达不充分的问题，本发明利用自注意力机制中的多像素点对某一中心像素点的关系权重，将生成器网络中间层的特征向量层输出到注意力机制模块中，分别经过两个特征变换函数，扩展特征图的感受野范围，将中心像素点较远点处的特征对中心点的影响也考虑在内。同时，变换后的特征和原始的特征向量叠加构成新的特征图，从而充分保留输入图的空间结构，只改变其色调、亮度等图像风格特性。同时在损失函数中使用最小二乘替换原始CycleGAN的交叉熵对抗损失，提升生成图像的质量。最小二乘形式的对抗损失还可以通过利普希茨约束条件将更新的梯度约束到固定范围内，避免梯度出现大幅度变化；为了辅助稳定训练过程，本发明在网络的训练中使用了两种策略，一是在生成器和判别器中使用谱归一化，减小异常梯度出现的可能性，二是对生成器和判别器分别使用不同的学习率，加速网络收敛到全局最优点。

综上所述，该方法有效得解决了CycleGAN生成图像质量低且训练慢的问题，增强了图像转换后细节部分的处理效果，加快了网络收敛到最优点的速度，从客观评价上提高了图像的生成质量。

附图说明

图1是本发明的方法流程图；

图2是本发明的网络结构图；

图3是本发明的自注意力机制模块结构图。

具体实施方式

本发明提出一种基于自注意力机制的循环图像翻译方法。在CycleGAN循环生成对抗网络的基础上，在生成器中加入自注意力机制模块，以获取更大的特征野范围从而增强空间结构对中心像素点的特征描述能力，在原始网络的基础上提高生成图像对空间细节内容的变换能力，同时在生成器和判别器网络应用谱归一化方法和双尺度梯度更新策略，稳定网络的训练过程并且找到全局最优收敛点，最后利用设计的损失函数优化网络收敛路径，进而达到减少网络获得的特征中冗余信息，以增强图像翻译的转换效果。图1中明确表示了本发明所述方法的流程图，具体实施步骤如下：

(1)从X域和Y域两个待转换的真实图像数据集合中分别取一张图像，随机裁剪至256*256，送入生成器网络；

(2)送入生成器网络的两个图像经过卷积、反卷积提取特征图；

(3)搭建自注意力机制模块，将卷积、反卷积提取的特征图送入自注意力机制模块中，得到扩大空间范围的融合特征信息图，其具体过程如下：

如图2所示，由于常规的卷积和反卷积操作只能在3*3的感受野范围内计算得出特征图，而输入图像往往带有一定语义的空间信息(比如，狗有四条腿，但是空间排布上相距太远)，故采用自注意力机制模块对中心像素点扩大感受野范围，关联输入特征的不同部分。

上层网络输出的特征图分别经过三个变换函数f(x)、g(x)和h(x)转换成三个特征空间。这些特征空间通过三个1*1的卷积图来传递原始特征图而生成，其中经过f(x)变换的特征图还需要经过一次转置操作，然后与g(x)变换后的特征进行矩阵相乘。然后，相乘结果的每一行使用softmax算子，由softmax生成的注意力图代表了图像中应该被关注的重点区域。然后，注意力图与h(x)变换后的特征相乘生成自注意力特征图。最后，将原始输入的特征图和缩放后的自注意力图相加来计算输出。

(4)通过自注意力模块后的特征图，通过上采样还原到原始尺寸输出X域和Y域的转换结果；

(5)转换后的Y域和X域图像分别送入对应的判别器网络进行判别。判别器网络对输入的图像进行卷积和反卷积操作，提取图像特征；

(6)判别器得到的特征图通过最大池化操作以及sigmoid激活函数，得到一个(0,1)范围内的判别结果；

(7)利用损失函数计算循环生成对抗网络的误差，其包括对抗损失和循环一致性损失两部分，其中对抗损失为本发明特有，具体如下：

生成对抗网络需要对抗损失函数对生成器和判别器网络进行约束，而传统的GAN和CycleGAN中使用的都是交叉熵损失(cross entropy)。在交叉熵损失中，用熵值来体现真实数据分布p和生成数据分布q的差异性，交叉熵损失越小则表明生成的分布q越接近真实分布p，表明图像生成效果越好。使用交叉熵虽然可以正确分类真实和生成图像，但是会导致在决策边界被判别为真、但仍远离真实数据的假样本(即生成器生成的样本)不会继续迭代，因为它已经成功被判别成可信任的真实样本，因此在更新生成器的时候会发生梯度弥散问题。在本发明的对抗损失中，改用最小二乘形式损失函数。最小二乘函数会对判别为真而远离决策边界的样本进行惩罚，把远离决策边界的假样本拖进决策边界，从而提高生成图片的质量。

将最小二乘对抗损失应用于循环生成对抗网络中，其中包括X域和Y域共4个函数，分别如下：

其中，

和

是X域和Y域判别器的对抗损失，L_G和L_F是X→Y和Y→X转换的生成对抗损失，其中，x～p_data(x)和y～p_data(y)来自X域和Y域的真实图像，G(·)表示X→Y的生成器，F(·)表示Y→X的生成器，||·||₁表示L₁范数，D_X(x)表示X域判别器对真实X域图像的判别分数，则对应的，D_Y(G(x))表示Y域判别器对生成的Y域假图的判别分数。

综上，全损失函数如下所示：

其中，最后一项为循环一致性损失，超参数λ该项在全损失函数中的权重，其取值范围为λ∈(0,1)。

(8)通过全新的损失函数优化神经网络反向传播梯度下降的路径，从而更快、更有针对性地达到收敛。其中，该发明应用了两种方法来稳定训练过程，帮助其收敛到全局最优点。具体方法如下：

A.在生成器和判别器网络中使用谱归一化

谱归一化(Spectral Normalization)可以解决GAN训练不稳定的问题。利用利普希茨约束条件允许输入发生少量变化时，输出不会产生巨变。在生成对抗网络中，即生成图像少量像素点产生变化时，输入判别器后得到的结果也不会相差太大，表明判别器具有较好的稳定性。谱归一化将网络每层的参数矩阵除以自身最大奇异值，进行逐层奇异值分解，在实现过程中采用幂迭代的方法进行求解。在该发明中使用谱归一化完全替代原来的批量归一化(Batch Normalization)。

B.使用双尺度更新策略

在生成对抗网络的训练中，因为存在生成器和判别器两个独立的网络，所以训练过程每个网络都有自身的学习率。常见的训练策略是判别器和生成器按照N:1(N为大于1的正整数，通常小于等于5)的次数交替进行训练。这种策略的弊端在于整个训练中比值N是固定不变的。使用双尺度更新策略，可以针对生成器和判别器设定不同的学习率，在该发明中生成器学习率设定为0.0001，判别器为0.0004。适当的学习率可以帮助网络稳定训练，同时加速判别器的正则化过程。

本申请在CycleGAN网络使用的四个小型数据库上进行试验。每个数据库中都包括训练和测试两个子文件夹，每个文件夹中又包括X和Y域的真实图像。试验通过FID和SSIM两个方法来定性衡量生成图像效果。FID距离可以计算真实样本和生成样本在特征空间之间的距离。较低的FID意味着较高的图片质量和多样性。SSIM描述的是图像的空间结构相似性，取值在[0,1]范围内，较高的SSIM表示图像相似性越高。从表1中可以看出，本申请在CycleGAN的基础上性能更好，效果明显优于前者。表1中Summer代表summer2winter数据集，Horse代表horse2zebra数据集。表2从训练时间的角度证明了本申请具有更高效的训练过程，可以用更短的时间收敛到全局最优点。

表1

表2

模型	迭代次数	迭代时间/次	训练总时长
				CycleGAN	200	620.7s	2069.1min
CycleGAN+lsgan_loss	150	571.0s	1427.6min

Claims

1.一种基于自注意力机制的循环图像翻译方法，该方法基于循环对抗一致的CycleGAN网络，其特征在于该方法包括以下步骤：

步骤4中所述的损失函数分别如下所示：

其中，L_cyc(G,F)是循环一致性损失函数，

2.根据权利要求1所述的基于自注意力机制的循环图像翻译方法，其特征在于：步骤2中的自注意力机制具体为：上层输出的特征向量图，分别经过三个变换函数f(x)、g(x)和h(x)，转换后的三个特征图叠加上原始的特征图输入到网络的下一层。

3.根据权利要求1所述的基于自注意力机制的循环图像翻译方法，其特征在于：在训练过程中使用了两种策略增强网络稳定性，减少梯度异常的概率，同时减少梯度更新需要的时间；第一种策略是：针对所有的生成器和判别器网络均使用谱归一化方法；第二种策略是：对于生成器和判别器，使用双尺度更新策略，分别使用不同的学习速率进行梯度更新，加快对抗博弈的过程，更快地找到纳什均衡。