CN113837290A

CN113837290A - 一种基于注意力生成器网络的无监督非成对图像翻译方法

Info

Publication number: CN113837290A
Application number: CN202111134348.6A
Authority: CN
Inventors: 钟宋义; 刘云豪; 张珂维; 彭艳; 李小毛; 蒲华燕; 谢少荣; 罗均
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-24

Abstract

本发明公开了一种基于注意力生成器网络的无监督非成对图像方法，步骤为：从源域图像数据集中采样一个batch的图像，并将其输入包含注意力层的生成器中得到输出的生成图像，将目标域图像和生成图像分别放入判别器中计算对比损失；将源域图像和该图像对应的生成图像分别放入包含注意力层的编码器和多层感知器中，得到特征向量；将源域图像对应生成图像相同位置的特征向量作为正样本，将源域图像不同位置的特征向量作为负样本，利用正负样本计算对比损失；最终训练出一个更好的生成器，实现源域到目标域的无监督非成对图像翻译。

Description

一种基于注意力生成器网络的无监督非成对图像翻译方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于注意力生成器网络的非成对无监督图像翻译技术。

背景技术

图像翻译指的是找到一种映射使得图像可以从源图像域转换到目标图像域，同时在转换的过程中保持源图像域的结构和上下文不变，并替换成目标图像域的风格和纹理。其中映射可以是一个简单的函数，也可以是一个复杂的深度神经网络。图像翻译由于其广阔的应用前景而受到越来越多人的关注，它可以用于图像压缩和超分辨率、图像风格转换、图像恢复、图像去雨和去雾、图像语义生成等。

现在有许多不同的图像翻译任务，根据数据集是否有标注信息，可以分成有监督和无监督图像翻译；根据数据集是否是成对的，可以分成成对和非成对图像翻译。在现实情况下，大多数任务中的数据集都是非成对并且有很少标注信息甚至没有标注信息的。从任务的难度来说，要在非成对且没有标注信息的跨域图像中找到域不变的特征并且替换掉域可变特征是更加困难的。因此非成对无监督的图像翻译更具有挑战性和研究价值。

生成对抗网络(GANs)因能生成拟合数据集分布的图像被用于图像翻译任务，但经典的GANs只靠一个对比损失很难保证训练过程的稳定性和图像在结构上的不变性。几乎在同一时间，基于循环一致性损失的Cyclegan、Dualgan、Discogan被提出来，循环一致假设图像从源域转换为目标域再转换为源域后，这个重构图像能够在像素级上逼近原图像，以此保证转换后的图像在结构上的稳定性。但这种两步(two-sided)的框架导致模型训练时间长，而且要求域与域之间是一种有限制的双射关系。为了摆脱这种限制，各种(一步)one-sided的框架被提了出来。其中将对比表示学习这种范式引入图像翻译的对比无监督图像翻译(CUT)取得了不错的效果，它通过提出基于图像块(patch)的多层PatchNCE损失，最大化输入和输出图像每个patch之间的互信息，训练出了一个更好的编码器(encoder)。如此一来encoder可以专注于两个域之间共性的部分如形状，而忽略两个域之间的差异性部分如纹理。

对比学习是自监督学习中的一种，它指通过学习对两个事物的相似或不相似进行编码来构建表征。通过构建正样本(positive)和负样本(negative)，然后度量正负样本的距离来实现自监督学习。核心思想是样本和正样本之间的相似度远远大于样本和负样本之间的相似度。CUT首先将对比学习的思想引入到图像翻译任务中，实现了one-sided。与一般对比学习不同的是，它的正样本和负样本不是来自图像增强后的结果，也不是一整张图像，而是将生成器输入与输出图像的同一位置的patch作为正样本，将输入图像不同位置的patch作为负样本

注意力机制自提出就受到了广泛的关注，首先在自然语言处理领域被广泛使用，后来有研究者陆续将其运用在计算机视觉领域中，研究者先提出了Image transformer的模型，将自注意力引入到自回归生成模型中用于图像生成。SAGAN则首先将自注意力机制引入GANs中，使得SAGAN能够有效地从图像的内部特征中找到一个全局长跨度依赖的模型。U-GAT-IT将注意力模块添加到它的图像翻译模型中，但需要借助一个辅助的分类器。

发明内容

针对现有技术存在的问题，本发明提出了一种基于注意力生成器网络的无监督非成对图像翻译方法。

本发明可通过以下技术方案予以实现：

本发明的基于注意力生成器网络的无监督非成对图像翻译方法包含三种类型的图像，源域图像(待转换的图像)、生成图像(转换后的图像)、目标域图像(生成图像在特征层面上与之对齐的图像)；该方法包括四个过程，图像生成、图像判断、特征提取、分类；

所述图像生成是将源域图像放入生成器得到假图像，即生成图像；

所述图像判断是指源域图像和生成图像放入判别器判断真伪，使生成器生成接近目标域图像的图片；

所述特征提取：通过特征提取过程提取源域图像和生成图像的特征信息，其中特征信息表现为特征向量；

所述分类：指运用对比学习框架，将源域图像某一位置的特征向量作query，该图像对应的生成图像相同位置的特征向量作为正样本，源域图像其他位置对应的N个特征向量作为负样本，得到一个(N+1)-way的分类问题；

随着分类问题求解过程的进行，特征提取效果逐渐增强，生成图像向目标域图像靠近，最终达到图像翻译效果。

采用无监督的方法，本发明定义了4种网络结构：加入注意力层的生成器被拆分成了编码器和解码器；用于判断图像真伪计算经典生成对抗网络对比损失的判别器D；输出多尺度特征的多层感知器网络H。

进一步，所述编码器包含了多个下采样层；解码器包含了多个上采样层；判别器采用的是一种分类器，用于提取图像特征并分类判断输入图像的真伪；

进一步，特征提取过程指先将图像放入编码器中，然后提取其中的特征层放入多层感知器中，最后将多层感知器的输出进行采样得到特征向量；

进一步，所述无监督非成对图像翻译方法包含一种基于注意力机制的所述生成器，该生成器使得特征提取的过程中能够赋予相关联特征更大的权重；

主要包括以下步骤：

步骤(1)、从源域图像数据集中采样一个batch大小的图像，并将其输入包含注意力层的生成器得到输出的生成图像；

步骤(2)、将目标域图像和步骤(1)中的生成图像分别放入判别器中，判别器输出的结果用于计算生成对抗网络中的经典损失函数：

上式中，AG指包含注意力层的生成器网络；

步骤(3)、将步骤(1)中的源域图像和该图像对应的生成图像分别放入包含注意力层的编码器中，抽取编码器中的多层特征图；

步骤(4)、将步骤(3)得到的特征图放入多层感知器中，得到特征向量；

步骤(5)、从步骤(4)中得到的特征向量中抽样得到特征；

步骤(6)、将生成图像对应的步骤(5)中的query patch与源域图像对应的步骤(5)中的相同位置的patch进行比较，设置为一个(N+1)的分类问题，其中N个负样本是从源域同一张图像的其他位置提取到的，得到PatchNCE损失函数：

上式中，H指多层感知器；

步骤(7)、设置总的优化目标，将步骤(2)和步骤(6)得到的损失函数加起来，并设置不同的权重；

步骤(8)、重复以上步骤直到网络更新到设置的迭代次数。

进一步，所述无监督非成对图像翻译方法包含一个输出为多维度的所述多层感知器，该多层感知器能采样到图像的更多尺度的信息；

将特征提取过程中的特征图放入输出为多尺度的多层感知器中，得到多尺度的特征向量；最后得到的PatchNCE损失函数为：

上式中，MH指输出为多维度的多层感知器；

进一步，所述基于注意力生成器网络的无监督非成对图像翻译方法，多层感知器的输出维度为多种，即特征图放入输出为多尺度的多层感知器中；

PatchNCE损失函数为：

有益效果

本发明从源域图像数据集中采样一个batch的图像，并将其输入包含注意力层的生成器中得到输出的生成图像，将目标域图像和生成图像分别放入判别器中计算对比损失；将源域图像和该图像对应的生成图像分别放入包含注意力层的编码器和多层感知器中，得到特征向量；将源域图像对应生成图像相同位置的特征向量作为正样本，将源域图像不同位置的特征向量作为负样本，利用正负样本计算对比损失；最终训练出一个更好的生成器，实现源域到目标域的无监督非成对图像翻译。

附图说明

图1是本发明的总体结构和流程示意图:首先，源域图像x经过AG_enc和AG_dec生成假图像

然后目标域图像y和假图像

被放入D计算L_GAN。接着x和

被送入AG_enc和H得到对应的特征向量，从

抽样出一个query的特征向量，然后与x相同位置的特征向量进行比较，并设置了一个(N+1)的分类问题，其中N个负样本是从x的其他位置提取的，这样就计算出L_PatchNCE。

图2是本发明和目前主流无监督图像翻译方法在4种不同数据集上进行图像翻译的结果示意图。4种数据集分别为Horse→Zebra、Summer→Winter、Label→Photo、Monet→Photo。

图3是本发明和目前主流无监督图像翻译方法在4种不同数据集上进行图像翻译的评价指标示意图，其中数值越小效果越好。

具体实施方式

为了使本发明的目的、技术方案及优点更加直观，下面将结合实施例对本发明有更清楚、完整的描述。应当理解，此处所描述的具体实施例仅仅以解释本发明，并不限定本发明。

实施例：

1.问题分析

本发明的目的是解决在无监督非成对图像翻译任务中的特征提取问题。

针对现有的问题，本发明提出一种基于注意力生成器网络的无监督非成对图像翻译方法，其特征在于在现有的无监督非成对图像翻译中加入一种基于注意力机制的生成器。

本发明实施例在多层感知器的输出尺度上增加了多种尺度，在计算损失函数时进行了加权平均来抵消不同尺度特征产生的差异。

2.翻译过程

如图1所示，本发明实施例包括四个过程，图像生成、图像判断、特征提取、分类；

图像生成是将源域图像放入生成器得到假图像(即生成图像)；

图像判断是指源域图像和生成图像放入判别器判断真伪，使生成器生成接近目标域图像的图片；

特征提取指通过特征提取过程提取源域图像和生成图像的特征信息，其中特征信息表现为特征向量；

分类指运用对比学习框架，将源域图像某一位置的特征向量作为query，该图像对应的生成图像相同位置的特征向量作为正样本，源域图像其他位置对应的N个特征向量作为负样本，得到一个(N+1)-way的分类问题；

3.网络结构和细节

本发明实施例的生成器由两部分组成，一个编码器AG_enc和一个解码器AG_dec，它们分别用于提取特征和还原图像。生成的图像可以表示为

本发明实施例的编码器包含了多个下采样层；解码器包含了多个上采样层；判别器采用的是一种分类器，用于提取图像特征并分类判断输入图像的真伪；

本发明实施例的特征提取过程指先将图像放入编码器中，然后提取其中的特征层放入多层感知器中，最后将多层感知器的输出进行采样得到特征向量；

4.训练过程

本发明实施例提供的一种基于注意力生成器网络的无监督非成对图像翻译方法主要包括以下步骤：

步骤(1)、从源域图像数据集中采样一个batch大小的图像，并将其输入包含注意力层的生成器得到输出的目标域图像；

步骤(4)、将步骤(3)得到的特征图放入输出为多维度的多层感知器，得到特征向量；

步骤(5)、从步骤(4)中得到的特征向量中抽样得到特征；

步骤(6)、将生成图像对应步骤(5)中的某一个特征向量作为一个query，与源域图像对应的步骤(5)中的相同位置的patch进行比较，设置为一个(N+1)的分类问题，其中N个负样本是从源域同一张图像的其他位置提取到的，得到PatchNCE损失函数：

步骤(8)、重复以上步骤直到网络更新到设置的迭代次数。

随着训练过程的进行，特征提取效果逐渐增强，生成图像向目标域图像靠近，最终达到图像翻译效果。

本发明实施例的步骤(6)中，query、正样本和N个负样本被映射到K个维度的向量，即

并且

则表示第n个负样本。将得到的向量使用L2正则化，由此建立了一个N+1的分类问题，并且query和其他样本的距离通过一个τ＝0.07进行缩放。然后计算正样本被正确分类的概率，这是通过一个cross-entropy loss来实现的，具体如下：

5.评价指标与实验

本发明实施例使用被研究者广泛使用的Fréchet Inception Distance(FID)来评价图像翻译任务最终结果的好坏。FID主要是用来估计目标域图像和生成图像分布之间的距离。更具体的，将目标域图像和生成图像放入inception特征提取网络，然后计算在高维特征空间中这两个分布之间的散度。因此总的来说，FID越小代表生成图像和目标域图像分布之间的距离越小，生成的图像也就越逼真。FID在一定程度上能反应图像翻译任务最后结果的真实性，与人的感知是高度相关的。

下面将结合实验对本发明实施例作进一步描述。

5.1数据集

实验主要用到了4个数据集，其中Monet→Photo考虑到训练的开销，对其中的photographs进行了删减。但所有与本发明进行比较的方法都是在同一数据集上进行实验，保证了实验条件的一致性。

Horse→Zebra：是首先在CycleGAN中被引入进图像翻译任务的数据集，它来源于ImageNet。其中训练集有1067张马的图片和1334张斑马的图片，对应的测试集中马和斑马的图片分别为120和140张。

Summer→Winter：数据集中的图片全部拍摄于夏天和冬天的美国国家公园Yosemite，同样来自CycleGAN。其中夏天的图片有1231张用作训练集，309张用作测试集；对应的冬天的分别有962张和238张。

Label→Photo：数据集取材于德国城市的街道。其中每个域都包含有2975张训练集和500张测试集。

Monet→Photo：数据集主要包含了莫奈的画作和真实世界的风景图。其中莫奈画作中有1072张用作了训练集，121张作为测试集；我们将风景照片中的3000张作为训练集，剩余300张作为测试集。

5.2参数设置

本发明的图像在训练时都会以286×286的大小被加载，然后裁剪至256×256，并使用实例归一化。在两层的多层感知器的输出维度上选择了64，128，256和512，并在最后计算loss时分别采用了8:4:2:1的权重。使用Adam优化器并设置β₁和β₂分别为0.5和0.999。

本发明选择训练400个epochs，其中前200个epochs的初始learing rate为0.0002，后200个epochs采用线性递减至零的学习率，网络初始化方式采用的是xavier。

5.3实验结果

本发明的结果分为定性实验结果和定量实验结果。定性实验结果如图2所示，它展示了本发明和4种主流无监督图像翻译方法，即CUT、CycleGAN、LSeSim和GcGAN(其中CycleGAN是基于循环一致性损失的two-sided方法，其余都是打破循环的one-sided方法)在4种不同数据集上进行图像翻译的结果。定量实验结果如图3所示，它展示了本发明和目前主流无监督图像翻译方法在4种不同数据集上进行图像翻译的FID值，数值越小生成效果越好。

以上对本发明所提出的一种基于注意力生成器网络的无监督非成对图像翻译方法，进行了详细的介绍，本文中应用了具体个例对本发明的原理、实施方式和结果进行了阐述。对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于注意力生成器网络的无监督非成对图像翻译方法，包含三种类型的图像，源域图像、生成图像、目标域图像，其特征在于，该方法包括四个过程，图像生成，图像判断，特征提取，分类；

所述图像生成：将源域图像放入生成器得到假图像，即生成图像；

所述图像判断：将目标域图像和生成图像放入判别器判断真伪，使生成器生成接近目标域的图像；

所述分类：运用对比学习框架，将源域图像某一位置的特征向量作为query，该图像对应的生成图像相同位置的特征向量作为正样本，源域图像其他位置对应的N个特征向量作为负样本，得到一个(N+1)-way的分类问题；

2.根据权利要求1所述的无监督非成对图像翻译方法，其特征在于，所述生成器由一个编码器和一个解码器构成，所述编码器包含了多个下采样层；所述解码器包含了多个上采样层；所述判别器采用的是一种分类器，用于提取图像特征并分类判断输入图像的真伪。

3.根据权利要求2所述的无监督非成对图像翻译方法，其特征在于，所述提取图像特征过程指先将图像放入编码器中，然后提取其中的特征层放入多层感知器中，最后将多层感知器的输出进行采样得到特征向量。

4.根据权利要求3所述的无监督非成对图像翻译方法，其特征在于，所述无监督非成对图像翻译方法包含基于注意力机制的所述生成器，该生成器使得特征提取的过程中能够赋予相关联特征更大的权重；

主要包括以下步骤：

步骤(1)、从源域图像数据集中采样一个batch大小的图像，并将其输入包含注意力层的生成器得到输出的目标域生成图像；

上式中，AG指包含注意力层的生成器网络；

步骤(5)、从步骤(4)中得到的特征向量中抽样；

步骤(6)、将生成图像对应步骤(5)中的某一个特征向量作为一个query，与源域图像对应步骤(5)中相同位置的特征向量进行比较，设置为一个(N+1)的分类问题，其中N个负样本是源域同一张图像的其他位置所代表的特征向量，得到PatchNCE损失函数：

上式中，H指多层感知器；

步骤(8)、重复以上步骤直到网络更新到设置的迭代次数。

5.根据权利要求3所述的无监督非成对图像翻译方法，其特征在于，所述无监督非成对图像翻译方法包含一个输出为多维度的所述多层感知器，该多层感知器能采样到图像的更多尺度的信息；

将特征提取过程中的特征图放入输出为多尺度的多层感知器中，得到多尺度的特征向量；

最后得到的PatchNCE损失函数为：

上式中，MH指输出为多维度的多层感知器。

6.根据权利要求5所述的无监督非成对图像翻译方法，其特征在于，所述多层感知器的输出维度为多种，即特征图放入输出为多维度的多层感知器中；

PatchNCE损失函数为：