CN108334904A

CN108334904A - 一种基于统一生成对抗网络的多域图像转换技术

Info

Publication number: CN108334904A
Application number: CN201810120844.8A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2018-07-27

Abstract

本发明中提出的一种基于统一生成对抗网络的多域图像转换技术，其主要内容包括：训练鉴别器、原始域转换到目标域、目标域转换到原始域、蒙蔽鉴别器，其过程为，首先使用一个鉴别器D去学习鉴别真假图像，并把真实图像分类至与其相应的域里面；接着同时把图像和目标域标签作为生成器G的输入，产生一个假图像；再接着，在给定原始域标签的情况下，G尝试根据假图像来重建原始图像；然后D不断学习以区分真实图像和合成的图像，G不断学习以蒙蔽D；最后G试图生成与真图像无区别并且可以被D分类为目标域的图像。本发明使用一个模型来执行多域图像到图像的转换，提高了转换图像的质量，并具有将输入图像灵活转换成任何期望目标图像的能力。

Description

一种基于统一生成对抗网络的多域图像转换技术

技术领域

本发明涉及图像转换领域，尤其是涉及了一种基于统一生成对抗网络的多域图像转换技术。

背景技术

图像到图像转换是一门有效、快速地对图像进行处理和分析的技术，其将定义在原图像空间的图像以某种形式转换到另外的空间，利用空间的特有性质更方便地对图像进行一定的加工和处理，最后再转换回原图像空间以达到所需的效果。高速发展的电子设备使得图像转换的应用范围更加广泛。图像转换技术可以用于人类特征脸的识别与分类，首先提取出目标的脸部图像信息，然后将待识别的人脸投影到新的多维人脸空间，通过简单的分类手段可以完成对人脸的识别与分类。此技术可以用于众多的娱乐软件上，比如改变人脸情绪表情，可以将开心的表情转换成为生气、愤怒、哀伤等其他的表情。

目前，两个领域的图像转换技术取得显著的成功，但是，现有的方法用于处理两个以上的域时在伸缩性以及鲁棒性上存在很大的局限性。其原因在于，这些方法必须为每一对图像域建立不同的模型。另外，这些方法在多域图像转换的任务中效率不高且效果不佳。这是因为，为了学习K个域之间的所有映射关系，它们必须训练K(K-1)个生成器，所以它们效率不高；而且，每个生成器都不能充分利用整个训练数据，导致了生成图像的质量下降。此外，由于每个数据集已经是部分标注的，所以它们无法联合训练不同数据集的域。

本发明提出了一种基于统一生成对抗网络的多域图像转换技术，其过程为，首先使用一个鉴别器D去学习鉴别真假图像，并把真图像分类至其相应的域里面；接着同时把图像和目标域标签作为生成器G的输入，产生一个假图像；再接着在给定原始域标签的情况下，G尝试根据假图像来重建原始图像；然后D不断学习以区分真实图像和合成的图像，G不断学习以蒙蔽D；最后G试图生成与真图像无区别并且可以被D分类为目标域的图像。本发明使用一个模型来执行多域图像到图像的转换，提高了转换图像的质量，并具有将输入图像灵活转换成任何期望目标图像的能力。

发明内容

针对现有方法在处理两个以上的域时存在伸缩性以及鲁棒性方面的局限性，以及这些方法在多域图像转换的任务中效率不高且效果不佳的问题，本发明的目的在于提供一种基于统一生成对抗网络的多域图像转换技术，其过程为，首先使用一个鉴别器D去学习鉴别真假图像，并把真图像分类至其相应的域里面；接着同时把图像和目标域标签作为生成器G的输入，产生一个假图像；再接着在给定原始域标签的情况下，G尝试根据假图像来重建原始图像；然后D不断学习以区分真实图像和合成的图像，G不断学习以蒙蔽D；最后G试图生成与真图像无区别并且可以被D分类为目标域的图像。

为解决上述问题，本发明提供一种基于统一生成对抗网络的多域图像转换技术，其主要内容包括：

(一)训练鉴别器；

(二)原始域转换到目标域；

(三)目标域转换到原始域；

(四)蒙蔽鉴别器。

其中，所述的训练鉴别器，鉴别器可以产生在输入源和目标域标签之间的概率密度，即：D:x→{D_src(x),D_cls(x)}；为了能够从真实的图像当中鉴别出生成的图像，采用如下的对抗损失函数：

其中，G生成基于输入图像x和目标域标签c的一个图像G(x,c)，D用来区分真假图像；生成器G尝试最小化对抗损失函数，而鉴别器D尝试将对抗损失函数进行最大化。

其中，所述的原始域转换到目标域，其目的在于训练一个生成器G，使其学习在不同的域之间的映射；

为此，在目标域标签c条件下，训练G从输入图像x到输出图像y之间的转换，即：G(x,c)→y；通过随机产生目标域标签c，让G可以灵活地对输入图像进行转换；利用一个辅助的分类器，使得单一的鉴别器可以控制多个域。

其中，所述的目标域转换到原始域，把一个循环一致性损失函数应用到生成器中，即：

其中，转换图像G(x,c)以及原始的域标签c′作为G的输入，尝试重建原始的图像x；使用L1范数作为重建损失函数；两次使用了单一生成器，第一次是把原始图像转换到目标域，第二次是由转换得到的图像重建原始图像。

进一步地，所述的重建损失函数，通过最小化对抗损失和分类损失，训练生成器G用于产生按照正确目标域分类的真实图像；对损失函数进行最小化的过程中，并不能保证转换得到的图像仅仅改变了输入图像中与域相关的部分，而保留输入图像其他的所有内容。

进一步地，所述的分类损失，对于给定的一个输入图像x和一个目标域标签c，网络的目的在于将x转换成为输出图像y，而y恰好属于目标域c中的一类；为了达到这一条件，在鉴别器D上面添加一个辅助的分类器，并且当同时优化D和G时，迫使域分类受损；也就是说，将目标函数分为两项：一项是用于优化D的真实图像的域分类损失，另一项是用于优化G的假图像的域分类损失；具体来讲，真实图像的域分类损失定义如下：

其中，D_cls(c′|x)表示由D计算所得的域标签的概率密度；通过对上述目标函数进行最小化，D学习将真实图像x分类到与之相对应的原始域c′；输入图像与域标签数据对(x,c′)由训练数据给出；

另一方面，假图像的域分类损失定义如下：

其中，G对上述目标函数进行最小化，目的在于生成可以根据目标域c进行分类的图像。

其中，所述的蒙蔽识别器，把用于优化G和D的目标函数分别写成：

其中，λ_cls和λ_rec是超参数，分别用来调整域分类损失和重建损失相比于对抗损失的重要程度；

由于从不同数据库学习的过程存在着一个问题，即每一个数据库都仅仅具有标签的一部分信息；因为在利用转换得到的图像G(x,c)重建输入图像x时，需要获取标签c′的完整信息，因此网络引入一个掩码矢量和训练策略。

进一步地，所述的掩码矢量，掩码矢量m允许统一生成对抗网络忽略来自于特定数据集的未知标签以及已知标签；在统一生成对抗网络中，使用一个n维独热码矢量来表征掩码矢量m，其中n代表数据库的数目；

另外，标签的统一格式定义如下：

其中，c_i表示第i个数据库的标签矢量；明确已知的标签矢量可以使用二进制矢量来表示二值属性或者使用独热码矢量来表示类别属性；剩下的n-1个未知的标签赋值为0。

进一步地，所述的训练策略，使用改进的生成对抗网络，当使用多个数据库训练统一生成对抗网络时，利用公式(7)定义的域标签作为生成器的输入；因此，生成器可以忽略未知的标签，即其值为0，而仅使用已知的标签；

另一方面，拓展鉴别器的辅助分类器，用于生成所有数据库的标签的概率密度；然后，在多任务学习的设置下对模型进行训练，其中鉴别器尝试对仅与已知的标签相关的分类误差进行最小化。

进一步地，所述的改进的生成对抗网络，为了稳固训练过程以及生成更高质量的图像，把公式(1)更换成为带有梯度惩罚项的沃瑟斯坦对抗网络目标函数，即：

其中，是沿着一条直线对一对真实的图像和生成的图像的均匀采样；

统一生成对抗网络的网络架构包括两个以2为下采样步长的卷积层、六个残值区块和两个变换的以2为上采样步长的卷积层。

附图说明

图1是本发明一种基于统一生成对抗网络的多域图像转换技术的系统结构图。

图2是本发明一种基于统一生成对抗网络的多域图像转换技术的单一生成器学习多域映射的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于统一生成对抗网络的多域图像转换技术的系统结构图。主要包括训练鉴别器、原始域转换到目标域、目标域转换到原始域、蒙蔽鉴别器。

其中，所述的训练鉴别器，可以产生在输入源和目标域标签之间的概率密度，即：D:x→{D_src(x),D_cls(x)}；为了能够从真实的图像当中鉴别出生成的图像，采用如下的对抗损失函数：

另一方面，假图像的域分类损失定义如下：

另外，标签的统一格式定义如下：

图2是本发明一种基于统一生成对抗网络的多域图像转换技术的单一生成器学习多域映射的示意图。在目标域标签c条件下，训练G从输入图像x到输出图像y之间的转换，即：G(x,c)→y；通过随机产生目标域标签c，让G可以灵活地对输入图像进行转换；利用一个辅助的分类器，使得单一的鉴别器可以控制多个域。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于统一生成对抗网络的多域图像转换技术，其特征在于，主要包括训练鉴别器(一)；原始域转换到目标域(二)；目标域转换到原始域(三)；蒙蔽鉴别器(四)。

2.基于权利要求书1所述的训练鉴别器(一)，其特征在于，鉴别器可以产生在输入源和目标域标签之间的概率密度，即：D:x→{D_src(x),D_cls(x)}；为了能够从真实的图像当中鉴别出生成的图像，采用如下的对抗损失函数：

3.基于权利要求书1所述的原始域转换到目标域(二)，其特征在于，其目的在于训练一个生成器G，使其学习在不同的域之间的映射；

4.基于权利要求书1所述的目标域转换到原始域(三)，其特征在于，把一个循环一致性损失函数应用到生成器中，即：

5.基于权利要求书4所述的重建损失函数，其特征在于，通过最小化对抗损失和分类损失，训练生成器G用于产生按照正确目标域分类的真实图像；对损失函数进行最小化的过程中，并不能保证转换得到的图像仅仅改变了输入图像中与域相关的部分，而保留输入图像其他的所有内容。

6.基于权利要求书5所述的分类损失，其特征在于，对于给定的一个输入图像x和一个目标域标签c，网络的目的在于将x转换成为输出图像y，而y恰好属于目标域c中的一类；为了达到这一条件，在鉴别器D上面添加一个辅助的分类器，并且当同时优化D和G时，迫使域分类受损；也就是说，将目标函数分为两项：一项是用于优化D的真实图像的域分类损失，另一项是用于优化G的假图像的域分类损失；具体来讲，真实图像的域分类损失定义如下：

另一方面，假图像的域分类损失定义如下：

7.基于权利要求书1所述的蒙蔽识别器(四)，其特征在于，把用于优化G和D的目标函数分别写成：

8.基于权利要求书7所述的掩码矢量，其特征在于，掩码矢量m允许统一生成对抗网络忽略来自于特定数据集的未知标签以及已知标签；在统一生成对抗网络中，使用一个n维独热码矢量来表征掩码矢量m，其中n代表数据库的数目；

另外，标签的统一格式定义如下：

9.基于权利要求书7所述的训练策略，其特征在于，使用改进的生成对抗网络，当使用多个数据库训练统一生成对抗网络时，利用公式(7)定义的域标签作为生成器的输入；因此，生成器可以忽略未知的标签，即其值为0，而仅使用已知的标签；

10.基于权利要求书9所述的改进的生成对抗网络，其特征在于，为了稳固训练过程以及生成更高质量的图像，把公式(1)更换成为带有梯度惩罚项的沃瑟斯坦对抗网络目标函数，即：