CN110084863A

CN110084863A - 一种基于生成对抗网络的多域图像转换方法与系统

Info

Publication number: CN110084863A
Application number: CN201910340044.1A
Authority: CN
Inventors: 苏琬棋; 陈志广; 瞿毅力; 邓楚富; 卢宇彤; 肖侬; 王莹
Original assignee: Sun Yat Sen University
Current assignee: National University of Defense Technology; Sun Yat Sen University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-02
Anticipated expiration: 2039-04-25
Also published as: CN110084863B

Abstract

本发明公开了一种基于生成对抗网络的多域图像转换方法与系统，本发明的多域图像转换方法包括输入指定的X、Y两个模态的原图x、原图y；在重建训练部分针对原图x、原图y分别进行编、解压，分别得到原图特征、重建图、重建特征，并进行特征和图的模态鉴别对抗学习；循环训练部分基于前文的原图特征交换模态的编码器生成重建图、重建图特征以及循环重建图，并再次进行特征和图的模态鉴别对抗学习，最终将循环重建图输出。本发明采用半监督学习方法，既可以利用已有的标签数据也可以使用无标签数据，本发明能够实现多向的多域图像转换而不限于单向域转换或双向的二域转换，对域的数量没有限制，能解决图像风格迁移和医学图像多模态转换等问题。

Description

一种基于生成对抗网络的多域图像转换方法与系统

技术领域

本发明涉及深度学习领域的图像生成技术，具体涉及一种基于生成对抗网络的多域图像转换方法与系统。

背景技术

近年来，卷积神经网络(Convolution Neural Network，简称CNN)在计算机视觉、自然语言处理、医学图像处理等领域表现出了优异性能，以其为代表的深度学习迅速成为当前人工智能技术研究的核心。而在2014年生成对抗网络(Generative AdversarialNetwork，简称GAN)的出现也为深度学习带来了新的思路，2016年GAN与CNN结合，此后GAN被广泛的应用在许多计算机视觉任务中。

GAN是一种训练框架，由一个生成器(Generator)和一个鉴别器(Discriminator)两部分组成，且生成器与鉴别器是对抗(Adversarial)关系。GAN的原理如名字所示，生成器是一个生成图像的网络，它接收一张输入图像，经过网络得到一张生成图像，而鉴别器是一个鉴别网络，鉴别一张图像是不是“真实的”，它对输入图像进行鉴别，输出这张图像为真实图像的概率，如果为1，表示是真实图像，如果为0，表示不是真实图像。在GAN的训练过程中，生成器的目标就是尽量生成真实的图像去欺骗鉴别器。而鉴别器的目标就是尽量把生成器生成的图像和真实的图像分别开来。这样，生成器和鉴别器构成了一个动态的“博弈过程”，理想的博弈结果是：生成器可以生成足以“以假乱真”的图像，而对于鉴别器来说，它难以鉴别生成器生成的图像究竟是不是真实的，因此输出的概率为0.5。

随着GAN的发展，出现了大量基于图像生成的任务，其中图像到图像的转换是热点研究问题，但是基于GAN的图像转换方法只能将图像单向地从一个域转换为另一个域，对此，一些研究提出了可实现图像到图像的多域转换方案或模型，如循环生成对抗网络(CycleGenerative Adversarial Network，简称CycleGAN)。

CycleGAN可以实现两个域的无配对图像转换，本质上是由两个镜像对称的GAN构成一个环形网络，两个GAN包含两个生成器和两个模态鉴别器。GAN模型从模态A获取输入图像，通过A2B生成器将模态A的输入图像转换得到模态B的生成图，然后再用B2A生成器将模态B的生成图转换得到模态A的循环重建图。另一个GAN镜像对称，模态A鉴别器对模态A原图和模态A生成图鉴别，模态B鉴别器对模态B原图和模态B生成图鉴别。且循环重建图像必须与原始输入图像相似，用来定义非配对数据集中原来不存在的映射。

GAN的训练既可以用无监督学习也可以用有监督学习，在任务处理中可以利用有标签数据也可以使用无标签数据，因此成为图像生成领域十分受欢迎的方案。在GAN的基础上设计的这些多域转换方案或模型，被应用到各种不同的场景的任务。常见的有图像风格迁移，图像风格包括油画、水彩、素描等多种风格，图像风格迁移就是把一种风格的图像转换成另一种风格的图像，又或者是将照片转换为指定的风格图像。另外还有将马转换为斑马等类似的风格转换。除了照片和艺术图像的场景外，医学图像的模态转换也是一个重要研究应用场景。因为当前医学图像的多模态转换有着迫切的应用需求，医学图像有多种模态，如：MRI、CT、超声波等。目前的医学图像处理主要针对MRI和CT两种模态进行研究。对于医生来说，不同模态的医学图像具有不同的参考价值，比如MRI图像可提供足够的软组织细节，具有高分辨率的解剖信息，CT图像可用于骨骼、植入物等致密结构的精确定位。越多模态的数据可以给医生的诊断和治疗带来越多的依据。而在当前流行的医学图像公开数据集中，我们发现样本少是普遍的，而且配对的多模态图像数据是更加稀缺的。

此时，如果能实现医学图像的跨模态转换，就能通过已获取模态图像转换生成其他模态的图像，构建出多模态配准的预训练数据集，缓解医学图像领域数据样本稀少的难题，为其他智能医学图像处理任务提供预训练数据集的选择。甚至还能为医生提供其他模态的辅助图像，帮助医生综合考量多种模态图像对诊断做出准确的决策。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于生成对抗网络的多域图像转换方法与系统，本发明采用半监督学习方法，既可以利用已有的标签数据也可以使用无标签数据，本发明能够实现多向的多域图像转换而不局限于单向的域转换或双向的二域转换，对域的数量没有限制，能解决图像风格迁移和医学图像多模态转换的问题。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于生成对抗网络的多域图像转换方法，实施步骤包括：

1)输入指定的X、Y两个模态的原图x、原图y；

2)将原图x进行X模态编码得到第一原图特征code_x，将第一原图特征code_x进行X模态解码得到第一重建图x'，将第一重建图x'进行X模态编码得到第一重建特征code_x'；将原图y进行Y模态编码得到第二原图特征code_y，将第二原图特征code_y进行Y模态解码得到第二重建图y'，将第二重建图y'进行Y模态编码得到第二重建特征code_y'；

3)将第一原图特征code_x、第一重建特征code_x'进行特征鉴别，将第二原图特征code_y、第二重建特征code_y'进行特征鉴别对抗学习；将原图x、第一重建图x'进行X模态鉴别对抗学习，将原图y、第二重建图y'进行Y模态鉴别对抗学习；

4)将第一原图特征code_x进行Y模态解码得到第三重建图y”，将第三重建图y”进行Y模态编码得到第三重建图特征code_y”，将第三重建图特征code_y”进行X模态解码得到第一循环重建图x”'；将第二原图特征code_y进行X模态解码得到第四重建图x”，将第四重建图x”进行X模态编码得到第四重建图特征code_x”，将第四重建图特征code_x”进行Y模态解码得到第二循环重建图y”'；

5)将原图x、第四重建图x”进行X模态鉴别对抗学习，将原图y、第三重建图y”进行Y模态鉴别对抗学习；将第一原图特征code_x、第三重建图特征code_y”进行特征鉴别对抗学习，将第二原图特征code_y、第四重建图特征code_x”进行特征鉴别对抗学习；

6)计算系统网络总体损失；

7)对系统网络总体损失求导，开启反向传播每个损失函数反向逐层计算出各层参数的梯度值，然后根据各层参数梯度更新这些参数，完成本轮迭代，且所述第一循环重建图x”'以及第二循环重建图y”'构成本轮迭代的输出结果。

优选地，所述X、Y两个模态均均有各自独立的编码器、解码器及鉴别器，且由编码器、解码器构成对应模态下的生成器，所述X、Y两个模态具有共用的特征鉴别器，所述X模态编码是通过X模态对应的编码器实现的，所述X模态解码是通过X模态对应的解码器实现的，所述X模态鉴别是通过X模态对应的鉴别器实现的，所述Y模态编码是通过Y模态对应的编码器实现的，所述Y模态解码是通过Y模态对应的解码器实现的，所述Y模态鉴别是通过Y模态对应的鉴别器实现的。

优选地，所述对应模态下的生成器为U-net网络，且编码器对应U-net网络的收缩路径，解码器对应U-net网络的扩张路径，所述收缩路径和扩张路径均为卷积神经网络结构。

优选地，所述收缩路径由两个重复的3×3卷积核组成，且均使用修正线性单元激活函数和一个用于下采样的全卷积操作，在每一个全卷积操作下采样的步骤中，特征通道数量都加倍。

优选地，所述扩张路径的每一步都包含的一个3×3的卷积核，通过卷积核的反卷积操作对特征图进行上采样减少一半的特征通道数量、通过resize方法对每个像素根据插值方法计算得到插值从而扩大图像尺寸，对resize方法的结果进行卷积操作使通道数与特征图的反卷积结果保持一致，然后卷积结果与反卷积结果按位加，进行修正线性单元激活函数激活完成上采样操作，然后连接着级联收缩路径中相应的裁剪后的特征图；最后再用两个3×3的卷积核进行卷积运算且均使用修正线性单元激活函数，并利用1×1的卷积核进行卷积运算，将每个多维的特征向量映射到网络的输出层。

优选地，所述鉴别器和特征鉴别器为多层卷积结构。

优选地，步骤6)的详细步骤包括：

6.1)分别计算X模态鉴别损失loss_D,x、Y模态鉴别器损失loss_D,y、特征鉴别损失loss_D,c，并计算网络生成总体损失loss₄；

6.2)根据X模态鉴别损失loss_D,x、Y模态鉴别器损失loss_D,y、特征鉴别损失loss_D,c以及网络生成总体损失loss₄计算系统网络总体损失。

优选地，步骤6.2)中计算系统网络总体损失的函数表达式如式(1)所示；

loss_total＝(loss₄+loss_D，x+loss_D，y+loss_D，c)×γ (1)

式(1)中，loss_total表示系统网络总体损失，loss₄为网络生成总体损失，loss_D，x为X模态鉴别损失，loss_D，y为Y模态鉴别损失，loss_D，c为特征鉴别损失，γ为网络的学习率。

此外，本发明还提供一种基于生成对抗网络的多域图像转换系统，包括计算机设备，该计算机设备被编程或配置以执行本发明前述基于生成对抗网络的多域图像转换方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行本发明前述基于生成对抗网络的多域图像转换方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本发明前述基于生成对抗网络的多域图像转换方法的计算机程序。

和现有技术相比，本发明具有下述优点：

1、本发明基于生成对抗网络的多域图像转换方法采用半监督学习方法，既可以利用已有的标签数据也可以使用无标签数据。

2、本发明基于生成对抗网络的多域图像转换方法能解决图像风格迁移和医学图像多模态转换的问题，能够实现多向的多域图像转换而不局限于单向的域转换或双向的二域转换，对域的数量没有限制。

附图说明

图1为本发明实施例方法的基本流程图。

图2为本发明实施例采用的生成器结构图(左侧虚线框为编码器，右侧虚线框为解码器)。

图3为本发明实施例采用的解码器的上采样方法示意图。

图4为本发明实施例采用的模态X的重建训练架构图。

图5为本发明实施例采用的模态Y的重建训练架构图。

图6为本发明实施例采用的循环训练架构图(虚线框内为重建训练中已完成部分)。

具体实施方式

如图1所示，本实施例基于生成对抗网络的多域图像转换方法的实施步骤包括：

1)输入指定的X、Y两个模态的原图x、原图y；

6)计算系统网络总体损失；

7)对系统网络总体损失求导，开启反向传播每个损失函数反向逐层计算出各层参数的梯度值，然后根据各层参数梯度更新这些参数，完成本轮迭代(然后退出或者进入下一轮迭代过程)，且所述第一循环重建图x”'以及第二循环重建图y”'构成本轮迭代的输出结果。

本实施例中，X、Y两个模态均均有各自独立的编码器、解码器及鉴别器，且由编码器、解码器构成对应模态下的生成器，X、Y两个模态具有共用的特征鉴别器，X模态编码是通过X模态对应的编码器实现的，X模态解码是通过X模态对应的解码器实现的，X模态鉴别是通过X模态对应的鉴别器实现的，Y模态编码是通过Y模态对应的编码器实现的，Y模态解码是通过Y模态对应的解码器实现的，Y模态鉴别是通过Y模态对应的鉴别器实现的。本实施例采用模块化的方法构建多组件模型。将GAN中的生成器模块化为一个编码器和一个解码器，即对每个医学模态构建3个模块：编码器、解码器、鉴别器，所有模态共用一个特征鉴别器。即对于包含n个模态相互转换的系统，需要构建3n+1个模块。模块化的方法适用于模态数量不多图像风格迁移和医学图像多模态转换，比如医学图像的模态数量较少，所以进行模块化设计时构建的模块数量也不多，就以常见3种医学图像模态T1、T2、CT为例，3种模态之间互相转换的系统共有10个模块。模块化的设计具有两个优点：一是模块可重用，训练好的模块可以很方便的重用；二是模态之间参数独立，当有新的模态加入转换系统时，只需对新模态的各个模块进行训练，而不用整个系统模型重新训练。

如图2所示，将GAN中的生成器分解为编码器与解码器两个模块，以此获得两个模块间的中间输出——一组特征图(为了与原图、重建图、生成图更好的区分，简称为特征)，这组特征作为除原图外另一约束条件，在后续训练过程中约束网络模型的学习方向。

本实施例中，对应模态下的生成器为U-net网络，且编码器对应U-net网络的收缩路径，解码器对应U-net网络的扩张路径，收缩路径和扩张路径均为卷积神经网络结构。

作为一种优选的实施方式，本实施例中还针对U-net网络进行了改进：

本实施例中，收缩路径由两个重复的3×3卷积核(无填充卷积，UnpaddedConvolution)组成，且均使用修正线性单元(Rectified Linear Unit，简称ReLU)激活函数和一个用于下采样(Down-sampling)的全卷积操作，在每一个全卷积操作下采样的步骤中，特征通道数量都加倍。本实施例中将传统编码器的下采样最大池化操作步长为2的2×2替换为全卷积操作，因为最大池化在每次操作时会将池化核覆盖区域中的最大值作为池化结果，这样的下采样方法使信息丢失非常快，而我们采用的全卷积操作包含了参数的学习，可以在实现降维的同时有效减少信息丢失。

本实施例中，扩张路径的每一步都包含的一个3×3的卷积核，通过卷积核的反卷积操作对特征图进行上采样减少一半的特征通道数量、通过resize方法对每个像素根据插值方法计算得到插值从而扩大图像尺寸，对resize方法的结果进行卷积操作使通道数与特征图的反卷积结果保持一致，然后卷积结果与反卷积结果按位加，进行修正线性单元(Rectified Linear Unit，简称ReLU)激活函数激活完成上采样操作，然后连接着级联收缩路径中相应的裁剪后的特征图；最后再用两个3×3的卷积核进行卷积运算且均使用修正线性单元激活函数，并利用1×1的卷积核进行卷积运算，将每个多维的特征向量映射到网络的输出层。

普通的U-net网络没有使用resize方法，只有反卷积方法，本实施例在改进网络结构同时将反卷积与resize方法结合，本实施例中将解码器的上采样反卷积操作替换为反卷积+resize的操作，因为普通的反卷积由于边缘信息的丢失通常会带来棋盘效应(Checkerboard Artifacts)，即实际生成的图像由深深浅浅的相近色方块组成，像素颜色过渡不平滑，形成像棋盘一样的网格。resize方法是对每个像素根据插值方法计算得到插值从而扩大图像尺寸，如果只采用resize方法进行上采样同样会出现棋盘效应。因此我们采用反卷积+resize方法的操作，利用resize方法对图像进行最近邻插值，然后进行卷积操作使通道数与图像的反卷积结果保持一致，最后卷积结果与反卷积结果按位加，进行修正线性单元激活函数激活，完成上采样，这样既能保留反卷积的学习能力，又利用插值进行平滑过渡，从而避免了棋盘效应。

针对图像转换任务，对编码器和解码器的内部网络结构基于U-net网络进行了改进，编码器对应U-net网络的收缩路径，整个过程是对输入的图像进行下采样降维，将U-net网络中的最大池化方法改为全卷积的方法进行下采样，这样在训练过程中能进行参数学习且能有效减少信息的丢失。解码器对应U-net网络的扩张路径，如图3所示，主要对扩张路径中的上采样过程进行了改进，将U-net网络中的反卷积改为反卷积+resize方法的操作，对图像分别进行反卷积操作和resize方法的操作，进行resize方法操作时对图像进行最近邻插值，然后对resize方法的结果进行卷积操作使通道数与图像的反卷积结果保持一致，最后卷积结果与反卷积结果按位加，得到上采样图像。

本实施例中，鉴别器和特征鉴别器为多层卷积结构。鉴别器包含8个卷积层，最后一层使用Sigmod激活函数实现二分类，将图像鉴别为真或为假。特征鉴别器包含3个卷积层，最后使用Sigmod激活函数实现四分类。

本实施例中，步骤1)-3)对应系统的重建训练部分，抽象出来的架构如图4和图5所示，图4为针对原图x的重建训练部分，图5为针对原图y的重建训练部分，在普通的原始图像与重建图像的GAN架构上，增加了重建特征的GAN，即对重建图再一次通过编码器得到重建特征，对原图特征与重建特征利用特征鉴别器进行对抗学习。

重建训练部分是针对单个模态的图像重建过程，在GAN的基础上进行了改进。以模态X为例，由原图得到重建图的具体处理过程如下：

①、X模态的编码器Encoder_x将将原图x编码得到第一原图特征code_x；

②、X模态的解码器Decoder_x将第一原图特征code_x解码得到重建的第一重建图x′；

③、X模态的鉴别器Discriminator_x分别对原图x、第一重建图x′进行特征鉴别，将前者鉴别为真，后者鉴别为假。

④、X模态的编码器Encoder_x将重建第一重建图x′图像编码为第一重建特征code_x′。

⑤、特征鉴别器Discriminator_code分别对第一原图特征code_x和第一重建特征code_x′进行鉴别，将前者鉴别为真，后者鉴别为假。

其他模态的重建训练方法同上。在这个过程中，我们希望重建图越来越真实，所以通过鉴别器Discriminator对原图与重建图进行对抗学习，此外，还添加了编码特征的GAN，通过特征鉴别器Discriminator_code对特征Code和重建特征Code_rebuild进行对抗学习，从而约束Code与Code_rebuild在同一特征空间S中，且在纳什均衡的作用下重建图会越来越接近原图，与原图保持在同一特征空间中。

本实施例中，步骤4)-5)对应系统的循环训练部分，抽象出来的架构如图6所示，与重建训练一样，添加了特征的GAN，并且如图中虚线框所示重用了重建训练过程中已训练的编码器、原图特征及模态鉴别器。在每轮迭代中，重建训练与循环训练在线同步进行，而不是先训练重建部分再训练循环部分，这样能有效促进网络的参数学习，提高学习效率。

CycleGAN是一种针对两个模态之间相互转换的方法，本实施例中根据模块化设计思想，基于前面的重建方法对CycleGAN进行改进。两个模态X、Y的循环训练具体过程如下：

X->Y->X的生成重建过程：

①、重用重建方法中的X模态的编码器Encoder_x与第一原图特征code_x。

②、Y模态的解码器Decoder_y将第一原图特征code_x解码生成第三重建图y″。

③、重用Y模态的鉴别器Discriminator_y分别对原图y和第三重建图y″进行鉴别，将前者鉴别为真，后者鉴别为假。

④、Y模态的编码器Encoder_y将生成的第三重建图y″编码为第三重建图特征code_y″。

⑤、特征鉴别器Discriminator_code分别对Code_x和第三重建图特征code_y″进行鉴别，将前者鉴别为真，后者鉴别为假。

⑥、X模态的解码器Decoder_x将第三重建图特征code_y″解码得到循环重建的第一循环重建图x″′。

Y->X->Y的生成重建过程：

①、重用重建方法中的Y模态的编码器Encoder_y与第二原图特征code_y。

②、X模态的解码器Decoder_x将第二原图特征code_y解码生成第四重建图x″。

③、重用X模态的鉴别器Discriminator_x分别对原图x和第四重建图x″进行鉴别，将前者鉴别为真，后者鉴别为假。

④、X模态的编码器Encoderx将生成的第四重建图x″编码为第四重建图特征code_x″。

⑤、特征鉴别器Discriminator_code分别对第二原图特征code_y和第四重建图特征code_x″进行鉴别，将前者鉴别为真，后者鉴别为假。

⑥、Y模态的解码器Decoder_y将第四重建图特征code_x″解码得到循环重建的第二循环重建图y″′。

两个生成重建过程组合在一起，构成完整的CycleGAN，实现循环训练。其中①、③利用了模块化的特性，重用了重建方法中训练好的模态编码器、编码特征、模态鉴别器，可以加速模型的训练。此外，我们希望所有模态通过各自编码器提取到的特征都在同一特征空间S中，所以对不同模态提取出的特征Code采用同一个特征鉴别器Discriminator_code进行鉴别，以此来约束不同模态的编码器将特征映射到同一空间。

以上是两个模态的循环训练方法，两个以上的模态转换需要两两模态构建CycleGAN，如有X、Y、Z三种模态，则需要构建X与Y、Y与Z、Z与X三个CycleGAN，再由这三个CycleGAN构成完整的三模态循环训练。

两个模态X、Y的跨模态转换为例，重建训练部分和循环训练部分的综合训练过程具体公式如下所示：

重建训练过程可用公式表示为：

Code_x＝Encoder_x(x)

Code_y＝Encoder_y(y)

x_rebuild＝Decoder_x(Code_x)

y_rebuild＝Decoder_y(Code_y)

Code_x，rebuild＝Encoder_x(x_rebuild)

Code_y，rebuild＝Encoder_y(y_rebuild)

在获取到重建训练生成的Code_x、Code_y的基础上，循环训练过程可表示为：

y_fake＝Decoder_y(Code_x)

x_fake＝Decoder_x(Code_y)

Code_y，fake＝Encoder_y(y_fake)

Code_x，fake＝Encoder_x(x_fake)

x_cycle＝Decoder_x(Code_y，fake)

y_cycle＝Decoder_y(Code_x，fake)

上述公式中，x表示原图x，y表示原图y，x_rebuild表示第一重建图x′，y_rebuild表示第二重建图y′进，x_fake表示第四重建图x″，y_fake表示第三重建图y″，x_cycle表示第一循环重建图x″′，y_cycle表示第二循环重建图y″′，分别对应X，Y两个模态的原始图像，重建图，生成图和循环重建图。Encoder_x、Encoder_y、Decoder_x、Decoder_y分别表示模态X、Y的编码器与解码器。Code_x表示第一原图特征code_x，Code_y表示第二原图特征code_y，Code_x，rebuild表示第一重建特征code_x′，Code_y，rebuild表示第二重建特征code_y′，Code_x，fake表示第四重建图特征code_x″，Code_y，fake表示第三重建图特征code_y″，分别为通过对应编码器Encoder_x、Encoder_y编码之后得到的特征结果。另外，前面训练方法已提到的Discriminator_x、Discriminator_y表示的是模态X、Y的鉴别器，Discriminator_code是多个模态共用的特征鉴别器。后面模态鉴别器损失函数设计时，定义真实图像的特征Code_x、Code_y对应组别名RealCode_x，RealCode_y，重建图及生成图的特征Code_x，rebuild、Code_x，fake、Code_y，rebuild、Code_y，fake对应组别名FakeCode_x，FakeCode_y。

在本实施例中，步骤6)-7)为系统在每轮重建+循环的训练结束后，计算损失函数，进行反向传播更新参数并进入下一轮迭代或退出迭代的过程。整个系统的损失函数主要由三部分组成：模态鉴别器损失、特征鉴别器损失及网络生成器总体损失，利用了网络中所有输出信息，使网络中的重建图、生成图及循环重建图越来越接近原图，重建特征与生成特征越来越接近原图特征。系统经过上述步骤训练后，训练好的系统即可由X、Y模态的原图x、y转换为另一个模态的生成图(第二循环重建图y″′以及第一循环重建图x″′)，从而实现医学图像的跨模态转换。后面的生成特征、循环重建图、损失计算流程，都约束生成图像第一循环重建图x″′以及第二循环重建图y″′)的优化方向，使其与原图x、y越来越像。

本实施例中，步骤6)的详细步骤包括：

6.1)分别计算X模态鉴别损失loss_D，x、Y模态鉴别器损失loss_D，y、特征鉴别损失loss_D，c，并计算网络生成总体损失loss₄；

6.2)根据X模态鉴别损失loss_D，x、Y模态鉴别器损失loss_D，y、特征鉴别损失loss_D，c以及网络生成总体损失loss₄计算系统网络总体损失。

在训练过程中通过设计损失函数作为模型的学习准则，用于约束模型的优化方向。本实施例中，步骤6.2)中计算系统网络总体损失的函数表达式如式(1)所示；

loss_total＝(loss₄+loss_D，x+loss_D，y+loss_D，c)×γ (1)

其中，网络生成总体损失loss₄实际上是loss(Encoder_x，Decoder_x，Encoder_y，Decoder_y)的简写，其具体的函数表达式表示为：

loss4＝loss_Generator+loss_supervision+loss_bce+loss_cycle+loss_{Generator，code}+loss_{supervision，code}+loss_cycle，code (2)

式(2)中，loss_Generator为生成器损失，loss_supervision为自监督损失，loss_bce为图像梯度差损失，loss_cycle为循环一致性损失，loss_{Generator，code}为特征的生成器损失，loss_{supervision，code}为特征的自监督损失，loss_cycle，code为特征的循环一致性损失。

生成器损失loss_Generator由重建图对抗损失和生成图对抗损失组成。生成器损失loss_Generator的函数表达式表示如式(2-1)所示；

loss_Generator＝||Discriminator_x(x_rebuild)-1||₂×ω₁+||Discriminator_y(y_rebuild)-1||₂×ω₂+||Discriminator_x(x_fake)-1||₂×ω₃+||Discriminator_y(y_fake)-1||₂×ω₄ (2-1)

式(2-1)中，x表示原图x，y表示原图y，x_rebuild表示第一重建图x′，y_rebuild表示第二重建图y′进，x_fake表示第四重建图x″，y_fake表示第三重建图y″，Discriminator_x(x_rebuild)是模态X鉴别器对重建图x_rebuild的鉴别结果，||Discriminator_x(x_rebuild)-1||₂是重建图x_rebuild与原图x的对抗损失，由此约束x_rebuild越来越接近x。x_fake、y_rebuild、y_fake同理。Discriminator_y(y_rebuild)是模态Y鉴别器对重建图y_rebuild的鉴别结果，||Discriminator_y(y_rebuild)-1||₂是重建图y_rebuild与原图y的对抗损失，由此约束y_rebuild越来越接近y。Discriminator_x(x_fake)是模态X鉴别器对生成图x_fake的鉴别结果，||Discriminator_x(x_fake)-1||₂是重建图x_fake与原图x的对抗损失，由此约束x_fake越来越接近x。Discriminator_y(y_fake)是模态Y鉴别器对生成图y_fake的鉴别结果，||Discriminator_y(y_fake)-1||₂是重建图y_fake与原图y的对抗损失，由此约束y_fake越来越接近y。式(2-1)中的“-1”是指重建图或生成图与原图的对抗，因为原图是真实的，鉴别器输出1表示为真，但重建图和生成图实际上是假的，我们希望它越来越接近1，往真实靠近。ω_i是各项损失的权重，可以设置固定值，也可以动态地根据上一次迭代的各项损失值与评估结果更新下一次迭代的各项损失的权重。

自监督损失loss_supervision由各模态的重建图与生成图的自监督损失组成，自监督损失loss_supervision的函数表达式表示如式(2-2)所示；

loss_supervision＝||x-x_rebuild||₂×ω₅+||y-y_rebuild||₂×ω₆+||x-x_fake||₂×ω₇+||y-y_fake||₂×ω₈ (2-2)

式(2-2)中，各变量与式(2-1)中相同。

图像梯度差损失loss_bce的函数表达式表示如式(2-3)所示；

loss_bce＝|||x-y|-|x-y_fake|||₂×ω₉+|||y-x|-|y-x_fake|||₂×ω₁₀ (2-3)

式(2-3)中，各变量与式(2-1)中相同。通过约束|x-y|图像差与|x-y_fake|图像差之间的差值，间接地约束生成图y_fake与y在同一分布域，y_fake越来越接近y。x_fake同理。

循环一致性损失loss_cycle由模态X与模态Y的循环一致性损失组成，循环一致性损失loss_cycle的函数表达式表示如式(2-4)所示；

loss_cycle＝||x-x_cycle||₂×ω₁₁+||y-y_cycle||₂×ω₁₂ (2-4)

式(2-4)中，各变量与式(2-1)中相同。

特征的生成器损失loss_{Generator，code}由重建特征对抗损失和生成特征对抗损失组成。特征的生成器损失loss_{cenerator，code}的函数表达式表示如式(2-5)所示；

loss_{Generator，code}＝||H(Discriminator_code(Code_x，rebuild)，0)||₂×ω₁₃+HDiscriminatorcodeCodex，fake，02×ω14+HDiscriminatorcodeCodey，rebuild，22×ω15+HDiscriminatorcodeCodey，fake，22×ω16 (2-5)

式(2-5)中，ω₉是特征的生成器损失权重，||H(Discriminator_code(Code_x，rebuild)，0)||₂是重建特征Code_x，rebuild与原图特征Code_x的对抗损失，由此约束生成器将Code_x，rebuild与Code_x编码至同一特征空间S；同理，||H(Discriminator_code(Code_x，fake)，0)||₂是生成特征Code_x，fake与原图特征Code_x的对抗损失、||H(Discriminator_code(Code_y，rebuild)，2)||₂是重建特征Code_y，rebuild与原图特征Code_y的对抗损失、||H(Discriminator_code(Code_y，fake)，2)||₂是生成特征Code_y，fake与原图特征Code_y的对抗损失，其中0是真实特征Code_x的标签，2是真实特征Code_y的标签。Code_x表示第一原图特征code_x，Code_y表示第二原图特征code_y，Code_x，rebuild表示第一重建特征code_x′，Code_y，rebuild表示第二重建特征code_y′，Code_x，fake表示第四重建图特征code_x″，Code_y，fake表示第三重建图特征code_y″，其余各项变量与式(2-1)中相同。

特征的自监督损失loss_{supervision，code}由各模态之间的重建特征与生成特征的自监督损失组成，特征的自监督损失loss_{supervision，code}的函数表达式表示如式(2-6)所示；

loss_{supervision，code}＝||Code_x-Code_x，rebuild||₂×ω₁₇+||Code_x-Code_x，fake||₂×ω₁₈+||Code_x-Code_y，rebuild||₂×ω₁₉+||Code_x-Code_y，fake||₂×ω₂₀+||Code_y-Code_x，rebuild||₂×ω₂₁+||Code_y-Code_x，fake||₂×ω₂₂+||Code_y-Code_y，rebuild||₂×ω₂₃+||Code_y-Code_y，fake||₂×ω₂₄ (2-6)

式(2-6)中，各变量与式(2-5)中相同。

特征的循环一致性损失loss_cycle，code由原图特征一致性损失与生成特征一致性损失组成，特征的循环一致性损失loss_cycle，code的函数表达式表示如式(2-7)所示；

loss_cycle，code＝||Code_x-Code_y||₂×ω₂₅+||Code_x，fake-Code_y，fake||₂×ω₂₆ (2-7)

式(2-7)中，各变量与式(2-5)中相同。

鉴别器损失函数由原图损失、重建图损失、生成图损失组成。本实施例中，X模态鉴别损失loss_D，x实际上是loss_{Discriminator，x}的简写，其函数表达式表示如式(3)所示；Y模态鉴别损失loss_D，y实际上是loss_{Discriminator，x}的简写，其函数表达式表示如式(4)所示；

loss_{Discriminator，x}＝||Discriminator_x(x)-1||₂×ω₂₇+||Discriminator_x(x_rebuild)||₂×ω₂₈+||Discriminator_x(x_fake)||₂×ω₂₉ (3)

loss_{Discriminator，y}＝||Discriminator_y(y)-1||₂×ω₃₀+||Discriminator_y(y_rebuild)-02×ω31+Discriminatoryyfake-02×ω32 (4)

式(3)和式(4)中，Discriminator_x(x)为模态X鉴别器对原图x的鉴别结果，||Discriminator_x(x)-1||₂为模态X鉴别器对原图x的鉴别损失，Discriminator_x(x_rebuild)为模态X鉴别器对重建图x_rebuild的鉴别结果，||Discriminator_x(x_rebuild)||₂为模态X鉴别器对重建图x_rebuild的鉴别损失，Discriminator_x(x_fake)为模态X鉴别器对生成图x_fake的鉴别结果，||Discriminator_x(x_fake)||₂为模态X鉴别器对生成图x_fake的鉴别损失，Discriminator_y(y)模态Y鉴别器对原图y的鉴别结果，||Discriminator_y(y)-1||₂为模态Y鉴别器对原图y的鉴别损失，Discriminator_y(y_rebuild)为模态Y鉴别器对重建图y_rebuild的鉴别结果，||Discriminator_y(y_rebuild)||₂为模态Y鉴别器对重建图y_rebuild的鉴别损失，Discriminator_y(y_fake)为模态Y鉴别器对生成图y_fake的鉴别结果，||Discriminator_y(y_fake)||₂为模态Y鉴别器对生成图y_fake的鉴别损失，其余各项损失权重ω_i与式(2-1)中相同。

鉴别器Discriminator_x对输入的图像x、x_rebuild、x_fake进行鉴别输出在一个在[0，1]区间内的结果，1表示为真，0表示为假，所以我们希望原图x鉴别结果为1，重建图x_rebuild和生成图x_fake鉴别结果为0，ω₁是模态鉴别器的权重。模态Y的鉴别器损失设计同理。

特征鉴别器是两个模态共用的，可以实现RealCode_x、FakeCode_x、RealCode_y、FakeCode_y四分类，对应标签为0、1、2、3。因此采用交叉熵损失衡量特征鉴别器的损失，交叉熵的函数表达式如式(5)所示；

式(5)中，N为类别数，Y_i为真实标签Y通过独热编码(one-hot编码)转换得到概率分布向量中第i个值，X_i为特征鉴别器预测结果X的概率分布向量中对应标签为Y的概率值。

特征鉴别损失loss_D，c即为特征鉴别器的损失loss_{Discriminator，code}，因此特征鉴别损失loss_D，c可构建为如式(6)所示；

loss_{Discriminator，code}＝||H(Discriminator_code(Code_x)，0)||₂×ω₃₃+||H(Discriminator_code(Code_x，rebuild)，1)||₂×ω₃₄+||H(Discriminator_code(Code_x，fake)，1)||₂×ω₃₅+||H(Discriminator_code(Code_y)，2)||₂×ω₃₆+||H(Discriminator_code(Code_y，rebuild)，3)||₂×ω₃₇+||H(Discriminator_code(Code_y，fake)，3)||₂×ω₃₈ (6)

式(6)中，Discriminator_code(Code_x)为特征鉴别器对原图特征Code_x的鉴别结果，||H(Discriminator_code(Code_x)，0)||₂为特征鉴别器对原图特征Code_x的鉴别损失，Discriminator_code(Code_x，rebuild)为特征鉴别器对重建特征Code_x，rebuild的鉴别结果，||H(Discriminator_code(Code_x，rebuild)，1)||₂为特征鉴别器对重建特征Code_x，rebuild的鉴别损失，Discriminator_code(Code_x，fake)为特征鉴别器对生成特征Code_x，fake的鉴别结果，||H(Discriminator_code(Code_x，fake)，1)||₂为特征鉴别器对生成特征Code_x，fake的鉴别损失，Discriminator_code(Code_y)为特征鉴别器对原图特征Code_y的鉴别结果，||H(Discriminator_code(Code_y)，0)||₂为特征鉴别器对原图特征Code_y的鉴别损失，Discriminator_code(Code_y，rebuild)为特征鉴别器对重建特征Code_y，rebuild的鉴别结果，||H(Discriminator_code(Code_y，rebuild)，1)||₂为特征鉴别器对重建特征Code_y，rebuild的鉴别损失，Discriminator_code(Code_y，fake)为特征鉴别器对生成特征Code_y，fake的鉴别结果，||H(Discriminator_code(Code_y，fake)，1)||₂为特征鉴别器对生成特征Code_y，fake的鉴别损失，其余各项损失权重ω_i与式(2-1)中相同。

Code_x对应RealCode_x的标签0，Code_x，rebuild与Code_x，fake对应FakeCode_x的标签1，Code_y对应RealCode_y的标签2，Code_y，rebuild与Code_y，fake对应FakeCode_y的标签3。

综上所述，为了解决图像风格迁移和医学图像多模态转换的问题，本实施例设计了一种基于生成对抗网络的多域图像转换方法，具有下述优点：

1、本实施例采用半监督学习方法，既可以利用已有的标签数据也可以使用无标签数据，

2、本实施例基于生成对抗网络的多域图像转换方法能够实现多向的多域图像转换而不局限于单向的域转换或双向的二域转换，对域的数量没有限制。

3、本实施例为X、Y两个模态均均有各自独立的编码器、解码器及鉴别器，模块化的设计使模型训练更灵活，训练好的模块可重用，多个模态之间参数独立，当有新的模态加入转换系统时，只需对新模态的各个模块进行训练，而不用整个系统模型重新训练。

4、本实施例在训练过程中添加编码特征的GAN，多个模态共用一个特征鉴别器，以此来约束不同模态的编码器将特征映射到同一空间。

5、本实施例编码器里下采样采用全卷积的方法，解码器上采样采用改进的反卷积+resize方法，消除转换得到图像的棋盘效应，转换图像质量高，效果好。

此外，本实施例还提供一种基于生成对抗网络的多域图像转换系统，包括计算机设备，该计算机设备被编程或配置以执行本发明前述基于生成对抗网络的多域图像转换方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行本发明前述基于生成对抗网络的多域图像转换方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本发明前述基于生成对抗网络的多域图像转换方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于生成对抗网络的多域图像转换方法，其特征在于实施步骤包括：

1)输入指定的X、Y两个模态的原图x、原图y；

6)计算系统网络总体损失；

2.根据权利要求1所述的基于生成对抗网络的多域图像转换方法，其特征在于，所述X、Y两个模态均均有各自独立的编码器、解码器及鉴别器，且由编码器、解码器构成对应模态下的生成器，所述X、Y两个模态具有共用的特征鉴别器，所述X模态编码是通过X模态对应的编码器实现的，所述X模态解码是通过X模态对应的解码器实现的，所述X模态鉴别是通过X模态对应的鉴别器实现的，所述Y模态编码是通过Y模态对应的编码器实现的，所述Y模态解码是通过Y模态对应的解码器实现的，所述Y模态鉴别是通过Y模态对应的鉴别器实现的。

3.根据权利要求2所述的基于生成对抗网络的多域图像转换方法，其特征在于，所述对应模态下的生成器为U-net网络，且编码器对应U-net网络的收缩路径，解码器对应U-net网络的扩张路径，所述收缩路径和扩张路径均为卷积神经网络结构。

4.根据权利要求3所述的基于生成对抗网络的多域图像转换方法，其特征在于，所述收缩路径由两个重复的3×3卷积核组成，且均使用修正线性单元激活函数和一个用于下采样的全卷积操作，在每一个全卷积操作下采样的步骤中，特征通道数量都加倍。

5.根据权利要求3所述的基于生成对抗网络的多域图像转换方法，其特征在于，所述扩张路径的每一步都包含的一个3×3的卷积核，通过卷积核的反卷积操作对特征图进行上采样减少一半的特征通道数量、通过resize方法对每个像素根据插值方法计算得到插值从而扩大图像尺寸，对resize方法的结果进行卷积操作使通道数与特征图的反卷积结果保持一致，然后卷积结果与反卷积结果按位加，进行修正线性单元激活函数激活完成上采样操作，然后连接着级联收缩路径中相应的裁剪后的特征图；最后再用两个3×3的卷积核进行卷积运算且均使用修正线性单元激活函数，并利用1×1的卷积核进行卷积运算，将每个多维的特征向量映射到网络的输出层。

6.根据权利要求2所述的基于生成对抗网络的多域图像转换方法，其特征在于，所述鉴别器和特征鉴别器为多层卷积结构。

7.根据权利要求1所述的基于生成对抗网络的多域图像转换方法，其特征在于，步骤6)的详细步骤包括：

8.根据权利要求7所述的基于生成对抗网络的多域图像转换方法，其特征在于，步骤6.2)中计算系统网络总体损失的函数表达式如式(1)所示；

loss_total＝(loss₄+loss_D，x+loss_D，y+loss_D，c)×γ (1)

9.一种基于生成对抗网络的多域图像转换系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～8中任意一项所述基于生成对抗网络的多域图像转换方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～8中任意一项所述基于生成对抗网络的多域图像转换方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～8中任意一项所述基于生成对抗网络的多域图像转换方法的计算机程序。