CN110675316B

CN110675316B - 基于条件生成对抗网络的多域图像转换方法、系统及介质

Info

Publication number: CN110675316B
Application number: CN201910808016.8A
Authority: CN
Inventors: 邓楚富; 肖侬; 卢宇彤; 陈志广; 瞿毅力; 苏婉琪; 王莹
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2021-07-09
Anticipated expiration: 2039-08-29
Also published as: CN110675316A

Abstract

本发明涉及深度学习图像生成领域，具体涉及一种基于条件生成对抗网络的多域图像转换方法、系统及介质，本发明实施步骤包括输入待转换的x模态的原图x、y模态的原图y；采用预先训练好的条件提取器来生产x模态条件C_x和y模态条件C_y；将原图x、原图y、x模态条件C_x、y模态输入预先训练好的条件生成对抗网络得到对应的图像转换结果。本发明利用特征提取器提取原图的特征，通过上采样及与零矩阵在通道上的拼接得到条件矩阵，在具有较高的独立性情况下，又保有每个模态输入自身的语义信息；本发明训练灵活，且对要转换的域的数量没有限制，所需参数少。

Description

基于条件生成对抗网络的多域图像转换方法、系统及介质

技术领域

本发明涉及深度学习图像生成领域，具体涉及一种基于条件生成对抗网络的多域图像转换方法、系统及介质，尤其适用于图像风格迁移和医学图像多模态转换。

背景技术

卷积神经网络是深度学习(DL，Deep Learning)领域中一个重要的研究方向，现如今已经成为计算机视觉领域中最具影响力的革新的一部分。卷积神经网络最主要的特点是卷积运算操作，擅长矩阵运算，而图像的通道一般可以表示为二维矩阵，因此卷积神经网络在与图像相关的任务上表现优异。

自2014年生成对抗网络(Generative Adversarial Network，简称GAN)被提出以来，图像邻域就有了很大的进展，许多在分类、分割、风格迁移、图像生成、超分辨率和邻域自适应等方向的工作都有了超过state of art的研究结果。GAN是一种网络结构，也属于是一种网络的训练方法。最原始的GAN包括一个生成器(Generator)和一个鉴别器(Discriminator)，其目的是为了生成类似真实图像的图像。首先，生成器根据随机噪声(通常是符合高斯分布的)生成一个假图，然后鉴别器要区分出假图和真图的真假性。根据损失函数的设计，生成器在一步步迭代的过程中生成越来越接近真实图片的假图，最终使鉴别器不能区分假图和真图。但是，由于GAN难训练的特点，很容易出现模式崩溃(如鉴别器训练不够好，把假图加大概率地判别为真图，不能很好地指导生成器，导致生成假图的效果很差)和梯度消失的问题。为此，相继有相关的研究，如DCGAN、WGAN和WGAN-GP等的提出，大大地促进了GAN的发展。

我们知道，经典GAN只能生成随机的图片，而不能生成指定的图片。例如我们想要使用GAN来生成指定颜色的汽车的图片，GAN只能确保生成的图片是汽车，而不能保证生成的汽车一定是我们所指定的颜色的。为了解决这一问题，条件生成对抗网络被提出(Conditional GAN，简称CGAN)。不同于原始的GAN结构，CGAN多了一个one-hot编码的条件y，在训练时，随机噪声z与条件y进行拼接，组成一个新的一维向量作为生成器的输入；图像x平铺为一维向量，与条件y共同作为鉴别器的输入。因为存在条件y的约束，我们就能让生成器生成我们想要的图片了，目前最成功的基于条件生成对抗网络的要属 StarGAN了，StarGAN是用于人脸图像的生成，它能实现不同人脸属性间的互换(如黑发变白发)，为多域转换提供了新思路。

随着深度学习的发展，越来越多领域都在尝试用神经网络找到一种新的解决方案，医学图像分析也不例外。医学图像有多种不同模态，例如不同对比度的MRI、不同剂量的CT以及超声波等。越多的模态意味着越多的信息，也意味着能为医生提供更多的帮助。而现如今太多数公开数据集包含配对的多模态图像还是比较少的，若是能实现不同模态的医学图像的转换，提供更多的配对数据，那对于医学图像处理领域的其他问题，如分割、分类、可视化、图像配准和信息融合等，都能提供相应的帮助。

医学图像的处理对精度的要求很高，例如在分割任务中，对某些腺体的分割将直接影响医生的判断。不同模态之间的成像方式差异比较大，但对于同一个病人的同一个位置来说，几何结构基本是一样的。所以医学图像的跨模态转换的难点在于对细节的精确转换，使用卷积神经网络来捕捉细节特征是有效果的。因此，越来越多的相关研究基于神经网络，提出新的解决方法，推动医学图像处理的发展。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于条件生成对抗网络的多域图像转换方法、系统及介质，本发明利用特征提取器提取原图的特征，通过上采样及与零矩阵在通道上的拼接得到条件矩阵，在具有较高的独立性情况下，又保有每个模态输入自身的语义信息；本发明训练灵活，且对要转换的域的数量没有限制，所需参数少。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于条件生成对抗网络的多域图像转换方法，实施步骤包括：

1)输入待转换的x模态的原图x、y模态的原图y；

2)针对原图x采用预先训练好的条件提取器来生产x模态条件C_x，针对原图y采用预先训练好的条件提取器来生产y模态条件C_y；

3)将原图x、原图y、x模态条件C_x、y模态条件C_y输入预先训练好的条件生成对抗网络得到对应的图像转换结果。

可选地，步骤2)的详细步骤包括：针对原图x采用预先训练好的条件提取器提取图像特征，再对图像特征进行上采样放大成原图大小然后再与零矩阵进行通道上的拼接得到x模态条件C_x；针对原图y采用预先训练好的条件提取器提取图像特征，再对图像特征进行上采样放大成原图大小然后再与零矩阵进行通道上的拼接得到y模态条件C_y。

可选地，所述条件提取器为用于将输入的原图进行下采样到指定大小的多层卷积神经网络。

可选地，步骤2)之前还包括训练条件提取器的步骤，详细步骤包括：

A1)初始化条件提取器；

A2)输入指定数据集的任意一张图像；

A3)针对输入的图像通过条件提取器进行卷积处理得到图像特征；

A4)计算条件提取器的损失loss_ce；

A5)对条件提取器的损失loss_ce求导，并通过反向传播计算出条件提取器的各层参数的梯度值，根据梯度值更新参数，完成本轮迭代；

A6)判断是否满足预设的退出迭代条件，如果满足则结束迭代并退出；否则，跳转执行步骤A2)继续进行下一轮迭代。

可选地，步骤A4)计算条件提取器的损失loss_ce的函数表达式如式(1)所示；

loss_ce＝||Conditinal_extractor(a)-a_label||₂ (1)

式(1)中，||Conditinal_extractor(a)-a_label||₂表示图像特征、标签a_label之间的距离，其中 a表示数据集内的任一模态的图像，Conditinal_extractor(a)表示图像a提取得到的图像特征， a_label表示训练条件提取器时使用的标签，所述数据集有n个模态，第i个模态的标签的数值为i/n，大小为h/2×w/2×1，其中h为图像的高度，w为图像的宽度。

可选地，所述条件生成对抗网络包括几何信息编码器Encoder_same、细节信息编码器 Encoder_diff以及解码器Decoder，步骤3)中条件生成对抗网络得到对应的图像转换结果的详细步骤包括：

3.1)针对原图x，通过几何信息编码器Encodersame编码得到x模态几何空间特征x_same，将x模态几何空间特征x_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图x_mask；针对原图y，通过几何信息编码器Encodersame编码得到y模态几何空间特征y_same，将y模态几何空间特征y_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图y_mask；将原图x与y模态条件C_y进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到y模态细节语义特征y_diff，将y模态细节语义特征y_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到y模态细节特点图y_dic；将图像y与x模态条件C_x进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到x模态几何空间特征x_diff，将x模态几何空间特征x_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态细节特点图x_dic；

3.2)重用x模态几何空间特征x_same、y模态细节语义特征y_diff进行通道上的拼接后输入解码器Decoder得到y模态生成图y_fake；重用y模态几何空间特征y_same、x模态细节语义特征x_diff进行通道上的拼接后输入解码器Decoder得到x模态生成图x_fake；

3.3)将x模态生成图x_fake和y模态生成图y_fake输出。

可选地，步骤3)之前还包括训练条件生成对抗网络的步骤，详细步骤包括：

B1)输入训练集中的任意一组x模态的原图x、y模态的原图y；

B2)针对原图x采用预先训练好的条件提取器来生产x模态条件C_x，针对图像y采用预先训练好的条件提取器来生产y模态条件C_y；

B3)针对原图x，通过几何信息编码器Encoder_same编码得到x模态几何空间特征x_same，将x模态几何空间特征x_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图x_mask；针对原图y，通过几何信息编码器Encoder_same编码得到y模态几何空间特征y_same，将y模态几何空间特征y_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图y_mask；将原图x与y模态条件C_y进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到y模态细节语义特征y_diff，将y模态细节语义特征y_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到y模态细节特点图y_dic；将图像y与x模态条件C_x进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到x模态几何空间特征x_diff，将x模态几何空间特征x_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态细节特点图x_dic；将图像x与x模态条件C_x进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到x 模态几何空间特征x'_diff，将原图y与y模态条件C_y进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到y模态细节语义特征y'_diff；

B4)重用x模态几何空间特征x_same、y模态细节语义特征y_diff进行通道上的拼接后输入解码器Decoder得到y模态生成图y_fake；重用y模态几何空间特征y_same、x模态细节语义特征x_diff进行通道上的拼接后输入解码器Decoder得到x模态生成图x_fake；

B5)将原图x、原图y，x模态生成图x_fake、y模态生成图y_fake输入鉴别器Discriminator 进行对抗学习；

B6)计算条件生成对抗网络的网络总损失；

B7)对网络总损失求导，开启反向传播逐层计算出条件生成对抗网络各层参数的梯度值，然后根据各层参数梯度更新这些参数，完成本轮迭代；

B8)判断是否满足预设的退出迭代条件，如果满足则结束迭代并退出；否则，跳转执行步骤B1)继续进行下一轮迭代。

可选地，步骤B6)中生成对抗网络GAN的网络总损失由鉴别器损失、生成对抗损失、特征编码损失、一致性损失求和得到，所述鉴别器损失的计算函数表达式如式(2)所示，所述生成对抗损失的计算函数表达式如式(3)所示，所述特征编码损失的计算函数表达式如式 (4)所示，所述一致性损失的计算函数表达式如式(5)所示；

式(2)中，loss_dis表示鉴别器损失，||Discriminator(x_fake)||₂表示鉴别器对生成图x_fake的鉴别损失，||Discriminator(y_fake)||₂表示鉴别器对生成图y_fake的鉴别损失，||Discriminator(x)-x_label||₂表示鉴别器对原图x的鉴别损失，||Discriminator(y)-y_label||₂表示鉴别器对原图y的鉴别损失，Discriminator(x_fake)表示鉴别器对生成图x_fake的鉴别结果，Discriminator(y_fake)表示鉴别器对生成图y_fake的鉴别结果，Discriminator(x)表示鉴别器对原图x的鉴别结果，Discriminator(y)表示鉴别器对原图y的鉴别结果，x_label表示原图x的标签，y_label表示原图y的标签，w1是鉴别器损失的权重；

式(3)中，loss_adv表示生成对抗损失，||Discriminator(y_fake)-y_label||₂表示生成图y_fake与原图y的对抗损失，||Discriminatonr(x_fake)-x_label||₂表示生成图x_fake与原图x的对抗损失， Discriminator(y_fake)表示鉴别器对生成图y_fake的鉴别结果，Discriminatonr(x_fake)表示鉴别器对生成图x_fake的鉴别结果，x_label表示原图x的标签，y_label表示原图y的标签，w₂是生成对抗损失的权重；

式(4)中，loss_code表示特征编码损失，||x_same-y_same||₂是x模态和y模态几何特征之间的距离，||x_diff-x'_diff||₂+||y_diff-y'_diff||₂是计算不同模态的原图转换至同一模态时得到的细节信息特征间的损失，(1-||xdiff-ydiff||₂)+(1-||x'diff-y'diff||₂)是计算同一模态的原图转换至不同模态时得到的细节信息特征的损失，w₃₁是几何信息损失的权重，w₃₂是同一转换方向的细节损失的权重，w₃₃是不同转换方向的细节损失的权重；x_same为x模态几何空间特征、y_same为y 模态几何空间特征，x_diff为x模态细节语义特征，y_diff为y模态细节语义特征，x_diff为原图x 与x模态条件C_x通过细节信息编码器Encoder_diff编码得到y模态细节语义特征，y'_diff为原图 y与y模态条件C_y通过细节信息编码器Encoder_diff编码得到y模态细节语义特征；

式(5)中，loss_consistency表示一致性损失，||x_mask-y_mask||₂表示x模态掩膜图与y模态掩膜图之间的距离损失，||x-x_fake||₂表示原图x与生成图x_fake之间的距离损失，||y-y_fake‖₂表示原图 y与生成图y_fake之间的距离损失，||x_dic-y_dic‖₂表示x模态细节特点图与y模态细节特点图的距离损失，w₄₁是几何信息编码器Encoder_same、解码器Decoder之间的训练路径的损失权重， w₄₂是几何信息编码器Encoder_same、细节信息编码器Encoder_diff、解码器Decoder之间的训练路径的损失权重，w₄₃是细节信息编码器Encoder_diff、解码器Decoder之间的训练路径的损失权重；x_mask为x模态掩膜图，y_mask为y模态掩膜图，x_fake为x模态生成图，y_fake为y模态生成图，x_dic为x模态细节特点图，y_dic为y模态细节特点图。

此外，本发明还提供一种基于条件生成对抗网络的多域图像转换系统，包括计算机设备，该计算机设备被编程或配置以执行所述基于条件生成对抗网络的多域图像转换方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行所述基于条件生成对抗网络的多域图像转换方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述基于条件生成对抗网络的多域图像转换方法的计算机程序。

和现有技术相比，本发明具有下述优点：

1、本发明利用特征提取器提取原图的特征，通过上采样及与零矩阵在通道上的拼接得到条件矩阵，在具有较高的独立性情况下，又保有每个模态输入自身的语义信息。

2、本发明训练灵活，且对要转换的域的数量没有限制，相比于需要n(n-1)个编解码器的传统模块化网络所需要的参数更少。

3、本发明在网络结构上可进一步根据需要将编码器分为几何信息编码器Encoder_same和细节信息编码器Encoder_diff，将差异较小的特征与差异较大的特征分开提取，并通过特征编码损失和一致性损失将编码的特征约束到同一空间。

附图说明

图1为本发明实施例方法的基本原理示意图。

图2为本发明实施例方法步骤2)的原理示意图。

图3为本发明实施例中条件提取器的训练流程示意图。

图4为本发明实施例中步骤3)的流程示意图。

图5为本发明实施例中步骤3.1)的原理示意图。

图6为本发明实施例中步骤3.2)的原理示意图。

具体实施方式

下文将以x、y两个模态的二域转换为例，对本发明可实现医学图像多模态转换的多域图像转换方法及系统进行进一步的详细说明。

如图1所示，本实施例基于条件生成对抗网络的多域图像转换方法的实施步骤包括：

1)输入待转换的x模态的原图x、y模态的原图y；

参见图2，步骤2)的详细步骤包括：针对原图x采用预先训练好的条件提取器提取图像特征(条件特征)，再对图像特征进行上采样放大成原图大小然后再与零矩阵进行通道上的拼接得到x模态条件C_x；针对原图y采用预先训练好的条件提取器提取图像特征，再对图像特征进行上采样放大成原图大小然后再与零矩阵进行通道上的拼接得到y模态条件C_y。

经典条件生成网络的条件是由人工给定的，并以向量的形式与随机噪声一起，作为神经网络的输入。而本实施例的条件不直接通过人工给定，而是分两步操作来生产条件。参见图 2，步骤2)可分为条件特征的生成与条件矩阵的生成。

第一部分(左侧虚线框部分)用于条件特征的生成，条件提取器由卷积神经网络组成(红色虚线框部分)，目的是将不同模态图像的特征约束到对应的空间当中去，通过完成对整个数据集的训练，用于为后续转换训练中图像提供标志性高的条件；本实施例中，条件提取器为用于将输入的原图进行下采样到指定大小的多层卷积神经网络，具体包括层卷积层，用于将不同模态的图像(h×w×c)下采样到(h/2)×(w/2)×1大小的矩阵，其中c为模态，h为高度， w为宽度，该矩阵代表着输入图像的语义特征。通过对不同模态的图像设计标签，神经网络能学习将不同模态图像下采样到特定的特征空间。该方法的优点是能让不同模态图像对应的特征矩阵之间的距离相对较远，而同一模态里的图像对应的特征矩阵距离相对较近，且又保留一定的自身信息。

第二部分(右侧虚线框部分)用于条件矩阵的生成，将使用第一部分训练好的条件提取器，为即将转换的图像提供符合原图空间特征的条件特征，然后将条件矩阵进行线性插值上采样并与零矩阵拼接为条件矩阵，用于后续的转换训练。假设要对n个模态的数据进行互转，提取的条件作为神经网络的一个输入，需通过上采样方法(线性插值)，放大成与原始图像相同的大小(h×w×1)，然后与(n-1)个零矩阵(h×w×1)在通道上进行相应位置的叠加，最终形成(h×w×n)大小的条件矩阵，其中n为模态数量。例如要将原始图(无论是哪个模态) 转换为第二个模态，那么从条件提取器提取并上采样得到的条件作为生成的条件矩阵的第二个通道，其余通道则是由零矩阵组成。这样做的一个目的是为了使生成的条件能作为生成对抗网络的输入，更重要的是，与零矩阵在相应位置的通道叠加，能进一步提高不同模态的条件矩阵之间的独立性，利于网络的训练。

如图3所示，步骤2)之前还包括训练条件提取器的步骤，详细步骤包括：

A1)初始化条件提取器；

A2)输入指定数据集的任意一张图像；

A4)计算条件提取器的损失loss_ce；

本实施例中，条件生成对抗网络包括几何信息编码器Encoder_same、细节信息编码器 Encoder_diff以及解码器Decoder。条件生成对抗网络共包括3个部分：编码器(Encoder)、解码器(Decoder)和鉴别器(Discriminator)。其中，因为不同模态之间的几何空间信息相似，而细节语义信息差异较大，所以编码器又分为提取几何空间特征的几何信息编码器Encoder_same，以及提取细节语义特征的细节信息编码器Encoder_diff。编码器和解码器都使用2D 卷积核进行卷积操作，编码器为下采样路径，解码器为上采样路径。几何信息编码器Encoder_same的输入为要转换的原图，细节信息编码器Encoder_diff的输入为原图和相应的条件矩阵，将几何信息编码器Encoder_same与细节信息编码器Encoder_diff输出的特征进行通道上的叠加，作为Decoder的输入。细节信息编码器Encoder_diff与解码器Decoder之间形成U-net结构，以加强细节信息转换部分的训练。由于输入的不同，Decoder的输出也具有不同的意义。鉴别器采用Resnet-50网络，作为n类别分类器，输出是维度为n的向量，向量的数值表示属于某一类的概率。鉴别器的主要功能为：判别输入图像属于n类中的某一类的概率，对于生成器生成的假图，鉴别器应将其判别为假，既输出n维零向量。

如图4所示，步骤3)中条件生成对抗网络得到对应的图像转换结果的详细步骤包括：

3.1)参见图4和图5，针对原图x，通过几何信息编码器Encoder_same编码得到x模态几何空间特征x_same，将x模态几何空间特征x_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图x_mask；针对原图y，通过几何信息编码器Encoder_same编码得到y 模态几何空间特征y_same，将y模态几何空间特征y_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图y_mask；将原图x与y模态条件C_y进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到y模态细节语义特征y_diff，将y模态细节语义特征y_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到y模态细节特点图y_dic；将图像y与x模态条件C_x进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到x模态几何空间特征x_diff，将x模态几何空间特征x_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到 x模态细节特点图x_dic；

3.2)参见图4和图6，重用x模态几何空间特征x_same、y模态细节语义特征y_diff进行通道上的拼接后输入解码器Decoder得到y模态生成图y_fake；重用y模态几何空间特征y_same、x模态细节语义特征x_diff进行通道上的拼接后输入解码器Decoder得到x模态生成图x_fake；

3.3)将x模态生成图x_fake和y模态生成图y_fake输出。

本实施例中，步骤3)之前还包括训练条件生成对抗网络的步骤，详细步骤包括：

B1)输入训练集中的任意一组x模态的原图x、y模态的原图y；

B6)计算条件生成对抗网络的网络总损失；

参见图5，步骤B3)对应系统的辅助训练部分，抽象出来的架构如图4所示，与原始的 CGAN对比，生成器分解为了三部分：几何信息编码器、细节信息编码器和解码器，为了学习不同尺度的细节信息，细节信息编码器和解码器形成一种U-net结构，在一次完整训练中，输入图像与条件矩阵进行排列组合，作为细节信息编码器的输入；辅助部分主要包括两个训练路径，几何信息编码器到解码器、细节信息编码器到解码器，分别对应图5的上侧虚线框部分和绿下侧虚线框部分。本实施例中，步骤B4)对应系统的条件训练部分，抽象出来的架构如图6所示，不同于辅助训练部分，该部分是将几何信息编码器的输出特征与细节信息的输出特征进行排列组合，以此作为解码器的输入。在早期迭代过程中条件训练与辅助训练同步进行，到了中后期的迭代时，相应的会线性减少辅助训练的次数，迫使整个网络集中于两个编码器的组合训练，提高假图的质量。

条件生成对抗网络是通过输入我们给定的条件，生成我们想要的输出，即： x+C_y→y_fake，以a、b和c三种模态之间的互转为例，x可以为a、b和c中的任何一种模态，同样的，y也可以a、b和c中的任何一种模态，基于前面提到条件生成方法对CGAN进行改进，则x生成y的过程中条件矩阵C_y生成过程：

①对整个数据集的数据(x，y)作为条件提取器的输入，训练条件提取器；

②使用训练完成的条件提取器提取x的图像特征x_f；

③将图像特征x_f上采样成x_F，并通过相应位置的通道叠加得到C_y；

x+C_y→y_fake生成过程：

①几何信息编码器Encoder_same将输入x编码为特征x_same；

②细节信息编码器Encoder_diff将通道叠加后的(x⊕C_y)编码为特征y_diff；

③将x_same与y_diff进行通道上的拼接(x_same⊕y_diff)；

④解码器Decoder将拼接后的特征(x_same⊕y_diff)解码为输出y_fake；

⑤鉴别器Discriminator对x、y、y_fake进行判别，将x，y分别判别为x、y所属的类别，将y_fake判别为假。

以上是两个模态的条件训练方法，当有n个模态时，则相应的在条件生成的过程中，将会生成h×w×n的条件矩阵C_y。然后根据条件矩阵C_y，依次完成各种模态的转换训练。在这个过程中，为了能融合几何信息特征和细节语义特征，生成更加真实的转换图，将x_same与y_diff进行了通道上的拼接，并通过鉴别器Discriminator对原图与转换图进行对抗学习。

为了提高编解码器的性能，我们在x转换成y的这一过程中，添加一些训练过程，以提高整个生成对抗网络的性能，具体过程如下：

①使用训练完成的条件提取器提取x的特征，并通过相应位置的通道叠加得到C_x；

②重用x+C_y→y_fake生成过程中的x_same、y_diff和C_y；

③Encoder_same将输入y编码为特征y_same；

④Encoder_diff将通道叠加后的(y⊕C_x)编码为特征x_diff；

⑤Encoder_diff将通道叠加后的(x⊕C_x)编码为特征x'_diff；

⑥Encoder_diff将通道叠加后的(y⊕C_y)编码为特征y'_diff；

⑦将x_same与零矩阵与(y_diff同维度)进行通道上的拼接(x_same⊕zero)；

⑧将y_same与零矩阵与(y_diff同维度)进行通道上的拼接(y_same⊕zero)；

⑨将x_diff与零矩阵与(x_same同维度)进行通道上的拼接(zero⊕x_diff)；

⑩将y_diff与零矩阵与(x_same同维度)进行通道上的拼接(zero⊕y_diff)；

Decoder将拼接的特征(x_same⊕zero)、(y_same⊕zero)、(zero⊕x_diff)和(zero⊕y_diff) 分别解码为x_mask、y_mask、x_dic和y_dic。

以上是两个模态的辅助训练方法，当有三个及以上的模态需要互相转换时，任一转换过程与上述过程相似。经过辅助训练所得到的中间结果x_same、y_same、x_diff、y_diff、x'_diff和y'_diff，最终结果x_mask、y_mask、x_dic和y_dic，我们希望几何空间特征x_same与y_same能约束到同一空间，x_diff 和x'_diff能约束到同一空间，y_diff和y'_diff能约束到同一空间；从上述过程我们可以看出，x_mask与 y_mask是原图经过Encoder_same→Decoder这条路径的结果，是对原图几何信息的重建，通过损失函数的指导使相互之间能尽可能的相似，进而指导编码器对几何信息特征的解码。而x_di_c与 y_dic是原图经过Encoder_diff→Decoder这条路径的结果，是对不同转换方向的细节信息特征的重建，应尽可能的不相似，进而指导编码器对细节信息特征的解码。y_fake是原图进过 (Encoder_same⊕Encoder_diff)→Decoder这条训练路径的结果，通过监督学习和对抗学习，进而与真实图像y越来越接近。

以将x模态转换为y模态为例，以上方法综合训练过程的公式如下所示：

条件生成过程可用公式表示为：

x_f＝Conditional_extractor(x)

y_f＝Conditional_extractor(y)

C_y＝Upsample_y(x_f)

C_x＝Upsample_x(y_f)

在获得条件矩阵C_y的基础上，训练过程可表示为：

x_same＝Encoder_same(x)

y_same＝Encoder_same(y)

上述公式中x_f,y_f,C_x,C_y分别表示x、y的特征和条件，Conditional_extractor表示条件提取器，Up_sample表示上采样以及在通道拼接的方式，Encoder_same、Encoder_diff和Decoder分别是几何信息编码器、细节信息编码器和解码器。x_same和y_same是Encoder_same分别对对x和y编码的特征结果，

表示在通道上的拼接操作，x_diff、y_diff、x'_diff和y'_diff是Encoder_diff对不同组合输入的结果，x、y、x_fake、y_fake、x_mask、y_mask、x_dic、y_dic分别为x模态原图、y模态原图、 x模态生成图、y模态生成图、x模态掩膜图、y模态掩膜图、x模态细节特点图、y模态细节特点图。

上述方法仅是介绍x转换为y的单向过程，真实训练过程中，一次完整的训练包括x->y、 y->x以及相应的辅助训练，在完整训练过程中我们通过设计损失函数作为模型的学习准则，约束模型的优化方向。

本实施例中，步骤A4)计算条件提取器的损失loss_ce的函数表达式如式(1)所示；

loss_ce＝||Conditinal_extractor(a)-a_label||₂ (1)

式(1)中，||Conditinal_extractor(a)-a_label||₂表示图像特征、标签a_label之间的距离，其中 a表示数据集内的任一模态的图像，Conditinal_extractor(a)表示图像a提取得到的图像特征， a_label表示训练条件提取器时使用的标签，数据集有n个模态，第i个模态的标签的数值为i/n，大小为h/2×w/2×1，其中h为图像的高度，w为图像的宽度。

本实施例中，步骤B6)中生成对抗网络GAN的网络总损失由鉴别器损失、生成对抗损失、特征编码损失、一致性损失求和得到，鉴别器损失的计算函数表达式如式(2)所示，生成对抗损失的计算函数表达式如式(3)所示，特征编码损失的计算函数表达式如式(4)所示，一致性损失的计算函数表达式如式(5)所示；

式(2)中，loss_dis表示鉴别器损失，||Discriminator(x_fake)||₂表示鉴别器对生成图x_fake的鉴别损失，||Discriminator(y_fake)||₂表示鉴别器对生成图y_fake的鉴别损失，||Discriminator(x)-x_label||₂表示鉴别器对原图x的鉴别损失，||Discriminator(y)-y_label||₂表示鉴别器对原图y的鉴别损失， Discriminator(x_fake)表示鉴别器对生成图x_fake的鉴别结果，Discriminator(y_fake)表示鉴别器对生成图y_fake的鉴别结果，Discriminator(x)表示鉴别器对原图x的鉴别结果，Discriminator(y)表示鉴别器对原图y的鉴别结果，x_label表示原图x的标签，y_label表示原图y的标签，w₁是鉴别器损失的权重；鉴别器Discriminator是所有模态共用的，可以实现n分类，鉴别器的损失由原图损失和生成图损失组成。不同于条件提取器，鉴别器对x、y、x_fake、y_fake进行鉴别，输出n维数值在0到1 之间的向量，相应的x_label、y_label也为n维向量，且模态对应坐标的向量元素的值为1，其余为0。假设x 对应为第一个模态，则x_label[0]为1，x_label[1，...，n-1]为0。由于鉴别器应当将x_fake、y_fake判别为假，既 x_fake、y_fake的标签为n维0向量。

式(3)中，loss_adv表示生成对抗损失，||Discriminator(y_fake)-y_label||₂表示生成图y_fake与原图y的对抗损失，||Discriminatonr(x_fake)-x_label||₂表示生成图x_fake与原图x的对抗损失， Discriminator(y_fake)表示鉴别器对生成图y_fake的鉴别结果，Discriminatonr(x_fake)表示鉴别器对生成图x_fake的鉴别结果，x_label表示原图x的标签，y_label表示原图y的标签，w₂是生成对抗损失的权重；生成器的损失由生成图的对抗损失组成，所有模态共用生成器的编码部件和解码部件。因生成器与鉴别器是一种“博弈”的关系，生成器希望自己生成的图能够被鉴别器判别为真，所以需要最小化假图判别结果与真实标签的距离，使损失结果能指导生成器，生成出越来越真实的图片。

式(4)中，loss_code表示特征编码损失，||x_same-y_same||₂是x模态和y模态几何特征之间的距离，||x_diff-x'_diff||₂+‖y_diff-y'_diff‖₂是计算不同模态的原图转换至同一模态时得到的细节信息特征间的损失，(1-‖xdiff-ydiff||₂)+(1-‖x'diff-y'diff||₂)是计算同一模态的原图转换至不同模态时得到的细节信息特征的损失，w₃₁是几何信息损失的权重，w₃₂是同一转换方向的细节损失的权重，w₃₃是不同转换方向的细节损失的权重；x_same为x模态几何空间特征、y_same为y 模态几何空间特征，x_diff为x模态细节语义特征，y_diff为y模态细节语义特征，x'_diff为原图x 与x模态条件C_x通过细节信息编码器Encoder_diff编码得到y模态细节语义特征，y'_diff为原图 y与y模态条件C_y通过细节信息编码器Encoder_diff编码得到y模态细节语义特征；特征编码损失由各个模态之间的几何信息特征与细节信息特征组成，公式中的‖x_same-y_same‖₂是x模态和y模态几何特征之间的距离，由此约束几何信息编码器Encoder_same能将x、y编码至同一特征空间；公式中的 (||x_diff-x'_diff‖₂+||y_diff-y'_diff||₂)是计算不同模态的原图转换至同一模态时得到的细节信息特征间的损失，由此约束细节信息编码器Encoder_diff将同一转换方向的特征编码到同一空间；公式中的 ((1-||xdiff-ydiff||₂)+(1-||x'diff-y'diff||₂))是计算同一模态的原图转换至不同模态时得到的细节信息特征的损失，由此约束Encoder_diff将不同转换方向的特征编码到不同的空间。

式(5)中，loss_co_nsistency表示一致性损失，||x_mask-y_mask||₂表示x模态掩膜图与y模态掩膜图之间的距离损失，||x-x_fake||₂表示原图x与生成图x_fake之间的距离损失，||y-y_fake||₂表示原图 y与生成图y_fake之间的距离损失，||x_dic-y_dic||₂表示x模态细节特点图与y模态细节特点图的距离损失，w₄₁是几何信息编码器Encoder_same、解码器Decoder之间的训练路径的损失权重， w₄₂是几何信息编码器Encoder_same、细节信息编码器Encoder_diff、解码器Decoder之间的训练路径的损失权重，w₄₃是细节信息编码器Encoder_diff、解码器Decoder之间的训练路径的损失权重；x_mask为x模态掩膜图，y_mask为y模态掩膜图，x_fake为x模态生成图，y_fake为y模态生成图，x_dic为x模态细节特点图，y_dic为y模态细节特点图。一致性损失是由三条不同训练路径所得结果间的距离组成的，w₄₁是训练路径Encoder_same→Decoder的损失权重，w₄₂是训练路径

的损失权重，w₄₃是训练路径Encoder_diff→Decoder的损失权重。最终，网络总损失可表达为式(6)：

loss_all＝loss_dis+loss_adv+loss_code+loss_consitent

上述公式为生成对抗网络的总损失，不包括单独训练的条件提取器的loss_ce损失，所以网络总损失由鉴别器损失、生成对抗损失、特征编码损失、一致性损失求和得到。

此外，本实施例还提供一种基于条件生成对抗网络的多域图像转换系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述基于条件生成对抗网络的多域图像转换方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于条件生成对抗网络的多域图像转换方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于条件生成对抗网络的多域图像转换方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于条件生成对抗网络的多域图像转换方法，其特征在于，实施步骤包括：

1)输入待转换的x模态的原图x、y模态的原图y；

3)将原图x、原图y、x模态条件C_x、y模态条件C_y输入预先训练好的条件生成对抗网络得到对应的图像转换结果；

步骤2)的详细步骤包括：针对原图x采用预先训练好的条件提取器提取图像特征，再对图像特征进行上采样放大成原图大小然后再与零矩阵进行通道上的拼接得到x模态条件C_x；针对原图y采用预先训练好的条件提取器提取图像特征，再对图像特征进行上采样放大成原图大小然后再与零矩阵进行通道上的拼接得到y模态条件C_y；

所述条件生成对抗网络包括几何信息编码器Encoder_same、细节信息编码器Encoder_diff以及解码器Decoder，步骤3)中条件生成对抗网络得到对应的图像转换结果的详细步骤包括：

3.1)针对原图x，通过几何信息编码器Encoder_same编码得到x模态几何空间特征x_same，将x模态几何空间特征x_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图x_mask；针对原图y，通过几何信息编码器Encoder_same编码得到y模态几何空间特征y_same，将y模态几何空间特征y_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图y_mask；将原图x与y模态条件C_y进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到y模态细节语义特征y_diff，将y模态细节语义特征y_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到y模态细节特点图y_dic；将图像y与x模态条件C_x进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到x模态几何空间特征x_diff，将x模态几何空间特征x_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态细节特点图x_dic；

3.2)重用x模态几何空间特征x_same、y模态细节语义特征y_diff进行通道上的拼接后输入解码器Decoder得到y模态生成图y_fake；重用y模态几何空间特征y_same、x模态细节语义特征x_diff进行通道上的拼接后输入解码器Decoder得到x模态生成图x_fake。

2.根据权利要求1所述的基于条件生成对抗网络的多域图像转换方法，其特征在于，所述条件提取器为用于将输入的原图进行下采样到指定大小的多层卷积神经网络。

3.根据权利要求2所述的基于条件生成对抗网络的多域图像转换方法，其特征在于，步骤2)之前还包括训练条件提取器的步骤，详细步骤包括：

A1)初始化条件提取器；

A2)输入指定数据集的任意一张图像；

A4)计算条件提取器的损失loss_ce；

4.根据权利要求3所述的基于条件生成对抗网络的多域图像转换方法，其特征在于，步骤A4)计算条件提取器的损失loss_ce的函数表达式如式(1)所示；

loss_ce＝||Conditinal_extractor(a)-a_label||₂ (1)

式(1)中，||Conditinal_extractor(a)-a_label||₂表示图像特征、标签a_label之间的距离，其中a表示数据集内的任一模态的图像，Conditinal_extractor(a)表示图像a提取得到的图像特征，a_label表示训练条件提取器时使用的标签，所述数据集有n个模态，第i个模态的标签的数值为i/n，大小为h/2×w/2×1，其中h为图像的高度，w为图像的宽度。

5.根据权利要求1所述的基于条件生成对抗网络的多域图像转换方法，其特征在于，步骤3)之前还包括训练条件生成对抗网络的步骤，详细步骤包括：

B1)输入训练集中的任意一组x模态的原图x、y模态的原图y；

B3)针对原图x，通过几何信息编码器Encoder_same编码得到x模态几何空间特征x_same，将x模态几何空间特征x_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图x_mask；针对原图y，通过几何信息编码器Encoder_same编码得到y模态几何空间特征y_same，将y模态几何空间特征y_same与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态掩膜图y_mask；将原图x与y模态条件C_y进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到y模态细节语义特征y_diff，将y模态细节语义特征y_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到y模态细节特点图y_dic；将图像y与x模态条件C_x进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到x模态几何空间特征x_diff，将x模态几何空间特征x_diff与零矩阵进行通道上的拼接后输入解码器Decoder得到x模态细节特点图x_dic；将图像x与x模态条件C_x进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到x模态几何空间特征x'_diff，将原图y与y模态条件C_y进行通道上的拼接，然后通过细节信息编码器Encoder_diff编码得到y模态细节语义特征y'_diff；

B5)将原图x、原图y，x模态生成图x_fake、y模态生成图y_fake输入鉴别器Discriminator进行对抗学习；

B6)计算条件生成对抗网络的网络总损失；

6.根据权利要求5所述的基于条件生成对抗网络的多域图像转换方法，其特征在于，步骤B6)中生成对抗网络GAN的网络总损失由鉴别器损失、生成对抗损失、特征编码损失、一致性损失求和得到，所述鉴别器损失的计算函数表达式如式(2)所示，所述生成对抗损失的计算函数表达式如式(3)所示，所述特征编码损失的计算函数表达式如式(4)所示，所述一致性损失的计算函数表达式如式(5)所示；

式(2)中，loss_dis表示鉴别器损失，||Discriminator(x_fake)||₂表示鉴别器对生成图x_fake的鉴别损失，||Discriminator(y_fake)||₂表示鉴别器对生成图y_fake的鉴别损失，||Discriminator(x)-x_label||₂表示鉴别器对原图x的鉴别损失，||Discriminator(y)-y_label||₂表示鉴别器对原图y的鉴别损失，Discriminator(x_fake)表示鉴别器对生成图x_fake的鉴别结果，Discriminator(y_fake)表示鉴别器对生成图y_fake的鉴别结果，Discriminator(x)表示鉴别器对原图x的鉴别结果，Discriminator(y)表示鉴别器对原图y的鉴别结果，x_label表示原图x的标签，y_label表示原图y的标签，w₁是鉴别器损失的权重；

式(3)中，loss_adv表示生成对抗损失，||Discriminator(y_fake)-y_label||₂表示生成图y_fake与原图y的对抗损失，||Discriminatonr(x_fake)-x_label||₂表示生成图x_fake与原图x的对抗损失，Discriminator(y_fake)表示鉴别器对生成图y_fake的鉴别结果，Discriminatonr(x_fake)表示鉴别器对生成图x_fake的鉴别结果，x_label表示原图x的标签，y_label表示原图y的标签，w₂是生成对抗损失的权重；

式(4)中，loss_code表示特征编码损失，||x_same-y_same||₂是x模态和y模态几何特征之间的距离，||x_diff-x'_diff||₂+||y_diff-y'_diff||₂是计算不同模态的原图转换至同一模态时得到的细节信息特征间的损失，(1-||xdiff-ydiff||₂)+(1-||x'diff-y'diff||₂)是计算同一模态的原图转换至不同模态时得到的细节信息特征的损失，w₃₁是几何信息损失的权重，w₃₂是同一转换方向的细节损失的权重，w₃₃是不同转换方向的细节损失的权重；x_same为x模态几何空间特征、y_same为y模态几何空间特征，x_diff为x模态细节语义特征，y_diff为y模态细节语义特征，x'_diff为原图x与x模态条件C_x通过细节信息编码器Encoder_diff编码得到y模态细节语义特征，y'_diff为原图y与y模态条件C_y通过细节信息编码器Encoder_diff编码得到y模态细节语义特征；

式(5)中，loss_consistency表示一致性损失，||x_mask-y_mask||₂表示x模态掩膜图与y模态掩膜图之间的距离损失，||x-x_fake||₂表示原图x与生成图x_fake之间的距离损失，||y-y_fake||₂表示原图y与生成图y_fake之间的距离损失，||x_dic-y_dic||₂表示x模态细节特点图与y模态细节特点图的距离损失，w₄₁是几何信息编码器Encoder_same、解码器Decoder之间的训练路径的损失权重，w₄₂是几何信息编码器Encoder_same、细节信息编码器Encoder_diff、解码器Decoder之间的训练路径的损失权重，w₄₃是细节信息编码器Encoder_diff、解码器Decoder之间的训练路径的损失权重；x_mask为x模态掩膜图，y_mask为y模态掩膜图，x_fake为x模态生成图，y_fake为y模态生成图，x_dic为x模态细节特点图，y_dic为y模态细节特点图。

7.一种基于条件生成对抗网络的多域图像转换系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～6中任意一项所述基于条件生成对抗网络的多域图像转换方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～6中任意一项所述基于条件生成对抗网络的多域图像转换方法的计算机程序。

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～6中任意一项所述基于条件生成对抗网络的多域图像转换方法的计算机程序。