CN110197226B

CN110197226B - 一种无监督图像翻译方法及系统

Info

Publication number: CN110197226B
Application number: CN201910461740.8A
Authority: CN
Inventors: 邵桂芳; 刘暾东; 李铁军; 黄梦; 高凤强
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2021-02-09
Anticipated expiration: 2039-05-30
Also published as: CN110197226A

Abstract

本发明公开一种无监督图像翻译方法及系统。以同一对象的两个不同图像集合域为研究对象，基于双胶囊竞争网络和多主体生成对抗，提出了一种无监督图像翻译方法及系统，提高了模型判别和生成能力，用于生成具有更丰富的全局和局部特征图像，并且能够更准确地捕捉图像域的分布以及学习到不同域之间的映射关系。

Description

一种无监督图像翻译方法及系统

技术领域

本发明涉及图像翻译领域，特别是涉及一种无监督图像翻译方法及系统。

背景技术

伴随着信息多媒体技术的出现，以图像作为的主要传播媒介的技术得到了快速发展，那么与图像处理有关的技术就越来越重要。得益于人工智能技术的突破性进展，特别是深度学习技术，计算机视觉技术得到了广泛应用。在诸多计算机视觉的任务中，许多问题都要求合成图像，如纹理合成、图像类比、图像超分辨率、图像分割、风格转换、季节转换和图像理解等。将不同域的特征进行融合的图像翻译技术有希望作为一个统一的框架解决上述问题。例如，可以利用此技术合成不同街道场景的图像以此扩充无人驾驶的场景数据集进行提高无人驾驶的学习能力。为了便于交通管理作业，可以将图像实现从白天到夜晚的相互转化。当然，对于实现语义分割的图像域和标签域的翻译，此技术也体现了强大的优越性。

针对上述问题，近些年出现的方法大可归为三类。第一类是非学习的方法，为了合成图像纹理和渲染不同图像的风格，基于几何图像和图像填缝的方法以及基于案例的方法被提出。第二类是基于深度学习的方法，利用不同形式的深度学习网络去有效解决图像分割、图像重构、景深估计和超分辨率等问题，包括卷积网络(CNN)、循环网络(RNN)、深度循环融合网络(DRFN)等。第三类是生成对抗的方法，有赖于对抗学习在计算机视觉任务中的重要作用，基于生成对抗网络(GAN)的一系列方法已经被提出作为一个统一框架去解决图像翻译问题。例如，Pix2Pix模型用于利用条件信息在有监督的图像翻译问题上起到了一定的效果，但是这个方法需要相应的标签数据来构成成对数据去训练模型，而且解决的场景任务也是有限的。那么针对于非成对数据的无监督图像翻译问题就越来越重要。所以，DualGAN模型、DiscoGAN模型以及循环对抗网络CycleGAN模型就被相继提出解决非成对数据的问题。

虽然对于无监督图像翻译的相关研究取得了很好的效果，但还存在了一些问题。例如，即便是比较强有力的CycleGAN模型在处理不同集合域之间的映射准确性，以及在捕捉几何结构特征和全局特征时翻译图像的真实性方面仍然不足。

发明内容

本发明的目的是提供一种无监督图像翻译方法及系统，基于双胶囊竞争网络和多主体生成对抗，能够提高模型判别和生成能力，用于生成具有更丰富的全局和局部特征图像，并且能够更准确地捕捉图像域的分布以及学习到不同域之间的映射关系。

为实现上述目的，本发明提供了如下方案：

一种无监督图像翻译方法，包括：

将原始图像数据分为源域数据和目标域数据；

设计生成对抗网络，将所述生成对抗网络的权重和超参数初始化；所述生成对抗网络包括：生成器G_t2s、判别器D_{s2t_1}、判别器D_{s2t_2}、生成器G_s2t、判别器D_{t2s_1}和判别器D_{t2s_2}；

进行所述源域数据到所述目标域数据的第一转换任务；

计算所述第一转换任务中的第一判别损失；

计算所述第一转换任务中的第一生成损失；

对所述第一转换任务中生成的图像进行判别；

计算所述第一转换任务中生成的图像的第一判别损失；

计算所述第一转换任务中的第一重构误差；

进行所述目标域数据到所述源域数据的第二转换任务；

计算所述第二转换任务中的第二判别损失；

计算所述第二转换任务中的第二生成损失；

对所述第二转换任务中生成的图像进行判别；

计算所述第二转换任务中生成的图像的第二判别损失；

计算所述第二转换任务中的第二重构误差；

根据所述第一判别损失、所述第一生成损失、所述生成的图像的第一判别损失、所述第一重构误差、所述第二判别损失、所述第二生成损失、所述生成的图像的第二判别损失和所述第二重构误差更新所述生成对抗网络的权重；

根据所述更新后的权重进行图像翻译。

可选的，所述进行所述源域数据到所述目标域数据的第一转换任务，具体包括：

进行所述源域数据到所述目标域数据的转换任务，从所述源域数据中按批处理大小取出图像数据X_s分别输入到所述判别器D_{s2t_1}和所述判别器D_{s2t_2}进行判别真假。

可选的，所述计算所述第一转换任务中的第一生成损失，具体包括：

从所述源域数据中按批处理大小取出图像数据X_s再输入到所述生成器G_s2t中，生成源域转换为目标域的图像X_s2t，计算第一生成器损失g_t2s。

可选的，所述对所述第一转换任务中生成的图像进行判别，具体包括：

将生成的所述图像X_s2t分别输入到所述判别器D_{t2s_1}和所述判别器D_{t2s_2}进行判别真假。

可选的，所述计算所述第一转换任务中的第一重构误差，具体包括：

将所述图像X_s2t输入到所述生成器G_t2s中生成图像X_s2t2s，计算源域数据中的所述图像X_s和经过两次不同生成器进行融合特征的生成图像X_s2t2s之间的重构误差L_rec。

可选的，所述进行所述目标域数据到所述源域数据的第二转换任务，具体包括：

进行所述源域数据到所述目标域数据的转换任务，从所述目标域数据中按批处理大小取出图像数据X_t分别输入到所述判别器D_{t2s_1}和判别器D_{t2s_2}进行判别真假。

可选的，所述计算所述第二转换任务中的第二生成损失，具体包括：

从所述目标域数据中按批处理大小取出图像数据X_t再输入到所述生成器G_t2s中，生成目标域转换为源域的图像X_t2s，计算第二生成器损失g_s2t。

可选的，所述对所述第二转换任务中生成的图像进行判别，具体包括：

将生成的所述图像X_t2s分别输入到所述判别器D_{s2t_1}和所述判别器D_{s2t_2}进行判别真假。

可选的，所述计算所述第二转换任务中的第二重构误差，具体包括：

将生成的所述图像X_t2s输入到所述生成器G_s2t中生成图像X_t2s2t，计算原始的目标域图像X_t和经过两次不同生成器进行融合特征的生成图像X_t2s2t之间的重构误差L_rec。

一种无监督图像翻译系统，包括：

原始图像划分模块，用于将原始图像数据分为源域数据和目标域数据；

生成对抗网络初始化模块，用于设计生成对抗网络，将所述生成对抗网络的权重和超参数初始化；所述生成对抗网络包括：生成器G_t2s、判别器D_{s2t_1}、判别器D_{s2t_2}、生成器G_s2t、判别器D_{t2s_1}和判别器D_{t2s_2}；

第一转换模块，用于进行所述源域数据到所述目标域数据的第一转换任务；

第一判别损失计算模块，用于计算所述第一转换任务中的第一判别损失；

第一生成损失计算模块，用于计算所述第一转换任务中的第一生成损失；

第一判别模块，用于对所述第一转换任务中生成的图像进行判别；

生成图像的第一判别损失计算模块，用于计算所述第一转换任务中生成的图像的第一判别损失；

第一重构误差计算模块，用于计算所述第一转换任务中的第一重构误差；

第二转换模块，用于进行所述目标域数据到所述源域数据的第二转换任务；

第二判别损失计算模块，用于计算所述第二转换任务中的第二判别损失；

第二生成损失计算模块，用于计算所述第二转换任务中的第二生成损失；

第二判别模块，用于对所述第二转换任务中生成的图像进行判别；

生成图像的第二判别损失计算模块，用于计算所述第二转换任务中生成的图像的第二判别损失；

第二重构误差计算模块，用于计算所述第二转换任务中的第二重构误差；

权重更新模块，用于根据所述第一判别损失、所述第一生成损失、所述生成的图像的第一判别损失、所述第一重构误差、所述第二判别损失、所述第二生成损失、所述生成的图像的第二判别损失和所述第二重构误差更新所述生成对抗网络的权重；

图像翻译模块，用于根据所述更新后的权重进行图像翻译。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明以同一对象的两个不同图像集合域为研究对象，基于双胶囊竞争网络和多主体生成对抗，提出了一种无监督图像翻译方法，提高了模型判别和生成能力，用于生成具有更丰富的全局和局部特征图像，并且能够更准确地捕捉图像域的分布以及学习到不同域之间的映射关系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1无监督图像翻译方法流程图；

图2为本发明实施例2无监督图像翻译系统结构图；

图3为本发明实施例3无监督图像翻译方法的网络框架图；

图4为在数据集Cityscapes中，成对

翻译不同方法的结果；

图5为在数据集Cityscapes中，对于图4成对

的翻译中第一和第三行细节的结果；

图6为在不同迭代步骤，对于night→day翻译不同方法的生成图像；

图7为在图6中100,000步时各个方法对应的生成图像的具体细节结果；

图8为在数据集sketch2photo中，

翻译不同方法的结果；

图9为在数据集summer2winter Yosemite中，

翻译不同方法的结果；

图10为在数据集Oil2chinese中，

翻译不同方法的结果；

图11为在数据集Ukiyoe2photo中，

翻译不同方法的结果；

图12为在数据集Vangogh2photo中,

翻译不同方法的结果；

图13为输入图像X和不同方法获得的重构图像；

图14为在Day2night数据集中，

翻译的不同方法的结果；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种无监督图像翻译方法及系统，基于双胶囊竞争网络和多主体生成对抗，能够提高模型判别和生成能力用于生成具有更丰富的全局和局部特征图像，并且能够更准确地捕捉图像域的分布以及学习到不同域的之间的映射关系。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

图1为本发明实施例1无监督图像翻译方法流程图。如图1所示，一种无监督图像翻译方法，包括：

步骤101：将原始图像数据分为源域数据和目标域数据。

步骤102：设计生成对抗网络，将生成对抗网络的权重和超参数初始化；生成对抗网络包括：生成器G_t2s、判别器D_{s2t_1}、判别器D_{s2t_2}、生成器G_s2t、判别器D_{t2s_1}和判别器D_{t2s_2}。

步骤103：进行源域数据到目标域数据的第一转换任务，具体包括：

进行源域数据到目标域数据的转换任务，从源域数据中按批处理大小取出图像数据X_s分别输入到判别器D_{s2t_1}和判别器D_{s2t_2}进行判别真假。

步骤104：计算第一转换任务中的第一判别损失，具体的，对于上述判别器D_{s2t_1}和D_{s2t_2}做出源域图像的真假判别进行判别损失d_s2t线性融合计算。

步骤105：计算第一转换任务中的第一生成损失，具体包括：

从源域数据中按批处理大小取出图像数据X_s再输入到生成器G_s2t中，生成源域转换为目标域的图像X_s2t，计算第一生成器损失g_t2s。

步骤106：对第一转换任务中生成的图像进行判别，具体包括：

将生成的图像X_s2t分别输入到判别器D_{t2s_1}和判别器D_{t2s_2}进行判别真假。

步骤107：计算第一转换任务中生成的图像的第一判别损失，具体的，对于上述判别器D_{t2s_1}和D_{t2s_2}做出生成图像的真假判别进行判别损失d_t2s线性融合计算。

步骤108：计算第一转换任务中的第一重构误差，具体包括：

将图像X_s2t输入到生成器G_t2s中生成图像X_s2t2s，计算源域数据中的图像X_s和经过两次不同生成器进行融合特征的生成图像X_s2t2s之间的重构误差L_rec。

步骤109：进行目标域数据到源域数据的第二转换任务，具体包括：

进行源域数据到目标域数据的转换任务，从目标域数据中按批处理大小取出图像数据X_t分别输入到判别器D_{t2s_1}和判别器D_{t2s_2}进行判别真假。

步骤110：计算第二转换任务中的第二判别损失，具体的，对于上述判别器D_{t2s_1}和D_{t2s_2}做出源域图像的真假判别进行判别损失d_t2s线性融合计算。

步骤111：计算第二转换任务中的第二生成损失，具体包括：

从目标域数据中按批处理大小取出图像数据X_t再输入到生成器G_t2s中，生成目标域转换为源域的图像X_t2s，计算第二生成器损失g_s2t。

步骤112：对第二转换任务中生成的图像进行判别，具体包括：

将生成的图像X_t2s分别输入到判别器D_{s2t_1}和判别器D_{s2t_2}进行判别真假。

步骤113：计算第二转换任务中生成的图像的第二判别损失，具体的，对于上述判别器D_{s2t_1}和D_{s2t_2}做出生成图像的真假判别进行判别损失d_s2t线性融合计算。

步骤114：计算第二转换任务中的第二重构误差，具体包括：

将生成的图像X_t2s输入到生成器G_s2t中生成图像X_t2s2t，计算原始的目标域图像X_t和经过两次不同生成器进行融合特征的生成图像X_t2s2t之间的重构误差L_rec。

步骤115：根据第一判别损失、第一生成损失、生成的图像的第一判别损失、第一重构误差、第二判别损失、第二生成损失、生成的图像的第二判别损失和第二重构误差更新生成对抗网络的权重。

步骤116：根据所述更新后的权重进行图像翻译。

本发明以同一对象的两个不同图像集合域为研究对象，基于双胶囊竞争网络和多主体生成对抗，提出了一种无监督图像翻译的实现方法，提高模型判别和生成能力用于生成具有更丰富的全局和局部特征图像，并且能够更准确地捕捉图像域的分布以及学习到不同域的之间的映射关系。在源域和目标域相互转化的过程中，每一个子任务(源域转化目标域或者目标域转化源域)的目标是由两个判别器D₁(卷积网络)和D₂(改进的胶囊网络)对于原始的数据和生成器G(残差网络)生成的数据进行判别真假，然后这三个主体在相互竞争的过程中达到纳什均衡点以此来学习目标域的特征。

本发明提出的一种基于双胶囊竞争网络和多主体生成对抗的无监督图像翻译方法的创新性主要体现在3个方面：第一，本发明为了能够在图像翻译时生成更加丰富细节和结构的特征，开发了一种新的生成对抗模型。第二，本发明为了解决无监督的图像翻译问题，首次引入胶囊网络作为多主体生成对抗模型的判别器来提升模型的总体判别生成能力。第三，本发明对胶囊网络中的路由算法进行了优化，经验性的证明了胶囊网络的有效性。

实施例2：

图2为本发明实施例2无监督图像翻译系统结构图。如图2所示，一种无监督图像翻译系统，包括：

原始图像划分模块201，用于将原始图像数据分为源域数据和目标域数据。

生成对抗网络初始化模块202，用于设计生成对抗网络，将生成对抗网络的权重和超参数初始化；生成对抗网络包括：生成器G_t2s、判别器D_{s2t_1}、判别器D_{s2t_2}、生成器G_s2t、判别器D_{t2s_1}和判别器D_{t2s_2}。

第一转换模块203，用于进行源域数据到目标域数据的第一转换任务。

第一判别损失计算模块204，用于计算第一转换任务中的第一判别损失。

第一生成损失计算模块205，用于计算第一转换任务中的第一生成损失。

第一判别模块206，用于对第一转换任务中生成的图像进行判别。

生成图像的第一判别损失计算模块207，用于计算第一转换任务中生成的图像的第一判别损失。

第一重构误差计算模块208，用于计算第一转换任务中的第一重构误差。

第二转换模块209，用于进行目标域数据到源域数据的第二转换任务。

第二判别损失计算模块210，用于计算第二转换任务中的第二判别损失。

第二生成损失计算模块211，用于计算第二转换任务中的第二生成损失。

第二判别模块212，用于对第二转换任务中生成的图像进行判别。

生成图像的第二判别损失计算模块213，用于计算第二转换任务中生成的图像的第二判别损失。

第二重构误差计算模块214，用于计算第二转换任务中的第二重构误差。

权重更新模块215，用于根据第一判别损失、第一生成损失、生成的图像的第一判别损失、第一重构误差、第二判别损失、第二生成损失、生成的图像的第二判别损失和第二重构误差更新生成对抗网络的权重。

图像翻译模块216，用于根据所述更新后的权重进行图像翻译。

实施例3：

图3为本发明实施例3无监督图像翻译方法的网络框架图。本发明实施例3无监督图像翻译方法包括：

S1：将原始图像数据分为源域数据和目标域数据组成训练数据集和测试数据集。

S2：本框架中所有的子网络权重和超参数初始化，模型建立。

S3：对于源域(Source Domain)到目标域(Target Domain)的转换任务中，从源域中按批处理大小取出图像数据X_s分别输入到判别器D_{s2t_1}(卷积网络)和判别器D_{s2t_2}(改进的胶囊网络)进行判别真假(Real or Fake)。

S4：对于上述判别器D_{s2t_1}和D_{s2t_2}做出源域图像的真假判别进行判别损失d_s2t线性融合计算。

S5：同S3，从源域中按批处理大小取出图像数据X_s再输入到生成器G_s2t(残差网络)中，生成源域转换为目标域的图像X_s2t，并计算生成器损失g_t2s。

S6：将生成的图像X_s2t分别输入到判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)进行判别真假(Real or Fake)。

S7：对于上述判别器D_{t2s_1}和D_{t2s_2}做出生成图像的真假判别进行判别损失d_t2s线性融合计算。

S8：继续将生成的图像X_s2t输入到生成器G_t2s(残差网络)中生成图像X_s2t2s，即源域图像生成流往目标域融合生成特征，又返回源域融合生成特征，从而计算原始的源域图像X_s和经过两次不同生成器进行融合特征的生成图像X_s2t2s之间的重构误差L_rec。

S9：对于目标域(Target Domain)到源域(Source Domain)的转换任务中，从目标域中按批处理大小取出图像数据X_t分别输入到判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)进行判别真假(Real or Fake)。

S10：对于上述判别器D_{t2s_1}和D_{t2s_2}做出源域图像的真假判别进行判别损失d_t2s线性融合计算。

S11：同S9，从目标域域中按批处理大小取出图像数据X_t再输入到生成器G_t2s(残差网络)中，生成目标域转换为源域的图像X_t2s，并计算生成器损失g_s2t。

S12：将生成的图像X_t2s分别输入到判别器D_{s2t_1}(卷积网络)和判别器D_{s2t_2}(改进的胶囊网络)进行判别真假(Real Or Fake)。

S13：对于上述判别器D_{s2t_1}和D_{s2t_2}做出生成图像的真假判别进行判别损失d_s2t线性融合计算。

S14：继续将生成的图像X_t2s输入到生成器G_s2t(残差网络)中生成图像X_t2s2t，即目标域图像生成流往源域融合生成特征，又返回目标域融合生成特征，从而计算原始的目标域图像X_t和经过两次不同生成器进行融合特征的生成图像X_t2s2t之间的重构误差L_rec。

S15：分别将上述的损失g_s2t,g_t2s,d_s2t,d_t2s和重构误差L_rec最小化来依次更新生成器G_t2s(残差网络)、生成器G_s2t(残差网络)、判别器D_{s2t_1}(卷积网络)和判别器D_{s2t_2}(改进的胶囊网络)、判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)的网络权重。

实施例4：

本发明实施例提供了一种基于双胶囊竞争网络和多主体生成对抗的无监督图像翻译方法，本发明的网络结构主要包括生成器G_t2s(残差网络)、判别器D_{s2t_1}(卷积网络)、判别器D_{s2t_2}(改进的胶囊网络)、生成器G_s2t(残差网络)、判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)。所述方法可包括以下步骤：

步骤1：实验数据准备阶段。

本发明使用的数据集包括三个成对数据集和四个非成对数据集，表1所示，将原始图像数据分为源域数据和目标域数据组成训练数据集和测试数据集。

表1数据集，实例数，大小和描述

步骤2：模型建立和参数初始化阶段。

本框架中所有的子网络权重和超参数初始化，模型建立；学习率为0.00002在前100代，后100代的学习率线性衰减。

步骤3：源域(Source Domain)转换目标域(Target Domain)的子任务。

对于源域(Source Domain)到目标域(Target Domain)的转换任务中，从源域中按批处理大小取出图像数据X_s分别输入到判别器D_{s2t_1}(卷积网络)和判别器D_{s2t_2}(改进的胶囊网络)进行判别真假(Real or Fake)。其中，输入图像的大小为256*256*3，判别器D_{s2t_1}(卷积网络)是由步长为2，4*4卷积核大小的三个卷积层和步长为1，4*4卷积核大小的两个卷积层构成。而判别器D_{s2t_2}(改进的胶囊网络)是根据原始的胶囊网络改进而来，先用步长为2，5*5卷积核大小的三个卷积层,依次提取特征子图，再经过步长为1，9*9卷积核大小的一个卷积层输入到初始胶囊层，经过动态路由算法的选择到达最终的16D胶囊层，在此，对动态路由算法进行了改进。

为了避免大值变化覆盖了小值变化，对动态路由算法中的压缩函数进行了改进：c_ij是耦合系数，在动态路由的迭代过程中被确定，它表明低维胶囊i到高维胶囊j的趋势，越高趋势越明显。

是胶囊网络的预测向量。

步骤4：源域转换目标域中源域图像的判别损失计算。

对于上述判别器D_{s2t_1}和D_{s2t_2}做出源域图像的真假判别进行判别损失d_s2t线性融合计算。由于采用多主体生成对抗，即采用胶囊网络作为额外的判别器来提高判别生成能力，则改善后的完整目标函数为：

式中，L_DuCaGAN(G_t2s,D_s2t-1,D_s2t-2,X_s,X_t)表示源域转换目标域任务的损失函数，L_DuCaGAN(G_s2t,D_t2s-1,D_t2s-2,X_t,X_s)表示目标域转换源域任务的损失函数，L_rec(G_t2s,G_s2t)表示两个任务中图像的重构误差，λ_rec超参数表示重构误差在总目标函数中的重要程度，也可理解为一致性损失函数的权重。

对于源域转换目标域子任务，它所依赖的目标函数如下所示：

其中，L_M是胶囊网络特有的边际损失，λ₁和λ₂表示边际损失的权重。

为了避免模型崩溃和训练不稳定，引入边际损失，计算形式如下所示：

v_k＝CapsuleD(x_k) (4)

对于源域转换目标域图像的子任务，由生成器G_t2s判别器D_s2t-1和判别器

，D_s2t-2对于目标域的图像X_t和生成的图像X_s相互竞争达到纳什均衡点，那么所要完成的优化问题：

步骤5：源域转换目标域的生成损失。

从源域中按批处理大小取出图像数据X_s再输入到生成器G_s2t(残差网络)中，生成源域转换为目标域的图像X_s2t，并计算生成器损失g_t2s。生成器G_s2t(残差网络)是由步长为2，3*3卷积核大小用于降采样的二个卷积层，用于训练256*256图像的9个残差快，步长为2，3*3卷积核大小的两个反卷积层和步长为1，7*7卷积核大小的一个卷积层构成。

步骤6：源域转换目标域中生成图像X_s2t的判别。

将生成的图像X_s2t分别输入到判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)进行判别真假(Real or Fake)；

步骤7：源域转换目标域中生成图像的判别损失计算。

对于上述判别器D_{t2s_1}和D_{t2s_2}做出生成图像的真假判别进行判别损失d_t2s线性融合计算；

步骤8：源域转换目标域中图像的循环一致重构计算。

继续将生成的图像X_s2t输入到生成器G_t2s(残差网络)中生成图像X_s2t2s，即源域图像生成流往目标域融合生成特征，又返回源域融合生成特征，从而计算原始的源域图像X_s和经过两次不同生成器进行融合特征的生成图像X_s2t2s之间的重构误差L_rec。

在两个域之间转换时为了保证生成器可以合成真实图像，不仅要优化对抗损失，表征重构误差的循环一致损失也需要同时优化，如下所示：

步骤9：目标域(Target Domain)转换源域(Source Domain)的子任务。

对于目标域(Target Domain)到源域(Source Domain)的转换任务中，从目标域中按批处理大小取出图像数据X_t分别输入到判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)进行判别真假(Real or Fake)。此处判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)的网络结构与步骤3中描述的一致，对于胶囊网络的该进也是一致的。

步骤10：目标域转换源域中目标域图像的判别损失计算。

对于上述判别器D_{t2s_1}和D_{t2s_2}做出源域图像的真假判别进行判别损失d_t2s线性融合计算。

对于目标域转换源域子任务，它所依赖的目标函数如下所示：

对于目标域转换为源域的子任务，由生成器G_s2t、判别器D_t2s-1和判别器D_t2s-2对于源域的图像X_s和生成的图像X_t相互竞争达到纳什均衡点，那么所要完成的优化问题：

步骤11：目标域转换源域的生成损失。

从目标域中按批处理大小取出图像数据X_t再输入到生成器G_t2s(残差网络)中，生成目标域转换为源域的图像X_t2s，并计算生成器损失g_s2t。生成器G_t2s(残差网络)是和步骤5中描述的结构一致的。

步骤12：目标域转换源域中生成图像X_t2s的判别。

将生成的图像X_t2s分别输入到判别器D_{s2t_1}(卷积网络)和判别器D_{s2t_2}(改进的胶囊网络)进行判别真假(Real Or Fake)。

步骤13：目标域转换源域中生成图像的判别损失计算。

对于上述判别器D_{s2t_1}和D_{s2t_2}做出生成图像的真假判别进行判别损失d_s2t线性融合计算。

步骤14：目标域转换源域中图像的循环一致重构计算。

继续将生成的图像X_t2s输入到生成器G_s2t(残差网络)中生成图像X_t2s2t，即目标域图像生成流往源域融合生成特征，又返回目标域融合生成特征，从而计算原始的目标域图像X_t和经过两次不同生成器进行融合特征的生成图像X_t2s2t之间的重构误差L_rec。

在等式3和8中参数λ₁和λ₂分别设置为0,0.5和1，经过不同的实验比较获得了合适的值。在等式5中，基于边际损失的计算，λ被设置为0.5。λ_rec被设置合适的值去避免大值的剧烈变化。参数值如表2所示：

表2参数值

步骤15：权重更新过程。

分别将上述的损失g_s2t,g_t2s,d_s2t,d_t2s和重构误差L_rec最小化来依次更新生成器G_t2s(残差网络)、生成器G_s2t(残差网络)、判别器D_{s2t_1}(卷积网络)和判别器D_{s2t_2}(改进的胶囊网络)、判别器D_{t2s_1}(卷积网络)和判别器D_{t2s_2}(改进的胶囊网络)的网络权重。

实施例5：

为了验证本发明无监督图像翻译方法的有效性，将本发明的方法与现有的DCGAN，Pix2Pix和CycleGA方法进行了比较。对于不同的数据集任务有不同的评估指标和比较方法。

图像分割评估指标。本实施例中涉及Cityscapes数据集的语义标签任务的评价，包括频权重叠度Frequency weighted IOU，每个像素的准确度Per-pixel acc.，每个类别的准确度Per-class acc.和类别重叠度ClassIOU。

FCN-8s Score可以使用现有的分类器对生成结果进行自动定量测量如果生成图像足够真实，那么在真实图像上训练的分类器也可以对合成的图像进行正确的分类。本实施例使用FCN-8s Score对Cityscapes数据集上的任务进行定量评价。

图4为在数据集Cityscapes中，成对

翻译不同方法的结果。图5为在数据集Cityscapes中，对于图4成对

的翻译中第一和第三行细节的结果。

实验结果如图4和5以及表3和4所示。可以看出，在Cityscapes数据集的任务上，本发明的方法不仅学习到了目标域的特征和保持了源域的结构特征，而且生成的图像具有更加合理和准确的细节信息。这主要依赖于引入的胶囊网络的强大学习能力。

图6为在不同迭代步骤，对于night→day翻译不同方法的生成图像；图7为在图6中100,000步时各个方法对应的生成图像的具体细节结果；图8为在数据集sketch2photo中，

翻译不同方法的结果；图9为在数据集summer2winter Yosemite中，

翻译不同方法的结果；图10为在数据集Oil2chinese中，

翻译不同方法的结果；图11为在数据集Ukiyoe2photo中，

翻译不同方法的结果；图12为在数据集Vangogh2photo中,

翻译不同方法的结果；图13为输入图像X和不同方法获得的重构图像；图14为在Day2night数据集中，day→night翻译的不同方法的结果。

对于Day2night数据集的转换任务，如图6、图7和图14所示，本发明的方法能够生成更靠近目标域的图像分布，关键还可以快速地捕捉到目标场景的亮度和结构等特征。对于Sketch2photo数据集的人脸结构转换任务，如图8所示，本发明学习到了不同域的人脸图像的亮度、颜色特征和局部结构特征，但和实际的标签相比仍有一定的差距。如图9、10、11和12所示，从不同的场景任务中包括

的转换、

的转换、

的转换、

的转换，本发明的方法不仅体现了图像不同域特征的知识迁移，而且能够逼近目标域的真实分布。除了学习到结构、纹理、颜色和风格特征外，生成的图像也更具真实性。另外，从重构的图像G_t2s(G_s2t(x))来分析本发明方法的有效性，如果模型表现良好，那么重构的图像应该更接近输入的图像。如图13所示，不同数据集任务中随机选择的图像与输入图像相比，可以看出本发明的方法产生的图像更靠近输入的图像。这也从重构的方面说明了本方法的有效性。图14展示了在5,000步、40,000步和100,000步迭代过程中不同方法的判别损失和和生成图像。从上到小依次是：DCGAN,CycleGAN和本发明的方法(DuCaGAN)。

表3在Cityscapes数据集中，labels→photos翻译不同方法的FCN得分。

表4在Cityscapes数据集中，labels→photos翻译的性能。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种无监督图像翻译方法，其特征在于，包括：

将原始图像数据分为源域数据和目标域数据；

进行所述源域数据到所述目标域数据的第一转换任务；

计算所述第一转换任务中的第一判别损失；

计算所述第一转换任务中的第一生成损失；

对所述第一转换任务中生成的图像进行判别；

计算所述第一转换任务中生成的图像的第一判别损失；

计算所述第一转换任务中的第一重构误差；

进行所述目标域数据到所述源域数据的第二转换任务；

计算所述第二转换任务中的第二判别损失；

计算所述第二转换任务中的第二生成损失；

对所述第二转换任务中生成的图像进行判别；

计算所述第二转换任务中生成的图像的第二判别损失；

计算所述第二转换任务中的第二重构误差；

根据所述更新后的权重进行图像翻译；

所述进行所述源域数据到所述目标域数据的第一转换任务，具体包括：

进行所述源域数据到所述目标域数据的转换任务，从所述源域数据中按批处理大小取出图像数据X_s分别输入到所述判别器D_{s2t_1}和所述判别器D_{s2t_2}进行判别真假；

所述计算所述第一转换任务中的第一判别损失，具体包括：

对于所述判别器D_{s2t_1}和所述判别器D_{s2t_2}做出源域图像的真假判别进行判别损失d_s2t线性融合计算；

所述计算所述第一转换任务中的第一生成损失，具体包括：

从所述源域数据中按批处理大小取出图像数据X_s再输入到所述生成器G_s2t中，生成源域转换为目标域的图像X_s2t，计算第一生成器损失g_t2s；

所述对所述第一转换任务中生成的图像进行判别，具体包括：

将生成的所述图像X_s2t分别输入到所述判别器D_{t2s_1}和所述判别器D_{t2s_2}进行判别真假；

所述计算第一转换任务中生成的图像的第一判别损失，具体包括：

对于所述判别器D_{t2s_1}和所述判别器D_{t2s_2}做出生成图像的真假判别进行判别损失d_t2s线性融合计算；

所述计算所述第一转换任务中的第一重构误差，具体包括：

将所述图像X_s2t输入到所述生成器G_t2s中生成图像X_s2t2s，计算源域数据中的所述图像X_s和经过两次不同生成器进行融合特征的生成图像X_s2t2s之间的重构误差L_rec；

所述进行所述目标域数据到所述源域数据的第二转换任务，具体包括：

进行所述源域数据到所述目标域数据的转换任务，从所述目标域数据中按批处理大小取出图像数据X_t分别输入到所述判别器D_{t2s_1}和所述判别器D_{t2s_2}进行判别真假；

所述计算第二转换任务中的第二判别损失，具体包括：

对于所述判别器D_{t2s_1}和所述判别器D_{t2s_2}做出源域图像的真假判别进行判别损失d_t2s线性融合计算；

所述计算所述第二转换任务中的第二生成损失，具体包括：

从所述目标域数据中按批处理大小取出图像数据X_t再输入到所述生成器G_t2s中，生成目标域转换为源域的图像X_t2s，计算第二生成器损失g_s2t；

所述对所述第二转换任务中生成的图像进行判别，具体包括：

将生成的所述图像X_t2s分别输入到所述判别器D_{s2t_1}和所述判别器D_{s2t_2}进行判别真假；

所述计算所述第二转换任务中的第二重构误差，具体包括：

2.一种无监督图像翻译系统，其特征在于，包括：

第一转换模块，用于进行所述源域数据到所述目标域数据的第一转换任务，具体的，用于进行所述源域数据到所述目标域数据的转换任务，从所述源域数据中按批处理大小取出图像数据X_s分别输入到所述判别器D_{s2t_1}和所述判别器D_{s2t_2}进行判别真假；

第一判别损失计算模块，用于计算所述第一转换任务中的第一判别损失，具体的，用于对于所述判别器D_{s2t_1}和所述判别器D_{s2t_2}做出源域图像的真假判别进行判别损失d_s2t线性融合计算；

第一生成损失计算模块，用于计算所述第一转换任务中的第一生成损失，具体的，用于从所述源域数据中按批处理大小取出图像数据X_s再输入到所述生成器G_s2t中，生成源域转换为目标域的图像X_s2t，计算第一生成器损失g_t2s；

第一判别模块，用于对所述第一转换任务中生成的图像进行判别，具体的，用于将生成的所述图像X_s2t分别输入到所述判别器D_{t2s_1}和所述判别器D_{t2s_2}进行判别真假；

生成图像的第一判别损失计算模块，用于计算所述第一转换任务中生成的图像的第一判别损失，具体的，用于对于所述判别器D_{t2s_1}和所述判别器D_{t2s_2}做出生成图像的真假判别进行判别损失d_t2s线性融合计算；

第一重构误差计算模块，用于计算所述第一转换任务中的第一重构误差，具体的，用于将所述图像X_s2t输入到所述生成器G_t2s中生成图像X_s2t2s，计算源域数据中的所述图像X_s和经过两次不同生成器进行融合特征的生成图像X_s2t2s之间的重构误差L_rec；

第二转换模块，用于进行所述目标域数据到所述源域数据的第二转换任务，具体的，用于进行所述源域数据到所述目标域数据的转换任务，从所述目标域数据中按批处理大小取出图像数据X_t分别输入到所述判别器D_{t2s_1}和所述判别器D_{t2s_2}进行判别真假；

第二判别损失计算模块，用于计算所述第二转换任务中的第二判别损失，具体的，用于对于所述判别器D_{t2s_1}和所述判别器D_{t2s_2}做出源域图像的真假判别进行判别损失d_t2s线性融合计算；

第二生成损失计算模块，用于计算所述第二转换任务中的第二生成损失，具体的，用于从所述目标域数据中按批处理大小取出图像数据X_t再输入到所述生成器G_t2s中，生成目标域转换为源域的图像X_t2s，计算第二生成器损失g_s2t；

第二判别模块，用于对所述第二转换任务中生成的图像进行判别，具体的，用于将生成的所述图像X_t2s分别输入到所述判别器D_{s2t_1}和所述判别器D_{s2t_2}进行判别真假；

生成图像的第二判别损失计算模块，用于计算所述第二转换任务中生成的图像的第二判别损失，具体的，用于对于所述判别器D_{s2t_1}和所述判别器D_{s2t_2}做出生成图像的真假判别进行判别损失d_s2t线性融合计算；

第二重构误差计算模块，用于计算所述第二转换任务中的第二重构误差，具体的，用于将生成的所述图像X_t2s输入到所述生成器G_s2t中生成图像X_t2s2t，计算原始的目标域图像X_t和经过两次不同生成器进行融合特征的生成图像X_t2s2t之间的重构误差L_rec；

图像翻译模块，用于根据所述更新后的权重进行图像翻译。