CN110197226B - 一种无监督图像翻译方法及系统 - Google Patents
一种无监督图像翻译方法及系统 Download PDFInfo
- Publication number
- CN110197226B CN110197226B CN201910461740.8A CN201910461740A CN110197226B CN 110197226 B CN110197226 B CN 110197226B CN 201910461740 A CN201910461740 A CN 201910461740A CN 110197226 B CN110197226 B CN 110197226B
- Authority
- CN
- China
- Prior art keywords
- image
- loss
- discriminator
- calculating
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Abstract
本发明公开一种无监督图像翻译方法及系统。以同一对象的两个不同图像集合域为研究对象,基于双胶囊竞争网络和多主体生成对抗,提出了一种无监督图像翻译方法及系统,提高了模型判别和生成能力,用于生成具有更丰富的全局和局部特征图像,并且能够更准确地捕捉图像域的分布以及学习到不同域之间的映射关系。
Description
技术领域
本发明涉及图像翻译领域,特别是涉及一种无监督图像翻译方法及系统。
背景技术
伴随着信息多媒体技术的出现,以图像作为的主要传播媒介的技术得到了快速发展,那么与图像处理有关的技术就越来越重要。得益于人工智能技术的突破性进展,特别是深度学习技术,计算机视觉技术得到了广泛应用。在诸多计算机视觉的任务中,许多问题都要求合成图像,如纹理合成、图像类比、图像超分辨率、图像分割、风格转换、季节转换和图像理解等。将不同域的特征进行融合的图像翻译技术有希望作为一个统一的框架解决上述问题。例如,可以利用此技术合成不同街道场景的图像以此扩充无人驾驶的场景数据集进行提高无人驾驶的学习能力。为了便于交通管理作业,可以将图像实现从白天到夜晚的相互转化。当然,对于实现语义分割的图像域和标签域的翻译,此技术也体现了强大的优越性。
针对上述问题,近些年出现的方法大可归为三类。第一类是非学习的方法,为了合成图像纹理和渲染不同图像的风格,基于几何图像和图像填缝的方法以及基于案例的方法被提出。第二类是基于深度学习的方法,利用不同形式的深度学习网络去有效解决图像分割、图像重构、景深估计和超分辨率等问题,包括卷积网络(CNN)、循环网络(RNN)、深度循环融合网络(DRFN)等。第三类是生成对抗的方法,有赖于对抗学习在计算机视觉任务中的重要作用,基于生成对抗网络(GAN)的一系列方法已经被提出作为一个统一框架去解决图像翻译问题。例如,Pix2Pix模型用于利用条件信息在有监督的图像翻译问题上起到了一定的效果,但是这个方法需要相应的标签数据来构成成对数据去训练模型,而且解决的场景任务也是有限的。那么针对于非成对数据的无监督图像翻译问题就越来越重要。所以,DualGAN模型、DiscoGAN模型以及循环对抗网络CycleGAN模型就被相继提出解决非成对数据的问题。
虽然对于无监督图像翻译的相关研究取得了很好的效果,但还存在了一些问题。例如,即便是比较强有力的CycleGAN模型在处理不同集合域之间的映射准确性,以及在捕捉几何结构特征和全局特征时翻译图像的真实性方面仍然不足。
发明内容
本发明的目的是提供一种无监督图像翻译方法及系统,基于双胶囊竞争网络和多主体生成对抗,能够提高模型判别和生成能力,用于生成具有更丰富的全局和局部特征图像,并且能够更准确地捕捉图像域的分布以及学习到不同域之间的映射关系。
为实现上述目的,本发明提供了如下方案:
一种无监督图像翻译方法,包括:
将原始图像数据分为源域数据和目标域数据;
设计生成对抗网络,将所述生成对抗网络的权重和超参数初始化;所述生成对抗网络包括:生成器Gt2s、判别器Ds2t_1、判别器Ds2t_2、生成器Gs2t、判别器Dt2s_1和判别器Dt2s_2;
进行所述源域数据到所述目标域数据的第一转换任务;
计算所述第一转换任务中的第一判别损失;
计算所述第一转换任务中的第一生成损失;
对所述第一转换任务中生成的图像进行判别;
计算所述第一转换任务中生成的图像的第一判别损失;
计算所述第一转换任务中的第一重构误差;
进行所述目标域数据到所述源域数据的第二转换任务;
计算所述第二转换任务中的第二判别损失;
计算所述第二转换任务中的第二生成损失;
对所述第二转换任务中生成的图像进行判别;
计算所述第二转换任务中生成的图像的第二判别损失;
计算所述第二转换任务中的第二重构误差;
根据所述第一判别损失、所述第一生成损失、所述生成的图像的第一判别损失、所述第一重构误差、所述第二判别损失、所述第二生成损失、所述生成的图像的第二判别损失和所述第二重构误差更新所述生成对抗网络的权重;
根据所述更新后的权重进行图像翻译。
可选的,所述进行所述源域数据到所述目标域数据的第一转换任务,具体包括:
进行所述源域数据到所述目标域数据的转换任务,从所述源域数据中按批处理大小取出图像数据Xs分别输入到所述判别器Ds2t_1和所述判别器Ds2t_2进行判别真假。
可选的,所述计算所述第一转换任务中的第一生成损失,具体包括:
从所述源域数据中按批处理大小取出图像数据Xs再输入到所述生成器Gs2t中,生成源域转换为目标域的图像Xs2t,计算第一生成器损失gt2s。
可选的,所述对所述第一转换任务中生成的图像进行判别,具体包括:
将生成的所述图像Xs2t分别输入到所述判别器Dt2s_1和所述判别器Dt2s_2进行判别真假。
可选的,所述计算所述第一转换任务中的第一重构误差,具体包括:
将所述图像Xs2t输入到所述生成器Gt2s中生成图像Xs2t2s,计算源域数据中的所述图像Xs和经过两次不同生成器进行融合特征的生成图像Xs2t2s之间的重构误差Lrec。
可选的,所述进行所述目标域数据到所述源域数据的第二转换任务,具体包括:
进行所述源域数据到所述目标域数据的转换任务,从所述目标域数据中按批处理大小取出图像数据Xt分别输入到所述判别器Dt2s_1和判别器Dt2s_2进行判别真假。
可选的,所述计算所述第二转换任务中的第二生成损失,具体包括:
从所述目标域数据中按批处理大小取出图像数据Xt再输入到所述生成器Gt2s中,生成目标域转换为源域的图像Xt2s,计算第二生成器损失gs2t。
可选的,所述对所述第二转换任务中生成的图像进行判别,具体包括:
将生成的所述图像Xt2s分别输入到所述判别器Ds2t_1和所述判别器Ds2t_2进行判别真假。
可选的,所述计算所述第二转换任务中的第二重构误差,具体包括:
将生成的所述图像Xt2s输入到所述生成器Gs2t中生成图像Xt2s2t,计算原始的目标域图像Xt和经过两次不同生成器进行融合特征的生成图像Xt2s2t之间的重构误差Lrec。
一种无监督图像翻译系统,包括:
原始图像划分模块,用于将原始图像数据分为源域数据和目标域数据;
生成对抗网络初始化模块,用于设计生成对抗网络,将所述生成对抗网络的权重和超参数初始化;所述生成对抗网络包括:生成器Gt2s、判别器Ds2t_1、判别器Ds2t_2、生成器Gs2t、判别器Dt2s_1和判别器Dt2s_2;
第一转换模块,用于进行所述源域数据到所述目标域数据的第一转换任务;
第一判别损失计算模块,用于计算所述第一转换任务中的第一判别损失;
第一生成损失计算模块,用于计算所述第一转换任务中的第一生成损失;
第一判别模块,用于对所述第一转换任务中生成的图像进行判别;
生成图像的第一判别损失计算模块,用于计算所述第一转换任务中生成的图像的第一判别损失;
第一重构误差计算模块,用于计算所述第一转换任务中的第一重构误差;
第二转换模块,用于进行所述目标域数据到所述源域数据的第二转换任务;
第二判别损失计算模块,用于计算所述第二转换任务中的第二判别损失;
第二生成损失计算模块,用于计算所述第二转换任务中的第二生成损失;
第二判别模块,用于对所述第二转换任务中生成的图像进行判别;
生成图像的第二判别损失计算模块,用于计算所述第二转换任务中生成的图像的第二判别损失;
第二重构误差计算模块,用于计算所述第二转换任务中的第二重构误差;
权重更新模块,用于根据所述第一判别损失、所述第一生成损失、所述生成的图像的第一判别损失、所述第一重构误差、所述第二判别损失、所述第二生成损失、所述生成的图像的第二判别损失和所述第二重构误差更新所述生成对抗网络的权重;
图像翻译模块,用于根据所述更新后的权重进行图像翻译。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明以同一对象的两个不同图像集合域为研究对象,基于双胶囊竞争网络和多主体生成对抗,提出了一种无监督图像翻译方法,提高了模型判别和生成能力,用于生成具有更丰富的全局和局部特征图像,并且能够更准确地捕捉图像域的分布以及学习到不同域之间的映射关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1无监督图像翻译方法流程图;
图2为本发明实施例2无监督图像翻译系统结构图;
图3为本发明实施例3无监督图像翻译方法的网络框架图;
图6为在不同迭代步骤,对于night→day翻译不同方法的生成图像;
图7为在图6中100,000步时各个方法对应的生成图像的具体细节结果;
图13为输入图像X和不同方法获得的重构图像;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种无监督图像翻译方法及系统,基于双胶囊竞争网络和多主体生成对抗,能够提高模型判别和生成能力用于生成具有更丰富的全局和局部特征图像,并且能够更准确地捕捉图像域的分布以及学习到不同域的之间的映射关系。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
图1为本发明实施例1无监督图像翻译方法流程图。如图1所示,一种无监督图像翻译方法,包括:
步骤101:将原始图像数据分为源域数据和目标域数据。
步骤102:设计生成对抗网络,将生成对抗网络的权重和超参数初始化;生成对抗网络包括:生成器Gt2s、判别器Ds2t_1、判别器Ds2t_2、生成器Gs2t、判别器Dt2s_1和判别器Dt2s_2。
步骤103:进行源域数据到目标域数据的第一转换任务,具体包括:
进行源域数据到目标域数据的转换任务,从源域数据中按批处理大小取出图像数据Xs分别输入到判别器Ds2t_1和判别器Ds2t_2进行判别真假。
步骤104:计算第一转换任务中的第一判别损失,具体的,对于上述判别器Ds2t_1和Ds2t_2做出源域图像的真假判别进行判别损失ds2t线性融合计算。
步骤105:计算第一转换任务中的第一生成损失,具体包括:
从源域数据中按批处理大小取出图像数据Xs再输入到生成器Gs2t中,生成源域转换为目标域的图像Xs2t,计算第一生成器损失gt2s。
步骤106:对第一转换任务中生成的图像进行判别,具体包括:
将生成的图像Xs2t分别输入到判别器Dt2s_1和判别器Dt2s_2进行判别真假。
步骤107:计算第一转换任务中生成的图像的第一判别损失,具体的,对于上述判别器Dt2s_1和Dt2s_2做出生成图像的真假判别进行判别损失dt2s线性融合计算。
步骤108:计算第一转换任务中的第一重构误差,具体包括:
将图像Xs2t输入到生成器Gt2s中生成图像Xs2t2s,计算源域数据中的图像Xs和经过两次不同生成器进行融合特征的生成图像Xs2t2s之间的重构误差Lrec。
步骤109:进行目标域数据到源域数据的第二转换任务,具体包括:
进行源域数据到目标域数据的转换任务,从目标域数据中按批处理大小取出图像数据Xt分别输入到判别器Dt2s_1和判别器Dt2s_2进行判别真假。
步骤110:计算第二转换任务中的第二判别损失,具体的,对于上述判别器Dt2s_1和Dt2s_2做出源域图像的真假判别进行判别损失dt2s线性融合计算。
步骤111:计算第二转换任务中的第二生成损失,具体包括:
从目标域数据中按批处理大小取出图像数据Xt再输入到生成器Gt2s中,生成目标域转换为源域的图像Xt2s,计算第二生成器损失gs2t。
步骤112:对第二转换任务中生成的图像进行判别,具体包括:
将生成的图像Xt2s分别输入到判别器Ds2t_1和判别器Ds2t_2进行判别真假。
步骤113:计算第二转换任务中生成的图像的第二判别损失,具体的,对于上述判别器Ds2t_1和Ds2t_2做出生成图像的真假判别进行判别损失ds2t线性融合计算。
步骤114:计算第二转换任务中的第二重构误差,具体包括:
将生成的图像Xt2s输入到生成器Gs2t中生成图像Xt2s2t,计算原始的目标域图像Xt和经过两次不同生成器进行融合特征的生成图像Xt2s2t之间的重构误差Lrec。
步骤115:根据第一判别损失、第一生成损失、生成的图像的第一判别损失、第一重构误差、第二判别损失、第二生成损失、生成的图像的第二判别损失和第二重构误差更新生成对抗网络的权重。
步骤116:根据所述更新后的权重进行图像翻译。
本发明以同一对象的两个不同图像集合域为研究对象,基于双胶囊竞争网络和多主体生成对抗,提出了一种无监督图像翻译的实现方法,提高模型判别和生成能力用于生成具有更丰富的全局和局部特征图像,并且能够更准确地捕捉图像域的分布以及学习到不同域的之间的映射关系。在源域和目标域相互转化的过程中,每一个子任务(源域转化目标域或者目标域转化源域)的目标是由两个判别器D1(卷积网络)和D2(改进的胶囊网络)对于原始的数据和生成器G(残差网络)生成的数据进行判别真假,然后这三个主体在相互竞争的过程中达到纳什均衡点以此来学习目标域的特征。
本发明提出的一种基于双胶囊竞争网络和多主体生成对抗的无监督图像翻译方法的创新性主要体现在3个方面:第一,本发明为了能够在图像翻译时生成更加丰富细节和结构的特征,开发了一种新的生成对抗模型。第二,本发明为了解决无监督的图像翻译问题,首次引入胶囊网络作为多主体生成对抗模型的判别器来提升模型的总体判别生成能力。第三,本发明对胶囊网络中的路由算法进行了优化,经验性的证明了胶囊网络的有效性。
实施例2:
图2为本发明实施例2无监督图像翻译系统结构图。如图2所示,一种无监督图像翻译系统,包括:
原始图像划分模块201,用于将原始图像数据分为源域数据和目标域数据。
生成对抗网络初始化模块202,用于设计生成对抗网络,将生成对抗网络的权重和超参数初始化;生成对抗网络包括:生成器Gt2s、判别器Ds2t_1、判别器Ds2t_2、生成器Gs2t、判别器Dt2s_1和判别器Dt2s_2。
第一转换模块203,用于进行源域数据到目标域数据的第一转换任务。
第一判别损失计算模块204,用于计算第一转换任务中的第一判别损失。
第一生成损失计算模块205,用于计算第一转换任务中的第一生成损失。
第一判别模块206,用于对第一转换任务中生成的图像进行判别。
生成图像的第一判别损失计算模块207,用于计算第一转换任务中生成的图像的第一判别损失。
第一重构误差计算模块208,用于计算第一转换任务中的第一重构误差。
第二转换模块209,用于进行目标域数据到源域数据的第二转换任务。
第二判别损失计算模块210,用于计算第二转换任务中的第二判别损失。
第二生成损失计算模块211,用于计算第二转换任务中的第二生成损失。
第二判别模块212,用于对第二转换任务中生成的图像进行判别。
生成图像的第二判别损失计算模块213,用于计算第二转换任务中生成的图像的第二判别损失。
第二重构误差计算模块214,用于计算第二转换任务中的第二重构误差。
权重更新模块215,用于根据第一判别损失、第一生成损失、生成的图像的第一判别损失、第一重构误差、第二判别损失、第二生成损失、生成的图像的第二判别损失和第二重构误差更新生成对抗网络的权重。
图像翻译模块216,用于根据所述更新后的权重进行图像翻译。
实施例3:
图3为本发明实施例3无监督图像翻译方法的网络框架图。本发明实施例3无监督图像翻译方法包括:
S1:将原始图像数据分为源域数据和目标域数据组成训练数据集和测试数据集。
S2:本框架中所有的子网络权重和超参数初始化,模型建立。
S3:对于源域(Source Domain)到目标域(Target Domain)的转换任务中,从源域中按批处理大小取出图像数据Xs分别输入到判别器Ds2t_1(卷积网络)和判别器Ds2t_2(改进的胶囊网络)进行判别真假(Real or Fake)。
S4:对于上述判别器Ds2t_1和Ds2t_2做出源域图像的真假判别进行判别损失ds2t线性融合计算。
S5:同S3,从源域中按批处理大小取出图像数据Xs再输入到生成器Gs2t(残差网络)中,生成源域转换为目标域的图像Xs2t,并计算生成器损失gt2s。
S6:将生成的图像Xs2t分别输入到判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)进行判别真假(Real or Fake)。
S7:对于上述判别器Dt2s_1和Dt2s_2做出生成图像的真假判别进行判别损失dt2s线性融合计算。
S8:继续将生成的图像Xs2t输入到生成器Gt2s(残差网络)中生成图像Xs2t2s,即源域图像生成流往目标域融合生成特征,又返回源域融合生成特征,从而计算原始的源域图像Xs和经过两次不同生成器进行融合特征的生成图像Xs2t2s之间的重构误差Lrec。
S9:对于目标域(Target Domain)到源域(Source Domain)的转换任务中,从目标域中按批处理大小取出图像数据Xt分别输入到判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)进行判别真假(Real or Fake)。
S10:对于上述判别器Dt2s_1和Dt2s_2做出源域图像的真假判别进行判别损失dt2s线性融合计算。
S11:同S9,从目标域域中按批处理大小取出图像数据Xt再输入到生成器Gt2s(残差网络)中,生成目标域转换为源域的图像Xt2s,并计算生成器损失gs2t。
S12:将生成的图像Xt2s分别输入到判别器Ds2t_1(卷积网络)和判别器Ds2t_2(改进的胶囊网络)进行判别真假(Real Or Fake)。
S13:对于上述判别器Ds2t_1和Ds2t_2做出生成图像的真假判别进行判别损失ds2t线性融合计算。
S14:继续将生成的图像Xt2s输入到生成器Gs2t(残差网络)中生成图像Xt2s2t,即目标域图像生成流往源域融合生成特征,又返回目标域融合生成特征,从而计算原始的目标域图像Xt和经过两次不同生成器进行融合特征的生成图像Xt2s2t之间的重构误差Lrec。
S15:分别将上述的损失gs2t,gt2s,ds2t,dt2s和重构误差Lrec最小化来依次更新生成器Gt2s(残差网络)、生成器Gs2t(残差网络)、判别器Ds2t_1(卷积网络)和判别器Ds2t_2(改进的胶囊网络)、判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)的网络权重。
实施例4:
本发明实施例提供了一种基于双胶囊竞争网络和多主体生成对抗的无监督图像翻译方法,本发明的网络结构主要包括生成器Gt2s(残差网络)、判别器Ds2t_1(卷积网络)、判别器Ds2t_2(改进的胶囊网络)、生成器Gs2t(残差网络)、判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)。所述方法可包括以下步骤:
步骤1:实验数据准备阶段。
本发明使用的数据集包括三个成对数据集和四个非成对数据集,表1所示,将原始图像数据分为源域数据和目标域数据组成训练数据集和测试数据集。
表1数据集,实例数,大小和描述
步骤2:模型建立和参数初始化阶段。
本框架中所有的子网络权重和超参数初始化,模型建立;学习率为0.00002在前100代,后100代的学习率线性衰减。
步骤3:源域(Source Domain)转换目标域(Target Domain)的子任务。
对于源域(Source Domain)到目标域(Target Domain)的转换任务中,从源域中按批处理大小取出图像数据Xs分别输入到判别器Ds2t_1(卷积网络)和判别器Ds2t_2(改进的胶囊网络)进行判别真假(Real or Fake)。其中,输入图像的大小为256*256*3,判别器Ds2t_1(卷积网络)是由步长为2,4*4卷积核大小的三个卷积层和步长为1,4*4卷积核大小的两个卷积层构成。而判别器Ds2t_2(改进的胶囊网络)是根据原始的胶囊网络改进而来,先用步长为2,5*5卷积核大小的三个卷积层,依次提取特征子图,再经过步长为1,9*9卷积核大小的一个卷积层输入到初始胶囊层,经过动态路由算法的选择到达最终的16D胶囊层,在此,对动态路由算法进行了改进。
步骤4:源域转换目标域中源域图像的判别损失计算。
对于上述判别器Ds2t_1和Ds2t_2做出源域图像的真假判别进行判别损失ds2t线性融合计算。由于采用多主体生成对抗,即采用胶囊网络作为额外的判别器来提高判别生成能力,则改善后的完整目标函数为:
式中,LDuCaGAN(Gt2s,Ds2t-1,Ds2t-2,Xs,Xt)表示源域转换目标域任务的损失函数,LDuCaGAN(Gs2t,Dt2s-1,Dt2s-2,Xt,Xs)表示目标域转换源域任务的损失函数,Lrec(Gt2s,Gs2t)表示两个任务中图像的重构误差,λrec超参数表示重构误差在总目标函数中的重要程度,也可理解为一致性损失函数的权重。
对于源域转换目标域子任务,它所依赖的目标函数如下所示:
其中,LM是胶囊网络特有的边际损失,λ1和λ2表示边际损失的权重。
为了避免模型崩溃和训练不稳定,引入边际损失,计算形式如下所示:
vk=CapsuleD(xk) (4)
对于源域转换目标域图像的子任务,由生成器Gt2s判别器Ds2t-1和判别器
,Ds2t-2对于目标域的图像Xt和生成的图像Xs相互竞争达到纳什均衡点,那么所要完成的优化问题:
步骤5:源域转换目标域的生成损失。
从源域中按批处理大小取出图像数据Xs再输入到生成器Gs2t(残差网络)中,生成源域转换为目标域的图像Xs2t,并计算生成器损失gt2s。生成器Gs2t(残差网络)是由步长为2,3*3卷积核大小用于降采样的二个卷积层,用于训练256*256图像的9个残差快,步长为2,3*3卷积核大小的两个反卷积层和步长为1,7*7卷积核大小的一个卷积层构成。
步骤6:源域转换目标域中生成图像Xs2t的判别。
将生成的图像Xs2t分别输入到判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)进行判别真假(Real or Fake);
步骤7:源域转换目标域中生成图像的判别损失计算。
对于上述判别器Dt2s_1和Dt2s_2做出生成图像的真假判别进行判别损失dt2s线性融合计算;
步骤8:源域转换目标域中图像的循环一致重构计算。
继续将生成的图像Xs2t输入到生成器Gt2s(残差网络)中生成图像Xs2t2s,即源域图像生成流往目标域融合生成特征,又返回源域融合生成特征,从而计算原始的源域图像Xs和经过两次不同生成器进行融合特征的生成图像Xs2t2s之间的重构误差Lrec。
在两个域之间转换时为了保证生成器可以合成真实图像,不仅要优化对抗损失,表征重构误差的循环一致损失也需要同时优化,如下所示:
步骤9:目标域(Target Domain)转换源域(Source Domain)的子任务。
对于目标域(Target Domain)到源域(Source Domain)的转换任务中,从目标域中按批处理大小取出图像数据Xt分别输入到判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)进行判别真假(Real or Fake)。此处判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)的网络结构与步骤3中描述的一致,对于胶囊网络的该进也是一致的。
步骤10:目标域转换源域中目标域图像的判别损失计算。
对于上述判别器Dt2s_1和Dt2s_2做出源域图像的真假判别进行判别损失dt2s线性融合计算。
对于目标域转换源域子任务,它所依赖的目标函数如下所示:
其中,LM是胶囊网络特有的边际损失,λ1和λ2表示边际损失的权重。
对于目标域转换为源域的子任务,由生成器Gs2t、判别器Dt2s-1和判别器Dt2s-2对于源域的图像Xs和生成的图像Xt相互竞争达到纳什均衡点,那么所要完成的优化问题:
步骤11:目标域转换源域的生成损失。
从目标域中按批处理大小取出图像数据Xt再输入到生成器Gt2s(残差网络)中,生成目标域转换为源域的图像Xt2s,并计算生成器损失gs2t。生成器Gt2s(残差网络)是和步骤5中描述的结构一致的。
步骤12:目标域转换源域中生成图像Xt2s的判别。
将生成的图像Xt2s分别输入到判别器Ds2t_1(卷积网络)和判别器Ds2t_2(改进的胶囊网络)进行判别真假(Real Or Fake)。
步骤13:目标域转换源域中生成图像的判别损失计算。
对于上述判别器Ds2t_1和Ds2t_2做出生成图像的真假判别进行判别损失ds2t线性融合计算。
步骤14:目标域转换源域中图像的循环一致重构计算。
继续将生成的图像Xt2s输入到生成器Gs2t(残差网络)中生成图像Xt2s2t,即目标域图像生成流往源域融合生成特征,又返回目标域融合生成特征,从而计算原始的目标域图像Xt和经过两次不同生成器进行融合特征的生成图像Xt2s2t之间的重构误差Lrec。
在等式3和8中参数λ1和λ2分别设置为0,0.5和1,经过不同的实验比较获得了合适的值。在等式5中,基于边际损失的计算,λ被设置为0.5。λrec被设置合适的值去避免大值的剧烈变化。参数值如表2所示:
表2参数值
步骤15:权重更新过程。
分别将上述的损失gs2t,gt2s,ds2t,dt2s和重构误差Lrec最小化来依次更新生成器Gt2s(残差网络)、生成器Gs2t(残差网络)、判别器Ds2t_1(卷积网络)和判别器Ds2t_2(改进的胶囊网络)、判别器Dt2s_1(卷积网络)和判别器Dt2s_2(改进的胶囊网络)的网络权重。
实施例5:
为了验证本发明无监督图像翻译方法的有效性,将本发明的方法与现有的DCGAN,Pix2Pix和CycleGA方法进行了比较。对于不同的数据集任务有不同的评估指标和比较方法。
图像分割评估指标。本实施例中涉及Cityscapes数据集的语义标签任务的评价,包括频权重叠度Frequency weighted IOU,每个像素的准确度Per-pixel acc.,每个类别的准确度Per-class acc.和类别重叠度ClassIOU。
FCN-8s Score可以使用现有的分类器对生成结果进行自动定量测量如果生成图像足够真实,那么在真实图像上训练的分类器也可以对合成的图像进行正确的分类。本实施例使用FCN-8s Score对Cityscapes数据集上的任务进行定量评价。
实验结果如图4和5以及表3和4所示。可以看出,在Cityscapes数据集的任务上,本发明的方法不仅学习到了目标域的特征和保持了源域的结构特征,而且生成的图像具有更加合理和准确的细节信息。这主要依赖于引入的胶囊网络的强大学习能力。
图6为在不同迭代步骤,对于night→day翻译不同方法的生成图像;图7为在图6中100,000步时各个方法对应的生成图像的具体细节结果;图8为在数据集sketch2photo中,翻译不同方法的结果;图9为在数据集summer2winter Yosemite中,翻译不同方法的结果;图10为在数据集Oil2chinese中,翻译不同方法的结果;图11为在数据集Ukiyoe2photo中,翻译不同方法的结果;图12为在数据集Vangogh2photo中,翻译不同方法的结果;图13为输入图像X和不同方法获得的重构图像;图14为在Day2night数据集中,day→night翻译的不同方法的结果。
对于Day2night数据集的转换任务,如图6、图7和图14所示,本发明的方法能够生成更靠近目标域的图像分布,关键还可以快速地捕捉到目标场景的亮度和结构等特征。对于Sketch2photo数据集的人脸结构转换任务,如图8所示,本发明学习到了不同域的人脸图像的亮度、颜色特征和局部结构特征,但和实际的标签相比仍有一定的差距。如图9、10、11和12所示,从不同的场景任务中包括的转换、的转换、的转换、的转换,本发明的方法不仅体现了图像不同域特征的知识迁移,而且能够逼近目标域的真实分布。除了学习到结构、纹理、颜色和风格特征外,生成的图像也更具真实性。另外,从重构的图像Gt2s(Gs2t(x))来分析本发明方法的有效性,如果模型表现良好,那么重构的图像应该更接近输入的图像。如图13所示,不同数据集任务中随机选择的图像与输入图像相比,可以看出本发明的方法产生的图像更靠近输入的图像。这也从重构的方面说明了本方法的有效性。图14展示了在5,000步、40,000步和100,000步迭代过程中不同方法的判别损失和和生成图像。从上到小依次是:DCGAN,CycleGAN和本发明的方法(DuCaGAN)。
表3在Cityscapes数据集中,labels→photos翻译不同方法的FCN得分。
表4在Cityscapes数据集中,labels→photos翻译的性能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (2)
1.一种无监督图像翻译方法,其特征在于,包括:
将原始图像数据分为源域数据和目标域数据;
设计生成对抗网络,将所述生成对抗网络的权重和超参数初始化;所述生成对抗网络包括:生成器Gt2s、判别器Ds2t_1、判别器Ds2t_2、生成器Gs2t、判别器Dt2s_1和判别器Dt2s_2;
进行所述源域数据到所述目标域数据的第一转换任务;
计算所述第一转换任务中的第一判别损失;
计算所述第一转换任务中的第一生成损失;
对所述第一转换任务中生成的图像进行判别;
计算所述第一转换任务中生成的图像的第一判别损失;
计算所述第一转换任务中的第一重构误差;
进行所述目标域数据到所述源域数据的第二转换任务;
计算所述第二转换任务中的第二判别损失;
计算所述第二转换任务中的第二生成损失;
对所述第二转换任务中生成的图像进行判别;
计算所述第二转换任务中生成的图像的第二判别损失;
计算所述第二转换任务中的第二重构误差;
根据所述第一判别损失、所述第一生成损失、所述生成的图像的第一判别损失、所述第一重构误差、所述第二判别损失、所述第二生成损失、所述生成的图像的第二判别损失和所述第二重构误差更新所述生成对抗网络的权重;
根据所述更新后的权重进行图像翻译;
所述进行所述源域数据到所述目标域数据的第一转换任务,具体包括:
进行所述源域数据到所述目标域数据的转换任务,从所述源域数据中按批处理大小取出图像数据Xs分别输入到所述判别器Ds2t_1和所述判别器Ds2t_2进行判别真假;
所述计算所述第一转换任务中的第一判别损失,具体包括:
对于所述判别器Ds2t_1和所述判别器Ds2t_2做出源域图像的真假判别进行判别损失ds2t线性融合计算;
所述计算所述第一转换任务中的第一生成损失,具体包括:
从所述源域数据中按批处理大小取出图像数据Xs再输入到所述生成器Gs2t中,生成源域转换为目标域的图像Xs2t,计算第一生成器损失gt2s;
所述对所述第一转换任务中生成的图像进行判别,具体包括:
将生成的所述图像Xs2t分别输入到所述判别器Dt2s_1和所述判别器Dt2s_2进行判别真假;
所述计算第一转换任务中生成的图像的第一判别损失,具体包括:
对于所述判别器Dt2s_1和所述判别器Dt2s_2做出生成图像的真假判别进行判别损失dt2s线性融合计算;
所述计算所述第一转换任务中的第一重构误差,具体包括:
将所述图像Xs2t输入到所述生成器Gt2s中生成图像Xs2t2s,计算源域数据中的所述图像Xs和经过两次不同生成器进行融合特征的生成图像Xs2t2s之间的重构误差Lrec;
所述进行所述目标域数据到所述源域数据的第二转换任务,具体包括:
进行所述源域数据到所述目标域数据的转换任务,从所述目标域数据中按批处理大小取出图像数据Xt分别输入到所述判别器Dt2s_1和所述判别器Dt2s_2进行判别真假;
所述计算第二转换任务中的第二判别损失,具体包括:
对于所述判别器Dt2s_1和所述判别器Dt2s_2做出源域图像的真假判别进行判别损失dt2s线性融合计算;
所述计算所述第二转换任务中的第二生成损失,具体包括:
从所述目标域数据中按批处理大小取出图像数据Xt再输入到所述生成器Gt2s中,生成目标域转换为源域的图像Xt2s,计算第二生成器损失gs2t;
所述对所述第二转换任务中生成的图像进行判别,具体包括:
将生成的所述图像Xt2s分别输入到所述判别器Ds2t_1和所述判别器Ds2t_2进行判别真假;
所述计算所述第二转换任务中的第二重构误差,具体包括:
将生成的所述图像Xt2s输入到所述生成器Gs2t中生成图像Xt2s2t,计算原始的目标域图像Xt和经过两次不同生成器进行融合特征的生成图像Xt2s2t之间的重构误差Lrec。
2.一种无监督图像翻译系统,其特征在于,包括:
原始图像划分模块,用于将原始图像数据分为源域数据和目标域数据;
生成对抗网络初始化模块,用于设计生成对抗网络,将所述生成对抗网络的权重和超参数初始化;所述生成对抗网络包括:生成器Gt2s、判别器Ds2t_1、判别器Ds2t_2、生成器Gs2t、判别器Dt2s_1和判别器Dt2s_2;
第一转换模块,用于进行所述源域数据到所述目标域数据的第一转换任务,具体的,用于进行所述源域数据到所述目标域数据的转换任务,从所述源域数据中按批处理大小取出图像数据Xs分别输入到所述判别器Ds2t_1和所述判别器Ds2t_2进行判别真假;
第一判别损失计算模块,用于计算所述第一转换任务中的第一判别损失,具体的,用于对于所述判别器Ds2t_1和所述判别器Ds2t_2做出源域图像的真假判别进行判别损失ds2t线性融合计算;
第一生成损失计算模块,用于计算所述第一转换任务中的第一生成损失,具体的,用于从所述源域数据中按批处理大小取出图像数据Xs再输入到所述生成器Gs2t中,生成源域转换为目标域的图像Xs2t,计算第一生成器损失gt2s;
第一判别模块,用于对所述第一转换任务中生成的图像进行判别,具体的,用于将生成的所述图像Xs2t分别输入到所述判别器Dt2s_1和所述判别器Dt2s_2进行判别真假;
生成图像的第一判别损失计算模块,用于计算所述第一转换任务中生成的图像的第一判别损失,具体的,用于对于所述判别器Dt2s_1和所述判别器Dt2s_2做出生成图像的真假判别进行判别损失dt2s线性融合计算;
第一重构误差计算模块,用于计算所述第一转换任务中的第一重构误差,具体的,用于将所述图像Xs2t输入到所述生成器Gt2s中生成图像Xs2t2s,计算源域数据中的所述图像Xs和经过两次不同生成器进行融合特征的生成图像Xs2t2s之间的重构误差Lrec;
第二转换模块,用于进行所述目标域数据到所述源域数据的第二转换任务,具体的,用于进行所述源域数据到所述目标域数据的转换任务,从所述目标域数据中按批处理大小取出图像数据Xt分别输入到所述判别器Dt2s_1和所述判别器Dt2s_2进行判别真假;
第二判别损失计算模块,用于计算所述第二转换任务中的第二判别损失,具体的,用于对于所述判别器Dt2s_1和所述判别器Dt2s_2做出源域图像的真假判别进行判别损失dt2s线性融合计算;
第二生成损失计算模块,用于计算所述第二转换任务中的第二生成损失,具体的,用于从所述目标域数据中按批处理大小取出图像数据Xt再输入到所述生成器Gt2s中,生成目标域转换为源域的图像Xt2s,计算第二生成器损失gs2t;
第二判别模块,用于对所述第二转换任务中生成的图像进行判别,具体的,用于将生成的所述图像Xt2s分别输入到所述判别器Ds2t_1和所述判别器Ds2t_2进行判别真假;
生成图像的第二判别损失计算模块,用于计算所述第二转换任务中生成的图像的第二判别损失,具体的,用于对于所述判别器Ds2t_1和所述判别器Ds2t_2做出生成图像的真假判别进行判别损失ds2t线性融合计算;
第二重构误差计算模块,用于计算所述第二转换任务中的第二重构误差,具体的,用于将生成的所述图像Xt2s输入到所述生成器Gs2t中生成图像Xt2s2t,计算原始的目标域图像Xt和经过两次不同生成器进行融合特征的生成图像Xt2s2t之间的重构误差Lrec;
权重更新模块,用于根据所述第一判别损失、所述第一生成损失、所述生成的图像的第一判别损失、所述第一重构误差、所述第二判别损失、所述第二生成损失、所述生成的图像的第二判别损失和所述第二重构误差更新所述生成对抗网络的权重;
图像翻译模块,用于根据所述更新后的权重进行图像翻译。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910461740.8A CN110197226B (zh) | 2019-05-30 | 2019-05-30 | 一种无监督图像翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910461740.8A CN110197226B (zh) | 2019-05-30 | 2019-05-30 | 一种无监督图像翻译方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197226A CN110197226A (zh) | 2019-09-03 |
CN110197226B true CN110197226B (zh) | 2021-02-09 |
Family
ID=67753402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910461740.8A Active CN110197226B (zh) | 2019-05-30 | 2019-05-30 | 一种无监督图像翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197226B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001398B (zh) * | 2020-08-26 | 2024-04-12 | 科大讯飞股份有限公司 | 域适应方法、装置、设备、图像处理方法及存储介质 |
CN112102303B (zh) * | 2020-09-22 | 2022-09-06 | 中国科学技术大学 | 基于单图像生成对抗网络的语义图像类比方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830243A (zh) * | 2018-06-22 | 2018-11-16 | 西安电子科技大学 | 基于胶囊网络的高光谱图像分类方法 |
CN108875935A (zh) * | 2018-06-11 | 2018-11-23 | 兰州理工大学 | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 |
CN109063724A (zh) * | 2018-06-12 | 2018-12-21 | 中国科学院深圳先进技术研究院 | 一种增强型生成式对抗网络以及目标样本识别方法 |
CN109064423A (zh) * | 2018-07-23 | 2018-12-21 | 福建帝视信息科技有限公司 | 一种基于非对称循环生成对抗损失的智能修图方法 |
CN109741247A (zh) * | 2018-12-29 | 2019-05-10 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
CN109753992A (zh) * | 2018-12-10 | 2019-05-14 | 南京师范大学 | 基于条件生成对抗网络的无监督域适应图像分类方法 |
CN109815893A (zh) * | 2019-01-23 | 2019-05-28 | 中山大学 | 基于循环生成对抗网络的彩色人脸图像光照域归一化的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573479A (zh) * | 2018-04-16 | 2018-09-25 | 西安电子科技大学 | 基于对偶生成对抗式网络的人脸图像去模糊和恢复方法 |
-
2019
- 2019-05-30 CN CN201910461740.8A patent/CN110197226B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875935A (zh) * | 2018-06-11 | 2018-11-23 | 兰州理工大学 | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 |
CN109063724A (zh) * | 2018-06-12 | 2018-12-21 | 中国科学院深圳先进技术研究院 | 一种增强型生成式对抗网络以及目标样本识别方法 |
CN108830243A (zh) * | 2018-06-22 | 2018-11-16 | 西安电子科技大学 | 基于胶囊网络的高光谱图像分类方法 |
CN109064423A (zh) * | 2018-07-23 | 2018-12-21 | 福建帝视信息科技有限公司 | 一种基于非对称循环生成对抗损失的智能修图方法 |
CN109753992A (zh) * | 2018-12-10 | 2019-05-14 | 南京师范大学 | 基于条件生成对抗网络的无监督域适应图像分类方法 |
CN109741247A (zh) * | 2018-12-29 | 2019-05-10 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
CN109815893A (zh) * | 2019-01-23 | 2019-05-28 | 中山大学 | 基于循环生成对抗网络的彩色人脸图像光照域归一化的方法 |
Non-Patent Citations (2)
Title |
---|
CBIR system using Capsule Networks and 3D CNN for Alzheimer"s disease diagnosis;K.R. Kruthika et al.;《ELSEVIER》;20181208;全文 * |
不同纹理复杂度图像生成中CycleGAN循环一致损失系数优化选择方法;徐强 等;《计算机科学》;20190131;第46卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197226A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Stackgan++: Realistic image synthesis with stacked generative adversarial networks | |
Wang et al. | SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT | |
CN109410307B (zh) | 一种场景点云语义分割方法 | |
He et al. | Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
CN111460928B (zh) | 一种人体动作识别系统及方法 | |
Martínez-González et al. | Efficient convolutional neural networks for depth-based multi-person pose estimation | |
CN113408455B (zh) | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 | |
CN113221663B (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN112837215B (zh) | 一种基于生成对抗网络的图像形状变换方法 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN112132739A (zh) | 3d重建以及人脸姿态归一化方法、装置、存储介质及设备 | |
CN110197226B (zh) | 一种无监督图像翻译方法及系统 | |
Li et al. | Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation | |
CN112819951A (zh) | 一种基于深度图修复的带遮挡三维人体重建方法 | |
JP2023503732A (ja) | ポイントクラウド補完方法、ネットワーク訓練方法、装置、機器及び記憶媒体 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
Liu et al. | Adapted human pose: monocular 3D human pose estimation with zero real 3D pose data | |
CN116681960A (zh) | 一种基于K8s的中尺度涡旋智能识别方法及系统 | |
CN116977547A (zh) | 一种三维人脸重建方法、装置、电子设备和存储介质 | |
Kumar et al. | A comprehensive review on the advancement of high-dimensional neural networks in quaternionic domain with relevant applications | |
CN115222998A (zh) | 一种图像分类方法 | |
Tang et al. | A multi-task neural network for action recognition with 3d key-points | |
CN114359961A (zh) | 行人属性识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |