CN113111906B - 一种基于单对图像训练的条件生成对抗网络模型的方法 - Google Patents

一种基于单对图像训练的条件生成对抗网络模型的方法 Download PDF

Info

Publication number
CN113111906B
CN113111906B CN202110209512.9A CN202110209512A CN113111906B CN 113111906 B CN113111906 B CN 113111906B CN 202110209512 A CN202110209512 A CN 202110209512A CN 113111906 B CN113111906 B CN 113111906B
Authority
CN
China
Prior art keywords
image
training
generating
generator
semantic annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110209512.9A
Other languages
English (en)
Other versions
CN113111906A (zh
Inventor
杨昌源
陈培
李如诗
李泽健
孙凌云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110209512.9A priority Critical patent/CN113111906B/zh
Publication of CN113111906A publication Critical patent/CN113111906A/zh
Application granted granted Critical
Publication of CN113111906B publication Critical patent/CN113111906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单对图像训练的条件生成对抗网络模型,包括以下步骤:基于条件生成对抗网络模型架构构建图像翻译模型;选取一张训练图像,并对所述图像进行语义标注获得语义标注图;使用选取的训练图像和标注的语义图,训练图像翻译模型,得到一个基于单对图像训练的条件生成对抗网络模型。首先,本发明在训练图像翻译模型时,仅需要一对训练数据,解决了传统图像翻译模型对大数据的依赖问题,更加适用于实际应用场景,方便用户根据实际需求训练自己的个性化生成模型。其次,通过使用数据增强机制,使得训练好的模型具有更强的鲁棒性;此外,本发明的模型使用混合训练机制,有效解决了多尺度模型中的误差累积问题,提高了生成图像的质量。

Description

一种基于单对图像训练的条件生成对抗网络模型的方法
技术领域
本发明涉及深度学习图像处理技术领域,特别是涉及一种基于单对图像训练的条件生成对抗网络模型的方法。
背景技术
生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型,该模型包含两个模块:生成器模型和判别器模型。生成器和判别器互相博弈学习,生成器学习如何生成和训练样本相同的结果,判别器学习如何判别生成器生成的样本和训练样本。原始GAN理论中,并不要求生成模型和判别模型都是神经网络,只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为生成模型和判别模型。此外,原始的GAN是完全无监督的生成方法,输出结果依赖于输入生成器中的随机噪声。条件生成对抗网络在随机噪声的基础中引入条件变量,指导生成结果。这个条件可以是任意内容,例如一张图片的类别信息,某个对象的属性信息等。
生成对抗网络技术近年来飞速发展,使用生成对抗网络能够得到越来越逼真的图像,在人脸生成、字体生成等领域都有重要的应用。
其中,采用生成对抗网络基于语义标注图作为条件生成真实感图像的技术使用户可以通过寥寥几笔草图就能得到完整丰富的图像。该技术在设计领域有着广泛应用,例如,帮助设计师进行设计探索,基于草图快速预览创意想法。然而,一个强大的生成对抗网络需要使用海量数据进行训练,否则生成对抗网络可能无法良好地拟合训练数据的分布,从而无法生成高质量的输出。然而,构造一个大规模的、具有精细语义标注的数据集不仅费时费力,还难以保证数据集的质量和精度。
公开号为CN 112102303 A的发明公开了一种基于单图像生成对抗网络的语义图像类比方法,其通过编码器、生成器、辅助分类器及鉴别器构成的网络模型实现,能够在给定任意图像和其语义分割图的情况下训练出专属于给定图像的生成模型,该模型能够根据期望语义布局的不同对源图像进行重新组合,生成符合目标语义布局的图像,达到语义图像类比的效果。
公开号为CN 110009028 A的发明公开了供一种显微图像数据增强方法及装置,能够自动标注图像。所述方法包括:生成真实显微图像的虚拟图像;通过风格迁移方法将真实显微图像的风格迁移至所述虚拟图像;根据虚拟图像的计算模拟特性,从虚拟图像的各语义区域中获得对应语义标注,将具有真实显微图像风格的虚拟图像和对应的语义标注结合形成有标注的图像数据,以训练图像分析模型。
发明内容
本发明的目的在于提出了一种基于单对图像训练的条件生成对抗网络模型,可以解决传统图像生成模型对大数据集的依赖问题。
一种基于单对图像训练的条件生成对抗网络模型的方法,包括以下步骤:
(1)基于条件生成对抗网络架构构建图像翻译模型;
(2)选取一张图像作为训练图像,并对所述图像进行语义标注获得语义标注图,得到一对“训练图像-语义标注图”;
(3)使用步骤(2)中获得的一对“训练图像-语义标注图”,训练步骤(1)构建的图像翻译模型,得到一个基于单对图像训练的条件生成对抗网络模型。
在本文中,生成对抗网络的条件为语义标注图,其控制生成图像的语义内容和布局。
所述图像翻译模型的作用是学习训练图像的子块分布及所述训练图像和语义标注图之间的映射关系。
所述图像翻译模型包括一个生成器G和一个判别器D;记
Figure BDA0002950898380000021
为一张训练图像,
Figure BDA0002950898380000022
为所述训练图像对应的语义标注,
Figure BDA0002950898380000023
为随机噪声;其中
Figure BDA0002950898380000024
表示语义标注图中的语义标签集合,W和H分别表示图像的宽和高,
Figure BDA0002950898380000025
表示实数;生成器G以语义标注图和随机噪声成对作为输入生成图像
Figure BDA0002950898380000031
判别器用于区分
Figure BDA0002950898380000032
和x中子块的区别。
所述图像翻译模型采用多尺度结构,所述结构包括N个生成{G0,…,GN-1}和其对应的判别器{D0,…,DN-1};不同尺度的生成器Gn和判别器Dn具有相同的网络结构。
优选地,生成器采用残差网络结构,其中残差网络中的归一化操作采用spatially-adaptive normalization(SPADE);在SPADE中,归一化操作的调节参数γ和β是基于语义标注图计算得到,因此能够有效保留语义标注图中包含的语义信息。
优选地,判别器的结构采用多子块判别器结构;输入一张图像多子块判别器输出该图像的不同层级的特征图;基于特征图的判别方式能够帮助生成器更好地捕捉真实图像和生成图像的图像块分布差别,从而生成细节更加逼真的图像。
为了训练生成器和判别器,将训练图像和其对应的语义标注图进行下采样操作,得到{x0,…,xN-1}和{s0,…,sN-1};所述生成器和判别器从小分辨率的图像开始训练,逐渐增加图像分辨率,使得多个不同尺度的生成器和判别器能够分别学习图像的全局特征和局部特征。
所述步骤(3)中,训练图像翻译模型的使用损失函数为:
Figure BDA0002950898380000033
其中,其中,
Figure BDA0002950898380000034
对抗损失,
Figure BDA0002950898380000035
为重构损失,
Figure BDA0002950898380000036
为特征匹配损失,
Figure BDA0002950898380000037
为感知损失权重,λrec为重构损失权重,λfea为特征匹配损失权重,λvgg为感知损失权重。
所述步骤(3)中,训练图像翻译模型的对抗损失使用WGAN-GP损失,该损失使用梯度惩罚有效改善了对抗训练的稳定性:
Figure BDA0002950898380000038
其中,
Figure BDA0002950898380000041
表示在第n个尺度对噪声和语义标注图(z,s)求期望;Dn是第n个尺度的判别器,所述判别器输出的标量值表示输入图像的真假程度;Gn是第n个尺度的生成器,
Figure BDA0002950898380000042
表示前一个尺度的生成器Gn+1生成的图像的上采样结果,因此
Figure BDA0002950898380000043
为第n个尺度上的生成图像;而
Figure BDA0002950898380000044
则表示在第n个尺度的训练样本上求期望;λGP为梯度惩罚项的权重,
Figure BDA0002950898380000045
为梯度算子,
Figure BDA0002950898380000046
表示Dn在生成图像
Figure BDA0002950898380000047
上的梯度,因此梯度惩罚项使得生成图像上的梯度范数尽可能接近1。
所述步骤(3)中,训练图像翻译模型中使用重构损失鼓励生成器从固定的噪声和语义标注图生成与真实图像完全一致的图像,改善对抗训练的稳定性:
Figure BDA0002950898380000048
其中
Figure BDA0002950898380000049
为第(n+1)尺度生成的重构图像;由于此步骤中生成器不引入噪声输入,因此不再有随机性。在第n尺度中,重构图像
Figure BDA00029508983800000410
的计算方式为:
Figure BDA00029508983800000411
其中,在最小的尺度(N-1)上,生成器根据一个事先给定的噪声z*和s0生成。
所述步骤(3)中,训练图像翻译模型中使用特征匹配损失迫使生成器在不同分辨率上生成自然的特征,可以改善对抗训练的稳定性:
Figure BDA00029508983800000412
其中,T表示判别器Dn是一个有T个非线性输出层的网络,i为第i层的非线性层,
Figure BDA00029508983800000413
为判别器Dn对真实样本的判别结果,
Figure BDA00029508983800000414
为判别器Dn对生成样本的判别结果。
所述步骤(3)中,训练图像翻译模型中使用感知损失让生成器生成的图像和真实图像之间感知相似性尽可能接近:
Figure BDA00029508983800000415
其中,V表示VGG-19网络φ具有V个非线性输出层,φl表示VGG-19网络的第l个非线性层,φl(xn)为真实样本在第l个非线性层的输出,
Figure BDA0002950898380000051
为生成样本在第l个非线性层的输出。
所述步骤(3)中,训练图像翻译模型在训练的每一轮使用图像增强算法改善生成网络的鲁棒性。
由于单对的“图像-语义标注图”的数据对只能提供一种图像的布局。仅仅使用一对图像进行训练会使得生成器对训练数据过拟合,若在测试阶段提供与训练数据不同的语义标注图,生成器则无法应对这种变化,从而生成质量低下的图像。故训练图像翻译模型在训练过程中的每一轮均对训练图像x和语义标注图s进行图像增强,所述图像增强的方式包括翻转和仿射变换;
所述步骤(3)中,训练图像翻译模型在训练过程中采用混合训练机制避免不同尺度模型造成的累积误差,并使训练过程更加稳定。
训练图像翻译模型在训练过程中,第n个尺度的生成器Gn输入的图像可以采用真实训练图像的下采样图像xn+1或者生成器Gn+1输出的生成图像的上采样结果
Figure BDA0002950898380000052
若仅使用
Figure BDA0002950898380000053
训练生成器Gn,则之前尺度的生成器生成的图像误差会累积,造成Gn训练不稳定;若仅使用真实训练图像的下采样图像xn+1训练Gn,则在测试阶段Gn的表现较差。这是由于在测试阶段Gn的输入是
Figure BDA0002950898380000054
而xn+1
Figure BDA0002950898380000055
之间存在分布偏差。
训练图像翻译模型在训练过程中,以概率p控制训练时Gn输入中xn+1或和
Figure BDA0002950898380000056
的概率。在每个尺度训练的开始阶段,设置p值较大,利于Gn所述的收敛,随着训练轮数的增加,p值逐渐减小,让生成器Gn学会处理
Figure BDA0002950898380000057
中的误差,从而使得整个训练过程变得更加稳定。其中值的计算方法为:
Figure BDA0002950898380000058
其中,e代表训练轮数,μ为一个超参数。
一种基于语义图生成高质量图像的方法,采用基于单对图像训练的条件生成对抗网络模型,将语义图生成高质量图像的具体步骤包括:
(4-1)绘制待翻译的语义标注图,所述待翻译的语义标注图中的语义需在步骤(1)中所述训练图像中包含的语义之内;
(4-2)将绘制好的语义标注图输入到所述的基于单对图像训练的条件生成对抗网络模型中,得到生成的图像。所述图像与步骤(2)选择的图像具有相同的视觉特征,且与新绘制的语义标注图保持布局一致。
本发明相比现有技术,其优点在于:
1、本发明在训练图像翻译模型时,仅需要一对训练数据,解决了传统图像翻译模型对大数据的依赖问题,更加适用于实际应用场景,方便用户根据实际需求训练自己的个性化生成模型。
2、本发明的生成模型方法通过使用数据增强机制,使得训练好的模型具有更强的鲁棒性;
3、本发明的模型使用混合训练机制,有效解决了多尺度模型中的误差累积问题,使得本发明方法生成的图像具有较高的质量。
附图说明
图1为本发明实施例基于单对图像训练的条件生成对抗网络模型的流程示意图;
图2(a)为本发明实施例图像翻译模型的训练阶段示意图;
图2(b)为使用本发明实施例生成图像的示意图。
具体实施方式
如图1所示,基于单对图像训练的条件生成对抗网络模型的方法,包括以下步骤:
S1基于条件生成对抗网络架构构建图像翻译模型;
S2选取一张图像作为训练图像,并对所述图像进行语义标注获得语义标注图,得到一对“训练图像-语义标注图”;
S3使用S2中得到的一对“训练图像-语义标注图”,训练S1构建的图像翻译模型,生成基于单对图像训练的条件生成对抗网络模型。
下面以图2(a)所示的风景图片为例,进行说明:
进行步骤S1,构建图像翻译模型,图像翻译模型采用条件生成对抗网络模型。图像翻译模型包括一个生成器G和一个判别器D,图像翻译模型的作用是学习训练图像子块分布以及训练图像和语义标注图之间的映射关系。
Figure BDA0002950898380000071
为一张训练图像,
Figure BDA0002950898380000072
为所述训练图像对应的语义标注图,
Figure BDA0002950898380000073
为随机噪声,用于为模型引入随机性;其中
Figure BDA0002950898380000074
表示语义标注图中的语义标签集合,W和H分别表示图像的宽和高,
Figure BDA0002950898380000075
表示实数;生成器G以语义标注图和随机噪声成对作为输入生成图像
Figure BDA0002950898380000076
判别器用于区分
Figure BDA0002950898380000077
和x中子块的区别。
图像翻译模型采用多尺度结构,结构包含N个生成器{G0,…,GN-1}和其对应的判别器{D0,…,DN-1};不同尺度的生成器Gn和判别器Dn具有相同的网络结构。
生成器采用残差网络结构,其中残差网络中的归一化操作采用spatially-adaptive normalization(SPADE);在SPADE中,在SPADE中,归一化操作的调节参数γ和β是基于语义标注图计算得到,因此能够有效保留语义标注图中包含的语义信息。
判别器的结构采用多子块判别器结构;输入一张图像多子块判别器输出该图像多个尺度的特征图;基于特征图的判别方式能够帮助生成器更好地捕捉真实图像和生成图像的图像块分布差别,从而生成细节更加逼真的图像。
进行步骤S2,对图像进行语义标注的具体步骤包括:
S2-1任意选取一张图像作为训练图像;
S2-2对训练图像进行语义标注,在语义标注时可以使用PhotoShop等图像处理软件进行人工标注,或者使用现有的图像语义分割模型,例如DeepLabV3等进行自动化地图像分割,获得训练图像对应的语义标注图,此步骤得到的语义标注图为RGB图像格式;
S2-3将所述RGB格式的语义标注图处理成单通道的灰度图格式;
S2-4将所述单通道的灰度图格式的语义标注图处理成独热向量格式。
进行步骤S3,为了训练生成器和判别器,将训练图像和其对应的语义标注图进行下采样操作,得到{x0,…,xB-1}和{s0,…,sN-1};生成器和判别器从小分辨率的图像开始训练,逐渐增加图像分辨率,使得多个不同尺度的生成器和判别器能够分别学习图像的全局特征和局部特征。
训练图像翻译模型的对抗损失使用WGAN-GP损失,该损失使用梯度惩罚有效改善了对抗训练的稳定性。
Figure BDA0002950898380000081
其中,
Figure BDA0002950898380000082
表示在第n个尺度对噪声和语义标注图(z,s)求期望;Dn是第n个尺度的判别器,所述判别器输出的标量值表示输入图像的真假程度;Gn是第n个尺度的生成器,
Figure BDA0002950898380000083
表示前一个尺度的生成器Gn+1生成的图像的上采样结果,因此
Figure BDA0002950898380000084
为第n个尺度上的生成图像;而
Figure BDA0002950898380000085
则表示在第n个尺度的训练样本上求期望;λGP为梯度惩罚项的权重,
Figure BDA0002950898380000086
为梯度算子,
Figure BDA0002950898380000087
表示Dn在生成图像
Figure BDA0002950898380000088
上的梯度,因此梯度惩罚项使得生成图像上的梯度范数尽可能接近1。
训练图像翻译模型中使用重构损失鼓励生成器从固定的噪声和语义标注图生成与真实图像完全一致的图像,改善对抗训练的稳定性。
Figure BDA0002950898380000089
其中,
Figure BDA00029508983800000810
为重构损失,
Figure BDA00029508983800000811
为第(n+1)尺度生成的重构图像;由于此步骤中生成器不引入噪声输入,因此不再有随机性。在第n尺度中,重构图像
Figure BDA00029508983800000812
的计算方式为:
Figure BDA00029508983800000813
其中,在最小的尺度(N-1)上,生成器根据一个事先给定的噪声z*和s0生成。
训练图像翻译模型中使用特征匹配损失迫使生成器在不同分辨率上生成自然的特征,可以改善对抗训练的稳定性。假设判别器Dn是一个有T个非线性输出层的网络,那么特征匹配损失
Figure BDA0002950898380000091
鼓励在第i层的非线性层上,真实样本的输出
Figure BDA0002950898380000092
和生成样本的
Figure BDA0002950898380000093
更加接近,
Figure BDA0002950898380000094
训练图像翻译模型中使用感知损失让生成器生成的图像和真实图像之间感知相似性尽可能接近。给定VGG-19网络φ具有V个非线性输出层,感知损失
Figure BDA0002950898380000095
鼓励真实样本在第l个非线性层的输出φl(xn)与生成样本的输出
Figure BDA0002950898380000096
更加接近,
Figure BDA0002950898380000097
训练图像翻译模型使用的损失函数为
Figure BDA0002950898380000098
其中,λrec为重构损失权重,λfea为特征匹配损失权重,λvgg为感知损失权重,设置λrec=1,λfea=10,λvgg=10。
训练图像翻译模型在训练的每一轮使用图像增强算法改善生成网络的鲁棒性。
由于单对的“图像-语义标注图”数据对只能提供一种图像的布局。仅仅使用一对图像进行训练会使得生成器对训练数据过拟合,若在测试阶段提供与训练数据不同的语义标注图,生成器则无法应对这种变化,从而生成质量低下的图像。故在训练的每一轮都对训练图像x和语义标注图s进行图像增强。具体的增强方式包括翻转和仿射变换。
训练图像翻译模型在训练过程中采用混合训练机制避免不同尺度模型造成的累积误差,并使训练过程更加稳定。
在训练时,第n个尺度的生成器Gn根据输入的图像生成对应输出,其中输入的图像可以为训练图像的下采样图像xn+1或者生成器Gn+1输出的生成图像的上采样结果
Figure BDA0002950898380000099
训练图像翻译模型在训练过程中,以概率p控制训练时Gn输入xn+1
Figure BDA0002950898380000101
的概率。在每个尺度训练的开始阶段,设置p值较大,利于Gn所述训练图像翻译模型的收敛,随着训练次数的增加,p值逐渐减小,让生成器Gn学会处理
Figure BDA0002950898380000102
中的误差,从而使得整个训练过程变得更加稳定。本实例中,p值的计算方法为:
Figure BDA0002950898380000103
其中e代表训练轮数,μ是一个超参数,设置μ=64。
基于语义图生成高质量图像的方法,采用基于单对图像训练的条件生成对抗网络模型,进行步骤S4,如图2(b)所示,将语义图生成高质量图像的具体步骤包括:
S4-1绘制待翻译的语义标注图,所述待翻译的语义标注图中的语义需在S1中所述训练图像中包含的语义之内;
S4-2将绘制好的语义标注图输入到训练好的图像翻译模型中,得到生成的图像,该图像与步骤S2选择的图像具有相同的视觉特征,且与新绘制的语义标注图保持布局一致。

Claims (7)

1.一种基于单对图像训练的条件生成对抗网络模型的方法,其特征在于,包括以下步骤:
(1)基于条件生成对抗网络架构构建图像翻译模型,包括:
生成器G和判别器D;记
Figure FDA0003539439970000011
为一张训练图像,
Figure FDA0003539439970000012
为所述训练图像对应的语义标注图,
Figure FDA0003539439970000013
为随机噪声;其中
Figure FDA0003539439970000014
表示语义标注图中的语义标签集合,W和H分别表示图像的宽和高,
Figure FDA0003539439970000015
表示实数;生成器G采用残差网络结构,以语义标注图和随机噪声成对作为输入生成图像
Figure FDA0003539439970000016
判别器采用多子块判别器结构,用于区分
Figure FDA0003539439970000017
和x中子块的区别;所述图像翻译模型采用多尺度结构,所述结构包括N个生成器{G0,…,GN-1}和其对应的判别器{D0,…,DN-1};不同尺度的生成器Gn和判别器Dn具有相同的网络结构;
(2)选取一张图像作为训练图像,并对所述图像进行语义标注获得语义标注图,得到一对“训练图像-语义标注图”;
(3)使用步骤(2)中获得的一对“训练图像-语义标注图”,训练步骤(1)构建的图像翻译模型,在每一轮训练过程中均对训练图像和语义标注图进行相同的图像翻转和仿射变换操作;训练时采用混合训练机制,即第n个尺度的生成器Gn输入的图像,采用训练图像的下采样图像xn+1或者生成器Gn+1输出的生成图像的上采样结果
Figure FDA0003539439970000018
以概率p控制训练Gn时,输入xn+1
Figure FDA0003539439970000019
的概率,且设p值随着训练次数的增加而减小,p值的计算方法为:
Figure FDA00035394399700000110
其中,e代表训练轮数,μ为一个超参数;
最终,得到一个基于单对图像训练的条件生成对抗网络模型。
2.如权利要求1所述的基于单对图像训练的条件生成对抗网络模型的方法,其特征在于,训练图像翻译模型使用的损失函数为:
Figure FDA0003539439970000021
其中,
Figure FDA0003539439970000022
对抗损失,
Figure FDA0003539439970000023
为重构损失,
Figure FDA0003539439970000024
为特征匹配损失,
Figure FDA0003539439970000025
为感知损失权重λrec为重构损失权重,λfea为特征匹配损失权重,λvgg为感知损失权重。
3.如权利要求2所述的基于单对图像训练的条件生成对抗网络模型的方法,其特征在于,训练图像翻译模型的对抗损失使用WGAN-GP损失:
Figure FDA0003539439970000026
其中,
Figure FDA0003539439970000027
表示在第n个尺度对噪声和语义标注图(z,s)求期望;Dn是第n个尺度的判别器,所述判别器输出的标量值表示输入图像的真假程度;Gn是第n个尺度的生成器,
Figure FDA0003539439970000028
表示前一个尺度的生成器Gn+1生成的图像的上采样结果,因此
Figure FDA0003539439970000029
为第n个尺度上的生成图像;而
Figure FDA00035394399700000210
则表示在第n个尺度的训练样本上求期望;λGP为梯度惩罚项的权重,
Figure FDA00035394399700000211
为梯度算子,
Figure FDA00035394399700000212
表示Dn在生成图像
Figure FDA00035394399700000213
上的梯度。
4.如权利要求2所述的基于单对图像训练的条件生成对抗网络模型的方法,其特征在于,训练图像翻译模型中使用重构损失鼓励生成器从固定的噪声和语义标注图生成与真实图像一致的图像:
Figure FDA00035394399700000214
其中,
Figure FDA00035394399700000215
为第(n+1)尺度生成的重构图像,在第n尺度中,重构图像
Figure FDA00035394399700000216
的计算方式为:
Figure FDA0003539439970000031
其中,当n=N-1时,生成器根据一个事先给定的噪声z*和s0生成。
5.如权利要求2所述的基于单对图像训练的条件生成对抗网络模型的方法,其特征在于,训练图像翻译模型中使用特征匹配损失迫使生成器在不同分辨率上生成自然的特征:
Figure FDA0003539439970000032
其中,T表示判别器Dn是一个有T个非线性输出层的网络,i为第i层的非线性层,
Figure FDA0003539439970000033
为判别器Dn对真实样本的判别结果,
Figure FDA0003539439970000034
为判别器Dn对生成样本的判别结果。
6.如权利要求2所述的基于单对图像训练的条件生成对抗网络模型的方法,其特征在于,训练图像翻译模型中使用感知损失让生成器生成的图像和真实图像之间的感知相似性接近:
Figure FDA0003539439970000035
其中,V表示VGG-19网络φ具有V个非线性输出层,φl表示VGG-19网络的第l个非线性层,φl(xn)为真实样本在第l个非线性层的输出,
Figure FDA0003539439970000036
为生成样本在第l个非线性层的输出。
7.一种基于语义图生成高质量图像的方法,其特征在于,采用如权利要求1~6任一权利要求的基于单对图像训练的条件生成对抗网络模型,将语义图生成高质量图像的具体步骤包括:
(4-1)绘制待翻译的语义标注图,所述待翻译的语义标注图中的语义需在步骤(1)中所述训练图像中包含的语义之内;
(4-2)将绘制好的语义标注图输入到所述的基于单对图像训练的条件生成对抗网络模型中,得到生成的图像。
CN202110209512.9A 2021-02-24 2021-02-24 一种基于单对图像训练的条件生成对抗网络模型的方法 Active CN113111906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110209512.9A CN113111906B (zh) 2021-02-24 2021-02-24 一种基于单对图像训练的条件生成对抗网络模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110209512.9A CN113111906B (zh) 2021-02-24 2021-02-24 一种基于单对图像训练的条件生成对抗网络模型的方法

Publications (2)

Publication Number Publication Date
CN113111906A CN113111906A (zh) 2021-07-13
CN113111906B true CN113111906B (zh) 2022-07-12

Family

ID=76709519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110209512.9A Active CN113111906B (zh) 2021-02-24 2021-02-24 一种基于单对图像训练的条件生成对抗网络模型的方法

Country Status (1)

Country Link
CN (1) CN113111906B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989405B (zh) * 2021-12-27 2022-04-08 浙江大学 一种基于小样本持续学习的图像生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754366A (zh) * 2018-12-27 2019-05-14 重庆邮电大学 一种基于二叉树的图像的拼接方法
CN109785258A (zh) * 2019-01-10 2019-05-21 华南理工大学 一种基于多判别器生成对抗网络的人脸图像修复方法
CN109849576A (zh) * 2019-02-28 2019-06-07 浙江大学 一种参考灰度图辅助绘画的方法
US10614207B1 (en) * 2019-07-09 2020-04-07 Capital One Services, Llc Generating captcha images using variations of the same object
CN111161216A (zh) * 2019-12-09 2020-05-15 杭州脉流科技有限公司 基于深度学习的血管内超声图像处理方法、装置、设备和存储介质
CN112270651A (zh) * 2020-10-15 2021-01-26 西安工程大学 一种基于多尺度判别生成对抗网络的图像修复方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643320B2 (en) * 2017-11-15 2020-05-05 Toyota Research Institute, Inc. Adversarial learning of photorealistic post-processing of simulation with privileged information
CN111199522B (zh) * 2019-12-24 2024-02-09 芽米科技(广州)有限公司 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN111429340A (zh) * 2020-03-25 2020-07-17 山东大学 一种基于自注意力机制的循环图像翻译方法
CN111861870B (zh) * 2020-07-16 2022-03-15 南通大学 一种面向图像翻译的端到端的并行生成器网络构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754366A (zh) * 2018-12-27 2019-05-14 重庆邮电大学 一种基于二叉树的图像的拼接方法
CN109785258A (zh) * 2019-01-10 2019-05-21 华南理工大学 一种基于多判别器生成对抗网络的人脸图像修复方法
CN109849576A (zh) * 2019-02-28 2019-06-07 浙江大学 一种参考灰度图辅助绘画的方法
US10614207B1 (en) * 2019-07-09 2020-04-07 Capital One Services, Llc Generating captcha images using variations of the same object
CN111161216A (zh) * 2019-12-09 2020-05-15 杭州脉流科技有限公司 基于深度学习的血管内超声图像处理方法、装置、设备和存储介质
CN112270651A (zh) * 2020-10-15 2021-01-26 西安工程大学 一种基于多尺度判别生成对抗网络的图像修复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs;Ting-Chun Wang et al.;《ArXiv》;20180831;正文第1-10页 *
Ting-Chun Wang et al..High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs.《ArXiv》.2018, *

Also Published As

Publication number Publication date
CN113111906A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN113240580B (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN111242841B (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN109598279A (zh) 基于自编码对抗生成网络的零样本学习方法
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN114581356B (zh) 基于风格迁移数据增广的图像增强模型泛化方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN109447897B (zh) 一种真实场景图像合成方法及系统
CN116704079B (zh) 图像生成方法、装置、设备及存储介质
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN114783034A (zh) 基于局部敏感特征与全局特征融合的人脸表情识别方法
CN113256494A (zh) 一种文本图像超分辨率方法
CN113140023A (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN113111906B (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
CN114943646A (zh) 基于纹理导向的梯度权重损失和注意力机制超分辨方法
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN115661340B (zh) 一种基于源信息融合的三维点云上采样方法与系统
CN114723733A (zh) 一种基于公理解释的类激活映射方法及装置
CN114298979A (zh) 一种局灶性病变征象描述指导的肝核磁影像序列生成方法
CN118037898B (zh) 一种基于图像引导视频编辑的文本生成视频方法
CN113763282B (zh) 一种车牌图像的模糊图像生成方法
CN111476702B (zh) 基于非线性混合核特征映射的图像隐写检测方法及系统
CN117392284B (zh) 自适应条件增强的文本图像生成方法、系统、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant