CN115147272A - 一种图像生成方法、计算机可读存储介质以及计算设备 - Google Patents

一种图像生成方法、计算机可读存储介质以及计算设备 Download PDF

Info

Publication number
CN115147272A
CN115147272A CN202210478046.9A CN202210478046A CN115147272A CN 115147272 A CN115147272 A CN 115147272A CN 202210478046 A CN202210478046 A CN 202210478046A CN 115147272 A CN115147272 A CN 115147272A
Authority
CN
China
Prior art keywords
generator
sketch
discriminator
picture
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210478046.9A
Other languages
English (en)
Inventor
王其
马云鹏
王磊
倪世松
张权
陈明星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210478046.9A priority Critical patent/CN115147272A/zh
Publication of CN115147272A publication Critical patent/CN115147272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种图像生成方法、计算机可读存储介质以及计算设备,包括:获取低分辨率的草图;将低分辨率的草图输入预先通过对抗生成模型训练好的生成器中,输出由低分辨率的草图生成的高分辨率的完整图片。优点:本发明结合了多种对抗生成模型的优点,不仅确保了输入图像与最终输出图像的特征一致性,还确保了输出图像的多样性,可以由草图生成多种多样的具有高分辨率的完整图片,在训练过程中模型也始终保持稳定,不容易崩溃。

Description

一种图像生成方法、计算机可读存储介质以及计算设备
技术领域
本发明涉及一种图像生成方法、计算机可读存储介质以及计算设备,属于计算机视觉技术领域。
背景技术
图像生成一直是计算机视觉领域的研究重点之一,随着深度学习以及神经网络的长足发展,用于图像生成的生成模型也得到了巨大飞跃。目前有影响力的生成模型比如自回归模型、变分自编码器等虽然在图像生成上都是可行的,但是它们都存在着各种各样的问题,比如自回归模型需要按照像素点生成图像,计算成本过高,不利于处理大型数据;而变分自编码器存在着生成图像模糊的问题。
近年来由Goodfellow提出的对抗生成网络(GAN)得到了极大的关注,GAN网络利用生成器与优化器之间的博弈使得生成的图像与真实图像在分布上越来越相近。通过GAN网络生成的图像虽然比较清晰,但是在网络的训练过程中,直接生成具有高分辨率的图像会使得训练不稳定,容易崩溃。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种图像生成方法、计算机可读存储介质以及计算设备。
为解决上述技术问题,本发明提供一种图像生成方法,包括:
获取低分辨率的草图;
将低分辨率的草图输入预先通过对抗生成模型训练好的生成器中,输出由低分辨率的草图生成的高分辨率的完整图片。
进一步的,所述通过对抗生成模型训练好的生成器,包括:
S1、获取训练集Dtrain以及训练集Dtrain对应的草图数据集Dsketch
构建包括生成器G1、生成器G2、判别器D1和判别器D2的对抗生成网络,其中,所述生成器G1以输入原始草图为触发条件,生成原始草图对应的伪造图片;生成器G2以输入原始草图对应的真实图片为触发条件,生成真实图片对应的伪造草图;判别器D1的输入为伪造图片以及真实图片,用于判断生成器G1生成的伪造图片是否为真;判别器D2的输入为伪造草图以及原始草图,用于判断生成器G2生成的伪造草图是否为真;所述生成器G1包括9个子生成模块g1~g9,分别对应9个由低分辨率到高分辨率的伪造图片;判别器D1包括9个子判别模块d1~d9,分别对应由高分辨率到低分辨率的伪造图片以及真实图片;
S2、固定生成器G1、生成器G2参数不变,利用训练集Dtrain及草图数据集Dsketch训练判别器D1、判别器D2;当判别器D1、判别器D2的损失函数无法减小或在多个训练周期后保持不变的时候,认为判别器D1、判别器D2的训练已经达到收敛;
S3、固定步骤S2中训练好的判别器D1、判别器D2参数不变,利用训练集Dtrain及草图数据集Dsketch训练生成器G1、生成器G2;当生成器G1,G2的损失函数无法减小或在多个训练周期后保持不变的时候,可以认为生成器G1,G2的训练已经达到收敛;
S4、重复步骤S2和S3直至对抗生成网络的整体损失函数达到纳什均衡或近似达到纳什均衡,确定对抗生成网络训练完毕;
S5、移除判别器D1、判别器D2、生成器G2,保留生成器G1为通过对抗生成模型训练好的生成器。
进一步的,每训练一次判别器D1、判别器D2,对应训练4次生成器G1、生成器G2。
进一步的,所述获取训练集Dtrain以及训练集Dtrain对应的草图数据集Dsketch的过程,包括:下载LSUN数据集作为训练数据集Dtrain,并使用PhotoSketch将来自LSUN数据集的图像转换为草图从而构建草图数据集Dsketch、Dtrain以及Dsketch中的图片存在对应关系。
进一步的,所述步骤S2,包括:
在每个训练周期内,将Dtrain中的数据标记为1,Dsketch中的数据标记为0;网络从Dtrain中采样出m张图片{x1,x2,…,xm,m∈N+}并从Dsketch中采样出成对的m张图片{z1,z2,…,zm,m∈N+},xi表示第i张完整的真实图片,zi表示第i张完整的真实图片对应的第i张原始草图,N+表示正整数集合,i=1,2,…,m;
将从Dsketch中采样到的m张原始草图通过生成器G1后得到完整的伪造图片
Figure BDA0003626580670000031
其中
Figure BDA00036265806700000313
表示第i张完整的伪造图片,伪造图片
Figure BDA00036265806700000314
与真实图片xi一同输入判别器D1,判别器D1判断伪造图片是否为真;
真实图片xi进入生成器G2生成m张对应的伪造草图
Figure BDA0003626580670000032
Figure BDA00036265806700000311
为第i张伪造草图,原始草图zi以及伪造草图
Figure BDA00036265806700000312
一同输入判别器D2,判别器D2判断伪造草图是否为真;
根据判别器D1的损失函数LD1以及判别器D2的损失函数LD2是否收敛为依据,完成判别器D1、判别器D2的训练;
判别器D1的损失函数LD1为:
Figure BDA0003626580670000033
其中,λk为第k个判别子模块对应的损失权重参数,
Figure BDA0003626580670000034
Ldk为第k个判别子模块的损失函数:
Figure BDA0003626580670000035
Figure BDA0003626580670000036
其中,
Figure BDA0003626580670000037
以及
Figure BDA0003626580670000038
分别表示来自Dtrain的真实图像数据以及由生成器G1生成的伪造图像数据概率,L(dk,gk)表示dk,gk相关的损失函数,dk(xi)表示xi为真的概率,
Figure BDA0003626580670000039
表示由生成器生成的
Figure BDA00036265806700000315
为真的概率,D代表判别器;
判别器D2的损失函数为LD2
Figure BDA00036265806700000310
Figure BDA0003626580670000041
其中
Figure BDA0003626580670000042
以及
Figure BDA0003626580670000043
分别表示来自Dsketch的真实草图数据以及由生成器G2生成的伪造草图数据概率,L(D2,G2)表示D2,G2相关的损失函数,D2(zi)表示zi为真的概率,
Figure BDA00036265806700000410
表示由生成器生成的
Figure BDA00036265806700000411
为真的概率;
进一步的,所述将从Dsketch中采样到的m张原始草图通过生成器G1后得到完整的伪造图片,包括:
1)所述生成器G1具有9个生成子模块,用于分别生成42、82、162、322、642、1282、2562、5122、10242分辨率的伪造图片,对生成器G1中的生成子模块,从第一个生成子模块g1进行逐通道处理,第一通道上的特征图zi变为
Figure BDA0003626580670000044
其中
Figure BDA0003626580670000045
Figure BDA0003626580670000046
是第1个子生成模块中第i张特征图的特征变量;
2)通过缩放卷积的原始权重w来对特征图进行调制,调制后权重表示为:
w′ijk=si·wijk
式中,w′ijk为调制后权重,wijk为原始权重,si是对应于第i个输入特征图的尺度,j和k代表卷积的输出特征图以及卷积的空间足迹;
3)解调操作将调制后权重变为:
Figure BDA0003626580670000047
式中,w"ijk为解调操作后的权重,是常数项;
4)输入特征图zi通过子生成模块g1后变为输出特征图
Figure BDA0003626580670000048
Figure BDA0003626580670000049
式中,θ为偏置,以此类推可以得到g2~g9所对应的输出特征图;
5)输入图片经过子生成模块g1后,加入采样自高斯分布的噪声b1,进入子生成模块g2,接着通过pixel-shuffle将42分辨率的特征图上采样至82分辨率;
6)以此类推,得到10242分辨率的完整的伪造图片
Figure BDA00036265806700000513
进一步的,所述固定判别器D1、判别器D2参数不变,利用训练集Dtrain及草图数据集Dsketch训练生成器G1、生成器G2,当生成器G1生成的伪造图片被判别器D1判别为真并且生成器G2生成的伪造草图被判别器D2判别为真时,生成器G1、G2训练完毕,包括:
生成器G1的损失函数LG1为:
Figure BDA0003626580670000051
其中,λk为第k个生成子模块对应的损失权重参数,
Figure BDA0003626580670000052
Lgk为第k个生成子模块的损失函数:
Figure BDA00036265806700000515
Figure BDA0003626580670000053
其中
Figure BDA0003626580670000054
以及
Figure BDA0003626580670000055
分别表示来自Dtrain的真实图像数据以及由生成器G1生成的伪造图像数据概率,L(dk,gk)表示dk,gk相关的损失函数,dk(xi)表示xi为真的概率,
Figure BDA0003626580670000056
表示由生成器生成的
Figure BDA00036265806700000514
为真的概率,G表示生成器;
生成器G2的损失函数为LG2
Figure BDA0003626580670000057
Figure BDA0003626580670000058
其中
Figure BDA0003626580670000059
以及
Figure BDA00036265806700000510
分别表示来自Dsketch的真实草图数据以及由生成器G2生成的伪造草图数据概率,L(D2,G2)表示D2,G2相关的损失函数,D2(zi)表示zi为真的概率,
Figure BDA00036265806700000511
表示由生成器生成的
Figure BDA00036265806700000512
为真的概率;
网络的整体损失函数Loss如下:
Figure BDA0003626580670000061
进一步的,所述重复步骤S2和S3直至生成器G1、生成器G2以及判别器D1、判别器D2达到最佳性能,包括:
交替训练判别器D1,判别器D2以及生成器G1,生成器G2,并采用Adam优化器优化,直至达到最佳性能。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
一种计算设备,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
本发明所达到的有益效果:
本发明结合了多种对抗生成模型的优点,不仅确保了输入图像与最终输出图像的特征一致性,还确保了输出图像的多样性,可以由草图生成多种多样的具有高分辨率的完整图片,在训练过程中模型也始终保持稳定,不容易崩溃。
附图说明
图1是本发明的网络模型整体架构图;
图2是本发明的生成器G1架构图;
图3是本发明的生成器G1子生成模块连接图;
图4是本发明的生成器G1-判别器D1连接图;
图5是本发明的判别器D1架构图;
图6是本发明的实际应用图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提出一种图像生成方法,其整体网络架构如图1所示,包括以下步骤:
步骤1:将训练集Dtrain输入StyleGAN-Encoder从而将其投影至隐空间Z中,Z中的潜在变量z通过由8层全连接层组成的映射网络M进行特征解耦以生成中间向量集合W,W中的每个中间向量w通过仿射变换转化为能够代表特征的两个特征变量α和β。
步骤2:如图2所示,假设训练batch=m,则生成器G1的输入图片为来自Dsketch的m张图片,G1的输入为zi,i=1,2,…,m。由于生成器G1具有9个生成子模块,分别对应42~10242分辨率的伪造图片,因此在G1的第一个子模块g1中,将对特征图进行逐通道处理,即将每个通道上的特征图zi变为
Figure BDA0003626580670000071
其中
Figure BDA0003626580670000072
Figure BDA0003626580670000073
是第一个子生成模块中第i张特征图的特征变量,以此类推可以得到子生成模块g2~g9所对应的特征变量。
步骤3:如图2所示为了使得不同分辨率层级的特征图都尽量保持在相同的尺度s下,通过缩放卷积的原始权重w来对特征图进行调制。假设si是对应于第i个输入特征图的尺度,j和k代表卷积的输出特征图以及卷积的空间足迹,则调制后权重w′变为:
w′ijk=si·wijk
解调操作将权调制后权重w′变为:
Figure BDA0003626580670000074
则输入特征图zi通过子生成模块1后变为输出特征图
Figure BDA0003626580670000076
Figure BDA0003626580670000075
θ为偏置,以此类推可以得到g2~g9所对应的输出特征图。
步骤4:如图2所示,输入图片经过子生成模块g1后,加入采样自高斯分布的噪声b1,进入子生成模块2。接着通过pixel-shuffle将42分辨率的特征图上采样至82分辨率。重复步骤4,步骤2,步骤3即可得到10242分辨率的输出图片
Figure BDA0003626580670000081
步骤5:定生成器G1、生成器G2参数不变,利用训练集Dtrain及草图数据集Dsketch训练判别器D1、判别器D2。当判别器D1,D2的损失函数无法减小或在多个训练周期后保持不变的时候,可以认为判别器D1,D2的训练已经达到收敛。此时判别器D1应当能够准确判断出伪造图像是由生成器G1生成的虚假图像,判别器D2应当能够准确判断出伪造草图是由生成器G2生成的虚假草图。如图4所示,每个分辨率层级的子生成模块g1~g9与子判别模块d9~d1分别通过残差连接相连。如图5所示,在判别器D1中,每个子判别模块都将计算相应分辨率层级上的全局交叉熵,因此判别器D1的损失函数为子判别模块d1~d9的损失函数之和。因此判别器D1的损失函数LD1为:
Figure BDA0003626580670000082
其中λk为第k个判别子模块对应的损失权重参数,
Figure BDA0003626580670000083
Ldk为第k个判别子模块的损失函数:
Figure BDA0003626580670000084
Figure BDA0003626580670000085
如图1所示,来自Dtrain的与输入相对应的真实图片xi将通过生成器G2生成对应的伪造草图
Figure BDA0003626580670000087
判别器D2将判别草图输入zi与伪造草图
Figure BDA0003626580670000088
的相似情况,因此判别器D2的损失函数为LD2
Figure BDA0003626580670000086
Figure BDA0003626580670000091
步骤6:固定步骤5中训练好的判别器D1、判别器D2参数不变,利用训练集Dtrain及草图数据集Dsketch训练生成器G1、生成器G2。为了稳定网络的训练,每训练一次判别器D1、D2,就训练4次生成器。当生成器G1,G2的损失函数无法减小或在多个训练周期后保持不变的时候,可以认为生成器G1,G2的训练已经达到收敛。此时生成器G1应当能够稳定生成可以被判别器D1判别为真的清晰伪造图片,生成器G2应当能够稳定生成可以被判别器D2判别为真的清晰伪造草图。
生成器G1的损失函数LG1为:
Figure BDA0003626580670000092
其中,λk为第k个生成子模块对应的损失权重参数,
Figure BDA0003626580670000093
Lgk为第k个生成子模块的损失函数:
Figure BDA0003626580670000094
Figure BDA0003626580670000095
其中
Figure BDA0003626580670000096
以及
Figure BDA0003626580670000097
分别表示来自Dtrain的真实图像数据以及由生成器G1生成的伪造图像数据概率。
生成器G2的损失函数为LG2
Figure BDA0003626580670000098
其中
Figure BDA0003626580670000099
以及
Figure BDA00036265806700000910
分别表示来自Dsketch的真实草图数据以及由生成器G2生成的伪造草图数据概率。
网络的整体损失函数Loss如下:
Figure BDA0003626580670000101
步骤8:交替训练判别器D1,D2以及生成器G1,G2,并采用Adam优化器优化,直至网络的整体损失函数达到纳什均衡或近似达到纳什均衡,认为网络训练完毕。此时生成器G1应当可以依据输入原始草图稳定的生成清晰的对应伪造草图,生成器G2应当可以依据输入的原始草图对应的真实图片稳定的生成清晰的伪造图片。删去判别器D1,D2以及生成器G2,得到训练好的生成器G1,如图6所示,将人为绘制的草图输入生成器G1中,即可输出由草图生成的完整图片。
本发明中的生成器G1采用逐分辨率层级逐步生成输出图片的生成方式,可以由低分辨率图片逐步生成高分辨率图片,确保了训练的稳定性以及最终生成图片的精细度,解决了现有技术中直接生成高分辨率图片导致的训练模型不稳定以及输出图像模糊问题。
本发明中的判别器D1采用逐分辨率层级判别的判别方式,在每个分辨率层级上判别输出图片与真实样本的相似度。本发明加入生成器G2,将G1的输入图片对应的真实图片转换为草图输出,并通过判别器D2来判别G2的草图输出与G1的输入图片的相似度。从而保证生成器G1的输出图片与输入图片特征相似。通过生成器G1与判别器D1的博弈以及生成器G2与判别器D2的博弈,能够生成贴近输入图片特征的输出图片,解决了现有技术中存在的输出图片相比输入图片发生歪曲以及失真问题。
本发明中的生成器G1在生成输出图片的过程中,在每个子生成模块之间加入与分辨率层级相对应的随机噪声,从而在不同分辨率层级上逐步引入随机性,使得最终生成的图片多样化,即同一张输入图片可以生成多种输出图片,解决了现有生成方式中存在的输出图片单一化的问题。
由于不同分辨率的中间特征图对于最终输出图像的贡献不同,因此对于不同分辨率层级的损失计算也将以不同比例纳入到最终的损失中,损失函数更加合理。
通过变更Dtrain,可以实现输出图片的风格转换,即可以由通过控制Dtrain的风格使得草图生成具有不同风格的多样化图片。
网络采用端到端架构,将图像生成,风格迁移,随机生成等整合为一个完整的网络结构,减少了中间步骤可能带来的性能损失。
使用对抗生成模型,能够由草图生成更加真实,风格更加多样化的图片。
相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
相应的本发明还提供一种计算设备,包括,一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种图像生成方法,其特征在于,包括:
获取低分辨率的草图;
将低分辨率的草图输入预先通过对抗生成模型训练好的生成器中,输出由低分辨率的草图生成的高分辨率的完整图片。
2.根据权利要求1所述的图像生成方法,其特征在于,所述通过对抗生成模型训练好的生成器,包括:
S1、获取训练集Dtrain以及训练集Dtrain对应的草图数据集Dsketch
构建包括生成器G1、生成器G2、判别器D1和判别器D2的对抗生成网络,其中,所述生成器G1以输入原始草图为触发条件,生成原始草图对应的伪造图片;生成器G2以输入原始草图对应的真实图片为触发条件,生成真实图片对应的伪造草图;判别器D1的输入为伪造图片以及真实图片,用于判断生成器G1生成的伪造图片是否为真;判别器D2的输入为伪造草图以及原始草图,用于判断生成器G2生成的伪造草图是否为真;所述生成器G1包括9个子生成模块g1~g9,分别对应9个由低分辨率到高分辨率的伪造图片;判别器D1包括9个子判别模块d1~d9,分别对应由高分辨率到低分辨率的伪造图片以及真实图片;
S2、固定生成器G1、生成器G2参数不变,利用训练集Dtrain及草图数据集Dsketch训练判别器D1、判别器D2;当判别器D1、判别器D2的损失函数无法减小或在多个训练周期后保持不变的时候,认为判别器D1、判别器D2的训练已经达到收敛;
S3、固定步骤S2中训练好的判别器D1、判别器D2参数不变,利用训练集Dtrain及草图数据集Dsketch训练生成器G1、生成器G2;当生成器G1,G2的损失函数无法减小或在多个训练周期后保持不变的时候,可以认为生成器G1,G2的训练已经达到收敛;
S4、重复步骤S2和S3直至对抗生成网络的整体损失函数达到纳什均衡或近似达到纳什均衡,确定对抗生成网络训练完毕;
S5、移除判别器D1、判别器D2、生成器G2,保留生成器G1为通过对抗生成模型训练好的生成器。
3.根据权利要求2所述的图像生成方法,其特征在于,每训练一次判别器D1、判别器D2,对应训练4次生成器G1、生成器G2。
4.根据权利要求2所述的图像生成方法,其特征在于,所述获取训练集Dtrain以及训练集Dtrain对应的草图数据集Dsketch的过程,包括:下载LSUN数据集作为训练数据集Dtrain,并使用PhotoSketch将来自LSUN数据集的图像转换为草图从而构建草图数据集Dsketch、Dtrain以及Dsketch中的图片存在对应关系。
5.根据权利要求2所述的图像生成方法,其特征在于,所述步骤S2,包括:
在每个训练周期内,将Dtrain中的数据标记为1,Dsketch中的数据标记为0;网络从Dtrain中采样出m张图片{x1,x2,…,xm,m∈N+}并从Dsketch中采样出成对的m张图片{z1,z2,…,zm,m∈N+},xi表示第i张完整的真实图片,zi表示第i张完整的真实图片对应的第i张原始草图,N+表示正整数集合,i=1,2,…,m;
将从Dsketch中采样到的m张原始草图通过生成器G1后得到完整的伪造图片
Figure RE-FDA0003832353820000021
其中
Figure RE-FDA0003832353820000022
表示第i张完整的伪造图片,伪造图片
Figure RE-FDA0003832353820000023
与真实图片xi一同输入判别器D1,判别器D1判断伪造图片是否为真;
真实图片xi进入生成器G2生成m张对应的伪造草图
Figure RE-FDA0003832353820000024
Figure RE-FDA0003832353820000025
为第i张伪造草图,原始草图zi以及伪造草图
Figure RE-FDA0003832353820000026
一同输入判别器D2,判别器D2判断伪造草图是否为真;
根据判别器D1的损失函数LD1以及判别器D2的损失函数LD2是否收敛为依据,完成判别器D1、判别器D2的训练;
判别器D1的损失函数LD1为:
Figure RE-FDA0003832353820000027
其中,λk为第k个判别子模块对应的损失权重参数,
Figure RE-FDA0003832353820000028
Ldk为第k个判别子模块的损失函数:
Figure RE-FDA0003832353820000031
其中,
Figure RE-FDA0003832353820000032
以及
Figure RE-FDA0003832353820000033
分别表示来自Dtrain的真实图像数据以及由生成器G1生成的伪造图像数据概率,L(dk,gk)表示dk,gk相关的损失函数,dk(xi)表示xi为真的概率,
Figure RE-FDA0003832353820000034
表示由生成器生成的
Figure RE-FDA0003832353820000035
为真的概率,D代表判别器;
判别器D2的损失函数为LD2
Figure RE-FDA0003832353820000036
其中
Figure RE-FDA0003832353820000037
以及
Figure RE-FDA0003832353820000038
分别表示来自Dsketch的真实草图数据以及由生成器G2生成的伪造草图数据概率,L(D2,G2)表示D2,G2相关的损失函数,D2(zi)表示zi为真的概率,
Figure RE-FDA0003832353820000039
表示由生成器生成的
Figure RE-FDA00038323538200000310
为真的概率。
6.根据权利要求2所述的图像生成方法,其特征在于,所述将从Dsketch中采样到的m张原始草图通过生成器G1后得到完整的伪造图片,包括:
1)所述生成器G1具有9个生成子模块,用于分别生成42、82、162、322、642、1282、2562、5122、10242分辨率的伪造图片,对生成器G1中的生成子模块,从第一个生成子模块g1进行逐通道处理,第一通道上的特征图zi变为
Figure RE-FDA00038323538200000311
其中
Figure RE-FDA00038323538200000312
Figure RE-FDA00038323538200000313
是第1个子生成模块中第i张特征图的特征变量;
2)通过缩放卷积的原始权重w来对特征图进行调制,调制后权重表示为:
w′ijk=si·wijk
式中,w′ijk为调制后权重,wijk为原始权重,si是对应于第i个输入特征图的尺度,j和k代表卷积的输出特征图以及卷积的空间足迹;
3)解调操作将调制后权重变为:
Figure RE-FDA0003832353820000041
式中,w"ijk为解调操作后的权重,ε是常数项;
4)输入特征图zi通过子生成模块g1后变为输出特征图
Figure RE-FDA0003832353820000042
Figure RE-FDA0003832353820000043
式中,θ为偏置,以此类推可以得到g2~g9所对应的输出特征图;
5)输入图片经过子生成模块g1后,加入采样自高斯分布的噪声b1,进入子生成模块g2,接着通过pixel-shuffle将42分辨率的特征图上采样至82分辨率;
6)以此类推,得到10242分辨率的完整的伪造图片
Figure RE-FDA0003832353820000044
7.根据权利要求2所述的图像生成方法,其特征在于,所述固定判别器D1、判别器D2参数不变,利用训练集Dtrain及草图数据集Dsketch训练生成器G1、生成器G2,当生成器G1生成的伪造图片被判别器D1判别为真并且生成器G2生成的伪造草图被判别器D2判别为真时,生成器G1、G2训练完毕,包括:
生成器G1的损失函数LG1为:
Figure RE-FDA0003832353820000045
其中,λk为第k个生成子模块对应的损失权重参数,
Figure RE-FDA0003832353820000046
Lgk为第k个生成子模块的损失函数:
Figure RE-FDA0003832353820000047
其中
Figure RE-FDA0003832353820000048
以及
Figure RE-FDA0003832353820000049
分别表示来自Dtrain的真实图像数据以及由生成器G1生成的伪造图像数据概率,L(dk,gk)表示dk,gk相关的损失函数,dk(xi)表示xi为真的概率,
Figure RE-FDA0003832353820000051
表示由生成器生成的
Figure RE-FDA0003832353820000052
为真的概率,G表示生成器;
生成器G2的损失函数为LG2
Figure RE-FDA0003832353820000053
其中
Figure RE-FDA0003832353820000054
以及
Figure RE-FDA0003832353820000055
分别表示来自Dsketch的真实草图数据以及由生成器G2生成的伪造草图数据概率,L(D2,G2)表示D2,G2相关的损失函数,D2(zi)表示zi为真的概率,
Figure RE-FDA0003832353820000056
表示由生成器生成的
Figure RE-FDA0003832353820000057
为真的概率;
网络的整体损失函数Loss如下:
Figure RE-FDA0003832353820000058
8.根据权利要求2所述的图像生成方法,其特征在于,所述重复步骤S2和S3直至生成器G1、生成器G2以及判别器D1、判别器D2达到最佳性能,包括:
交替训练判别器D1,判别器D2以及生成器G1,生成器G2,并采用Adam优化器优化,直至达到最佳性能。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。
CN202210478046.9A 2022-05-05 2022-05-05 一种图像生成方法、计算机可读存储介质以及计算设备 Pending CN115147272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210478046.9A CN115147272A (zh) 2022-05-05 2022-05-05 一种图像生成方法、计算机可读存储介质以及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210478046.9A CN115147272A (zh) 2022-05-05 2022-05-05 一种图像生成方法、计算机可读存储介质以及计算设备

Publications (1)

Publication Number Publication Date
CN115147272A true CN115147272A (zh) 2022-10-04

Family

ID=83406421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210478046.9A Pending CN115147272A (zh) 2022-05-05 2022-05-05 一种图像生成方法、计算机可读存储介质以及计算设备

Country Status (1)

Country Link
CN (1) CN115147272A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168789A (zh) * 2023-04-26 2023-05-26 之江实验室 一种多中心医疗数据生成系统和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168789A (zh) * 2023-04-26 2023-05-26 之江实验室 一种多中心医疗数据生成系统和方法
CN116168789B (zh) * 2023-04-26 2023-07-18 之江实验室 一种多中心医疗数据生成系统和方法

Similar Documents

Publication Publication Date Title
CN110378844B (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN110084734B (zh) 一种基于物体局部生成对抗网络的大数据权属保护方法
CN112016507B (zh) 基于超分辨率的车辆检测方法、装置、设备及存储介质
CN113240580A (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN112287940A (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN111275640B (zh) 一种融合二维离散小波变换和生成对抗网络的图像增强方法
Singla et al. A review on Single Image Super Resolution techniques using generative adversarial network
WO2021144943A1 (ja) 制御方法、情報処理装置および制御プログラム
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN109993702B (zh) 基于生成对抗网络的满文图像超分辨率重建方法
CN115936985A (zh) 一种基于高阶退化循环生成对抗网络的图像超分辨率重建方法
CN115147272A (zh) 一种图像生成方法、计算机可读存储介质以及计算设备
CN114972024A (zh) 一种基于图表示学习的图像超分辨率重建装置及方法
CN112836822A (zh) 基于宽度学习的联邦学习策略优化方法和装置
CN114494003B (zh) 一种联合形状变换和纹理转换的古文字生成方法
CN112801104A (zh) 基于语义分割的图像像素级伪标签确定方法及系统
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN115115510A (zh) 一种图像处理方法、系统及存储介质和终端设备
CN109829857B (zh) 一种基于生成对抗网络的倾斜图像的矫正方法及装置
CN115147274A (zh) 获取图像超分辨率方法、获取系统设备以及存储介质
CN113792659A (zh) 文档识别方法、装置及电子设备
CN115439849B (zh) 基于动态多策略gan网络的仪表数字识别方法及系统
US20190156182A1 (en) Data inference apparatus, data inference method and non-transitory computer readable medium
CN115984911A (zh) 属性生成对抗网络以及基于该网络的人脸图像连续变换方法
Shi et al. Refactoring ISP for High-Level Vision Tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination