CN112884856B - 基于谱归一化层级式生成对抗网络的文本生成图像方法 - Google Patents

基于谱归一化层级式生成对抗网络的文本生成图像方法 Download PDF

Info

Publication number
CN112884856B
CN112884856B CN202110096097.0A CN202110096097A CN112884856B CN 112884856 B CN112884856 B CN 112884856B CN 202110096097 A CN202110096097 A CN 202110096097A CN 112884856 B CN112884856 B CN 112884856B
Authority
CN
China
Prior art keywords
network
image
text
stage
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110096097.0A
Other languages
English (en)
Other versions
CN112884856A (zh
Inventor
朱信忠
徐慧英
王霞
董仕豪
靳林通
赵建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202110096097.0A priority Critical patent/CN112884856B/zh
Publication of CN112884856A publication Critical patent/CN112884856A/zh
Priority to LU502833A priority patent/LU502833B1/en
Priority to PCT/CN2021/132387 priority patent/WO2022156350A1/zh
Priority to ZA2022/07738A priority patent/ZA202207738B/en
Application granted granted Critical
Publication of CN112884856B publication Critical patent/CN112884856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于谱归一化层级式生成对抗网络的文本生成图像方法,包括:第一阶段:将文本输入至生成对抗网络中,通过条件增强模型后将文本相对应的文本特征向量与噪声向量进行拼接,并输入至生成器网络中进行处理,得到第一图像;将得到的第一图像输入至判别器网络中进行下采样处理,得到第一图像相对应的张量,将张量和文本特征向量进行拼接,生成低分辨率图像;第二阶段:将第一阶段中的文本特征向量通过条件增强模型进行处理后将文本特征向量与第一阶段中生成的低分辨率图像经过下采样处理的张量进行拼接,并输入至生成器网络中进行处理,得到第二图像;将得到的第二图像输入至判别器网络中进行处理,生成高分辨率图像。

Description

基于谱归一化层级式生成对抗网络的文本生成图像方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于谱归一化层级式生成对抗网络的文本生成图像方法。
背景技术
近年来,深度学习技术在图像识别、分类以及图像去模糊等方面取得了突破性进展。文本生成图像是一项通过结合计算机视觉和自然语言的综合性交叉任务,是图像生成领域的重要分支,并且在很多方面都有着广泛的应用,如为文本配上对应的插图和辅助设计等。
文本生成图像是从一句描述性文本生成一张与文本内容相对应的图像,其最开始的主流方法是采用变分自动编码器(Variational Auto-Encoder,VAEs)和深度递归注意力作家(Deep Recurrent Attention Writer,DRAW)框架模型结构,在现有技术中提出的生成对抗网络(Generative Adversarial Networks,GANs)后,其简单有效的网络机制让文本生成图像这一任务有了更好的实现途径,各学者对于文本生产成本图像这一任务的研究取得一定的成就,其中一些文献中提出GAN-INT-CLS模型,首次使用具有判别意识的判别器以及使用流行插值的两种方案解决了生成图像多样化的问题以及提高了生成能力,但是无法合成高分辨率的图像;一些文献中提出了能更好地根据文本描述控制图像中物体具体位置的网络GAWWN。还有一些文献提出了一种层级式生成对抗网络(StackGAN)模型,把生成高质量图像的复杂问题分解成两个更好控制的子问题。在第一阶段利用文本描述粗略勾画物体的主要形状和颜色,生成64×64的低分辨率图像;在第二阶段,将第一阶段的结果和文本描述作为输入,生成256×256的高分辨率图像。然而,生成图像的过程还是存在训练不稳定、梯度消失等的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了基于谱归一化层级式生成对抗网络的文本生成图像方法。
为了实现以上目的,本发明采用以下技术方案:
基于谱归一化层级式生成对抗网络的文本生成图像方法,包括两个阶段:
第一阶段:将文本输入至生成对抗网络中,通过条件增强模型进行处理,将处理后的与文本相对应的文本特征向量与噪声向量进行拼接,并输入至生成器网络中进行处理,得到第一图像;将得到的第一图像输入至判别器网络中进行下采样处理,得到第一图像相对应的张量,将第一图像相对应的张量和文本特征向量进行拼接,生成低分辨率图像;
第二阶段:将第一阶段中的文本特征向量通过条件增强模型进行处理,得到处理后的文本特征向量;将第一阶段中生成的低分辨率图像经过下采样处理,得到低分辨率图像相对应的张量,将低分辨率图像相对应的张量与降维后的文本特征向量进行拼接,并输入至生成器网络中进行处理,得到第二图像;将得到的第二图像输入至判别器网络中进行处理,生成高分辨率图像。
进一步的,所述第一阶段和第二阶段中的判别器网络为加入谱归一化的判别器网络,具体为:
采用谱归一化约束判别器网络的Lipschitz常数,其中,谱归一化的Lipschitz常数,表示为:
Figure SMS_1
其中,f(x)表示实数集上的函数;x与x′表示定义域内的两个不相等实数;M表示常数;
Figure SMS_2
则/>
Figure SMS_3
其中,σ(A)表示矩阵A的谱范数:
Figure SMS_4
将判别器网络的每一层g,h作为输入,则g(h)=Wh,表示为:
Figure SMS_5
而在判别器网络f(x)=WL+1aL(WL(aL-1(WL-1(…a1(W1x)…))))中,基于‖g1.g2‖≤‖g1Lip·‖g2Lip得到:
Figure SMS_6
其中,W表示判别器网络的参数矩阵;l表示网络层数。
将判别器的每层网络的Lipschitz常数限制为1,即‖g‖Lip=1,就需要σ(W)=1,得到谱归一化的计算公式为:
Figure SMS_7
其中,Wsn表示判别器网络各层的谱归一化值。
进一步的,所述第一阶段和第二阶段中的生成器网络为加入感知损失函数的生成器网络,具体为:
将感知损失函数加入生成器网络的判别损失中,其中感知损失函数表示为:
Figure SMS_8
其中,Lper表示感知损失函数;
Figure SMS_9
表示VGG-16网络第i层的激活函数;I表示真实图像,I′表示生成图像;Ci×Hi×Wi表示特征图的维度。
进一步的,所述第一阶段和第二阶段中通过条件增强模型进行处理是将输入的高维条件变量进行降维处理。
进一步的,所述第一阶段中将第一图像相对应的张量和文本特征向量进行拼接之后还包括经过三个平行的卷积层得到概率分布。
进一步的,所述生成对抗网络为条件生成对抗网络。
进一步的,所述条件生成对抗网络的损失函数表示为:
Figure SMS_10
其中,D表示判别器;G表示生成器;D(x)、D(G(z))分别表示判别器判定图像真实度的分值;G(z)表示生成器输出的假图像;x表示真实数据集的图像;z表示随机噪声;y表示附加信息。
与现有技术相比,本发明在判别器网络中的每一层卷积层后都加一层谱归一化,将每层网络梯度限制在固定范围内,减缓判别器的收敛速度,为生成器提供更多有效信息,从而提高网络训练的稳定性和生成质量更好的图像。本发明还在生成器网络中结合了感知损失函数,联合原有的损失函数共同来优化生成图像,进一步提升生成图像的质量,使得图像更为自然、真实。
附图说明
图1是实施例一提供的判别器网络模型结构图;
图2是实施例二提供的第一阶段不同迭代次数下的图像对比示意图;
图3是实施例二提供的第二阶段生成图像的对比示意图;
图4是实施例二提供的生成器网络加入感知损失函数后生成图片的对比示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了基于谱归一化层级式生成对抗网络的文本生成图像方法。
实施例一
本实施例提供的基于谱归一化层级式生成对抗网络的文本生成图像方法,包括两个阶段:
第一阶段:将文本输入至生成对抗网络中,通过条件增强模型进行处理,将处理后的与文本相对应的文本特征向量与噪声向量进行拼接,并输入至生成器网络中进行处理,得到第一图像;将得到的第一图像输入至判别器网络中进行下采样处理,得到第一图像相对应的张量,将第一图像相对应的张量和文本特征向量进行拼接,生成低分辨率图像;
第二阶段:将第一阶段中的文本特征向量通过条件增强模型进行处理,得到处理后的文本特征向量;将第一阶段中生成的低分辨率图像经过下采样处理,得到低分辨率图像相对应的张量,将低分辨率图像相对应的张量与降维后的文本特征向量进行拼接,并输入至生成器网络中进行处理,得到第二图像;将得到的第二图像输入至判别器网络中进行处理,生成高分辨率图像。
本实施例的文本生成图像方法所涉及的第一阶段和第二阶段均是基于生成对抗网络实现的,其中生成对抗网络的构建具体如下:
生成对抗网络的基本思想源自博弈论的零和游戏,是由一个生成器和一个判别器构成,采用对抗的方式进行学习,直到达到纳什平衡。
生成器G的输入是服从正态分布的随机噪声z,输出是假图像G(z),目的是尽量去学习真实的数据分布;判别器D的输入是来自真实数据集的图像x和生成器输出的假图像G(z),输出是判别器给这张图像真实度的分值D(x)与D(G(z)),取值在0到1之间,分值越高,说明这张图像越接近真实图像,其目的是尽量正确判别输入数据是来自真实数据还是来自生成器生成的数据。生成器G和判别器D交替训练,其损失函数是:
Figure SMS_11
在公式(1)中:x是来自真实数据集Px的真实图像,z是来自服从高斯分布Pz的噪声矢量。
由于生成对抗网络根据噪声z生成图像的方式过于自由,对于较复杂的数据,其变得不可控,得到的图像可能存在偏差较大的情况,因此提出条件生成式对抗网络(Conditional Generative Adversarial Network,简称cGAN),通过在生成器和判别器中加入约束条件来解决该问题,为模型添加额外的辅助信息y,这一策略的作用是监督生成式对抗网络,其训练过程与生成式对抗网络(GAN)相同,此时条件生成式对抗网络的损失函数为:
Figure SMS_12
与公式(1)的区别是在生成器和判别器的输入中都添加了额外的辅助信息y,使无监督生成变成了有监督生成,在保持多样性生成的同时也指定了相应的生成对象。本实施例的网络模型正是采用了条件生成对抗网络,并将文本内容采用文本描述向量化技术转化为向量以作为附加信息y。
在本实施例中,第一阶段和第二阶段中的判别器网络为加入谱归一化的判别器网络,具体为:
由于生成对抗网络会出现模式坍塌等问题,因此在其后续工作的研究中学者们也提出了诸多解决方法。归一化层的提出主要是为了克服深度神经网络难以训练的问题,将输入的数据映射到[0,1]之间,这样不仅使网络训练更加稳定,还可以提高训练中数据的精度。
本实施例提出的谱归一化通过严格约束判别器的每一层网络权重矩阵的谱范数进而达到约束判别器的Lipschitz常数,从而增强条件生成对抗网络在训练中的稳定性,相比于其他的归一化技术,谱归一化只需要调整Lipschitz常数。其中,谱归一化的Lipschitz常数,表示为:
Figure SMS_13
其中,f(x)表示实数集上的函数;x与x′表示定义域内的两个不相等实数;M表示常数;
Figure SMS_14
则/>
Figure SMS_15
其中,σ(A)表示矩阵A的谱范数:
Figure SMS_16
将判别器网络的每一层g,h作为输入,则g(h)=Wh,表示为:
Figure SMS_17
而在判别器网络f(x)=WL+1aL(WL(aL-1(WL-1(…a1(W1x)…))))中,基于‖g1.g2‖≤‖g1Lip·‖g2Lip得到:
Figure SMS_18
其中,W表示判别器网络的参数矩阵;l表示网络层数。
将判别器的每层网络的Lipschitz常数限制为1,即‖g‖Lip=1,就需要σ(W)=1,得到谱归一化的计算公式为:
Figure SMS_19
其中,Wsn表示判别器网络各层的谱归一化值。
本实施例将谱归一化添加到了判别器网络中,在保证满足Lipschitz条件的同时,又不破坏判别器网络中的参数矩阵结构。
在本实施例中,第一阶段和第二阶段中的生成器网络为加入感知损失函数的生成器网络,具体为:
感知损失在计算机图像领域取得优异的成绩,它具有接近人眼视觉感知特性,可以使生成的图像更加符合真实、自然,并且增强了文本内容与生成图像的一致性。
本实施例采用的感知损失是先在VGG-16网络的ImageNet数据集上预训练好,其本质是提取真实图像I与生成图像I′相对应的语义特征。其中感知损失函数表示为:
Figure SMS_20
其中,Lper表示感知损失函数;
Figure SMS_21
表示VGG-16网络第i层的激活函数;I表示真实图像,I′表示生成图像;Ci×Hi×Wi表示特征图的维度。
生成器网络通过联合感知损失函数,进一步提升生成图像的质量和生成图像与文本语义的一致性,并使得图像更为自然、真实。
当构建好生成对抗网络后,为了进一步提高网络训练的稳定性,增强生成图像的质量,本实施例采用两个阶段来进行文本到图像的实现,但是在两阶段采用的生成对抗网络中均采用条件生成对抗网络,在两阶段中均在判别器网络的每一层中加入谱归一化,如图1所示。谱归一化将约束每层的Lipschitz常数为1,从而增强网络在训练中的稳定性。
第一阶段利用文本描述粗略勾画物体的主要形状和颜色,生成低分辨率图像。
如图1的(a)为第一阶段,将文本作为网络的首层输入,通过条件增强模型将输入的高维条件变量降维,并对文本特征向量和噪声向量进行拼接,然后通过生成器生成64×64的图像;接着判别器将64×64的图像(生成或真实图像)经过下采样后,对得到的张量和文本特征向量进行拼接,经过三个平行的卷积层得到概率分布,判别输入图像的真假。
第二阶段将第一阶段的结果和文本描述作为输入生成高分辨率图像。
如图1的(b)为第二阶段,将文本特征向量经过条件增强模型后生成的文本特征向量与第一阶段生成的64×64的图像经过下采样后得到的张量进行拼接,通过生成器生成256×256的图像,再次输给判别器网络,最后输出质量较好、内容相对应的256×256图像。
由于生成式对抗网络中生成器和判别器在交替训练时,判别器会很早达到一个区分真假的理想状态,而当判别器达到理想状态后无法给生成器提供任何的梯度信息去优化图像,导致网络出现模式坍塌以及不收敛等的问题。本文模型与StackGAN最大的不同点在于判别器的设置,在此判别器网络中的每一层卷积层后都加一层谱归一化,将每层网络梯度限制在固定范围内,减缓判别器的收敛速度,为生成器提供更多有效信息,从而提高网络训练的稳定性和生成质量更好的图像。本文还在生成器网络中结合了感知损失函数,联合原有的损失函数共同来优化生成图像,进一步提升生成图像的质量,使得图像更为自然、真实。
实施例二
本实施例提供的基于谱归一化层级式生成对抗网络的文本生成图像方法与实施例一的不同之处在于:
本实施例以具体实验进行分析。
由于测试集的图片数量较多且训练次数达到120次,因此本实施例选取具有代表性的训练次数作为展示。如图2为展示不同训练阶段中不同训练轮次的生成图像效果,并与文献“H.Zhang,T.Xu,H.Li,S.Zhang,X.Wang,X.Huang,and D.Metaxas.Stackgan:Text tophoto-realistic image synthesis with stacked generative adversarialnetworks.In ICCV,2017.”的StackGAN模型做了对比。
如图2所示为第一阶段不同迭代次数下的图像对比,第一排是文献生成的图像,第二排是本实施例模型生成的图像。
图2所示的第一阶段不同迭代次数下的图像对比图中可以很清楚的观察到,在阶段一中,文献在迭代60次左右的时候就已经达到生成能力较好的状态,也就是此时判别器达到区分真假图像的完美能力,不在继续给生成器反馈信息。而本实施例模型在判别器网络中加入谱归一化后,减缓判别器的收敛速度,让判别器持续给生成器反馈信息,不断优化生成器网络,最后使得生成器生成的图像更加清晰。
如图3所示为第二阶段中文献的和本实施例模型生成图像的对比,第一排是文献生成的图像,第二排是本文模型生成的图像。
图3是第二阶段文献和本实施例模型生成图像的对比图,由于本实施例模型中减缓了判别器的收敛速度,所以在训练过程中不仅训练稳定也让生成器接受到更多信息,生成出更加具有多样性的图像。
如下表1为不同模型与数据集的Inception scores值对比:
模型 Oxford-102数据集Is值 coco数据集
文献模型 2.27±0.02 2.32±0.02
本实施例模型 2.48±0.02 2.51±0.02
表1
表1是本实施例模型与文献模型的Inception scores值的对比值。由于本实施例模型的实验设备有限,因此与文献得到的数值有差距,但是在此数值之上,本实施例所提出的模型对于生成效果有较明显的提升。
如图4为生成器网络加入感知损失函数后生成图片的对比。
图4是当生成器网络的损失函数加入感知损失函数后的生成图对比,可以很明显的从图中观察到图像内容表现的更好:颜色鲜明,生成内容明确。生成图像与之前相比更加真实与自然。
针对文本生成图像任务,提出一种结合谱归一化的文本到图像生成对抗网络模型,沿用层级式生成对抗网络的思想,在其基础上将谱归一化运用到判别器中,将每层网络梯度限制在固定范围内,减缓判别器的收敛速度,从而提高网络训练的稳定性。为了验证本实施例模型的有效性,本文在Oxford-102与coco数据集上进行实验,并对结果采用评价指标Inception Score与StackGAN模型做了对比。无论是在个人主观观察还是客观评价指标对比上,本实施例所提的模型都取得了一定的进步。除此之外,针对较复杂的数据集,将空间注意力与模型网络架构结合起来提高生成图像效果是未来研究的重点方向。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (3)

1.一种基于谱归一化层级式生成对抗网络的文本生成图像方法,其特征在于,包括两个阶段:
第一阶段:将文本输入至生成对抗网络中,通过条件增强模型进行处理,将处理后的与文本相对应的文本特征向量与噪声向量进行拼接,并输入至生成器网络中进行处理,得到第一图像;将得到的第一图像输入至判别器网络中进行下采样处理,得到第一图像相对应的张量,将第一图像相对应的张量和文本特征向量进行拼接,生成低分辨率图像;
第二阶段:将第一阶段中的文本特征向量通过条件增强模型进行处理,得到处理后的文本特征向量;将第一阶段中生成的低分辨率图像经过下采样处理,得到低分辨率图像相对应的张量,将低分辨率图像相对应的张量与降维后的文本特征向量进行拼接,并输入至生成器网络中进行处理,得到第二图像;将得到的第二图像输入至判别器网络中进行处理,生成高分辨率图像;
所述第一阶段和第二阶段中的判别器网络为加入谱归一化的判别器网络,具体为:
采用谱归一化约束判别器网络的Lipschitz常数,其中,谱归一化的Lipschitz常数,表示为:
Figure FDA0004070776360000011
其中,f(x)表示实数集上的函数;x与x′表示定义域内的两个不相等实数;M表示常数;
Figure FDA0004070776360000012
则||f||Lip=supxσ(▽f(x));
其中,σ(A)表示矩阵A的谱范数:
Figure FDA0004070776360000013
将判别器网络的每一层g,h作为输入,则g(h)=Wh,表示为:
||g||Lip=suphσ(▽g(h))=suphσ(W)=σ(w)
而在判别器网络f(x)=WL+1aL(WL(aL-1(WL-1(…a1(W1x)…))))中,基于||g1·g2||≤||g1||Lip·||g2||Lip得到:
Figure FDA0004070776360000021
其中,W表示判别器网络的参数矩阵;L表示网络层数;
将判别器的每层网络的Lipschitz常数限制为1,即‖g‖Lip=1,就需要σ(W)=1,得到谱归一化的计算公式为:
Figure FDA0004070776360000022
其中,Wsn表示判别器网络各层的谱归一化值;
所述第一阶段和第二阶段中的生成器网络为加入感知损失函数的生成器网络,具体为:
将感知损失函数加入生成器网络的判别损失中,其中感知损失函数表示为:
Figure FDA0004070776360000023
其中,Lper表示感知损失函数;
Figure FDA0004070776360000024
表示VGG-16网络第i层的激活函数;I表示真实图像,I′表示生成图像;Ci×Hi×Wi表示特征图的维度;
所述第一阶段中将第一图像相对应的张量和文本特征向量进行拼接之后还包括经过三个平行的卷积层得到概率分布;
所述判别器网络中的每一层卷积层后都加一层谱归一化,将每层网络梯度限制在固定范围内;
所述生成对抗网络的损失函数表示为:
Figure FDA0004070776360000025
其中,D表示判别器;G表示生成器;D(x)、D(G(z))分别表示判别器判定图像真实度的分值;G(z)表示生成器输出的假图像;x表示真实数据集的图像;z表示随机噪声;y表示附加信息。
2.根据权利要求1所述的一种基于谱归一化层级式生成对抗网络的文本生成图像方法,其特征在于,所述第一阶段和第二阶段中通过条件增强模型进行处理是将输入的高维条件变量进行降维处理。
3.根据权利要求1所述的一种基于谱归一化层级式生成对抗网络的文本生成图像方法,其特征在于,所述生成对抗网络为条件生成对抗网络。
CN202110096097.0A 2021-01-25 2021-01-25 基于谱归一化层级式生成对抗网络的文本生成图像方法 Active CN112884856B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110096097.0A CN112884856B (zh) 2021-01-25 2021-01-25 基于谱归一化层级式生成对抗网络的文本生成图像方法
LU502833A LU502833B1 (en) 2021-01-25 2021-11-23 A text-generated image approach based on spectrally normalized hierarchical generative adversarial networks
PCT/CN2021/132387 WO2022156350A1 (zh) 2021-01-25 2021-11-23 基于谱归一化层级式生成对抗网络的文本生成图像方法
ZA2022/07738A ZA202207738B (en) 2021-01-25 2022-07-12 A text-generated image approach based on spectrally normalized hierarchical generative adversarial networks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110096097.0A CN112884856B (zh) 2021-01-25 2021-01-25 基于谱归一化层级式生成对抗网络的文本生成图像方法

Publications (2)

Publication Number Publication Date
CN112884856A CN112884856A (zh) 2021-06-01
CN112884856B true CN112884856B (zh) 2023-06-02

Family

ID=76050957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110096097.0A Active CN112884856B (zh) 2021-01-25 2021-01-25 基于谱归一化层级式生成对抗网络的文本生成图像方法

Country Status (4)

Country Link
CN (1) CN112884856B (zh)
LU (1) LU502833B1 (zh)
WO (1) WO2022156350A1 (zh)
ZA (1) ZA202207738B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884856B (zh) * 2021-01-25 2023-06-02 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN113537416A (zh) * 2021-09-17 2021-10-22 深圳市安软科技股份有限公司 基于生成式对抗网络的文本转换图像的方法及相关设备
CN113570003B (zh) * 2021-09-23 2022-01-07 深圳新视智科技术有限公司 基于注意力机制的特征融合缺陷检测方法及装置
CN113918716B (zh) * 2021-10-14 2023-06-02 中山大学 基于谱范数归一化的生成对抗主题模型构建方法及装置
US20240281924A1 (en) * 2023-02-17 2024-08-22 Adobe Inc. Super-resolution on text-to-image synthesis with gans
CN116309913B (zh) * 2023-03-16 2024-01-26 沈阳工业大学 一种基于生成对抗网络asg-gan文本描述生成图像方法
CN116681604B (zh) * 2023-04-24 2024-01-02 吉首大学 一种基于条件生成对抗网络的秦简文字修复方法
CN116736372B (zh) * 2023-06-05 2024-01-26 成都理工大学 一种基于谱归一化生成对抗网络的地震插值方法及系统
CN116958468A (zh) * 2023-07-05 2023-10-27 中国科学院地理科学与资源研究所 基于SCycleGAN的高山积雪环境模拟方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884856B (zh) * 2021-01-25 2023-06-02 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS;Takeru Miyato等;《ICLR 2018》;20180216;全文 *
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks;Han Zhang等;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171231;全文 *
计算机视觉领域最常见几中损失函数;机器学习算法那些事;《https://blog.csdn.net/algorithmPro/article/details/104912410/》;20200616;全文 *

Also Published As

Publication number Publication date
ZA202207738B (en) 2022-07-27
WO2022156350A1 (zh) 2022-07-28
LU502833B1 (en) 2023-01-26
CN112884856A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112884856B (zh) 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN111563841B (zh) 一种基于生成对抗网络的高分辨率图像生成方法
CN112364745B (zh) 一种对抗样本的生成方法、装置及电子设备
CN112561838A (zh) 基于残差自注意力和生成对抗网络的图像增强方法
CN112950661A (zh) 一种基于注意力生成对抗网络人脸卡通画生成方法
CN111881935A (zh) 一种基于内容感知gan的对抗样本生成方法
CN113642621B (zh) 基于生成对抗网络的零样本图像分类方法
CN114038055B (zh) 一种基于对比学习和生成对抗网络的图像生成方法
CN113724354B (zh) 基于参考图颜色风格的灰度图像着色方法
CN113762138B (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN111931908B (zh) 一种基于人脸轮廓的人脸图像自动生成方法
CN109685724A (zh) 一种基于深度学习的对称感知人脸图像补全方法
CN111368734A (zh) 一种基于正常表情辅助的微表情识别方法
CN118196231B (zh) 一种基于概念分割的终身学习文生图方法
CN115063847A (zh) 一种面部图像获取模型的训练方法及装置
CN114897884A (zh) 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法
Ko et al. Korean font synthesis with GANs
Ma et al. An adaptive control algorithm for stable training of generative adversarial networks
CN113642479A (zh) 人脸图像的评价方法、装置、电子设备及存储介质
CN112163605A (zh) 一种基于生成注意力网络的多域图像翻译方法
Gong et al. Image denoising with GAN based model
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
CN113344814A (zh) 一种基于生成机制的高分辨率对抗样本的合成方法
Wen et al. Diamond in the rough: Improving image realism by traversing the GAN latent space
Gupta et al. Performance analysis of different GAN models: DC-GAN and LS-GAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant