CN111968193A - 一种基于StackGAN网络的文本生成图像方法 - Google Patents
一种基于StackGAN网络的文本生成图像方法 Download PDFInfo
- Publication number
- CN111968193A CN111968193A CN202010735650.6A CN202010735650A CN111968193A CN 111968193 A CN111968193 A CN 111968193A CN 202010735650 A CN202010735650 A CN 202010735650A CN 111968193 A CN111968193 A CN 111968193A
- Authority
- CN
- China
- Prior art keywords
- image
- stage
- discriminator
- text
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000003708 edge detection Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 70
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G06T5/73—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于StackGAN网络的文本生成图像方法,具体为:收集整理文本图像数据集并分成训练集和测试集;构建StackGAN网络文本生成图像模型,分两个阶段进行训练,每个阶段由生成器和判别器构成;将训练集图像对应的文本描述与随机噪声向量输入到模型的第一阶段进行训练,生成64×64的低分辨率图像,再进行预处理;最后,将图像再结合训练集图像文本描述输入到模型的第二阶段,结合图像的类别与重构信息进行训练,最终输出256×256高分辨率图像。采用分段式训练模型,有利于对图像的轮廓信息、图像的类别及特征与像素信息进行定位,保证生成图像的边缘清晰,生成的图像像素更好,细节和纹理更加细腻真实。
Description
技术领域
本发明属于计算机视觉与自然语言处理技术领域,具体涉及一种基于StackGAN网络的文本生成图像方法。
背景技术
随着互联网技术的迅猛发展,数以万计的图像信息丰富了人们的生活。与此同时,人们对图像信息的要求也越来越高,含有特定意义的图像还是不能满足人们的需求,为了让计算机能根据人们的需求自动生成有意义的图像,文本生成图像任务应运而生。
文本生成图像是结合计算机视觉与自然语言处理两个领域的综合性任务,近年来,由于深度学习等技术的迅速发展,在计算机视觉、自然语言处理等方面取得了长足的进步,2014年6月,生成式对抗网络的诞生为文本生成图像任务提供了可能。2016年Reed等人第一次将生成式对抗网络用于文本生成图像,使得文本生成图像任务有了突破性进展,其在游戏动漫设计、刑侦破案、绘图插画、广告设计、数据增强等领域具有广泛的应用前景。
目前,文本生成图像方法基本都是基于对抗网络训练的,传统的文本生成图像网络模型有GAWWN模型、GAN-INT-CLS模型等。现有的比较有影响力的模型有StackGAN模型、StackGAN++模型、AttnGAN模型。传统的GAWWN模型使用关键点和边界来标记对象的位置信息,从而实现了可以在图像的相应位置绘制相应的内容。GAN-INT-CLS模型经在数据集上实验可生成64×64像素的图像。针对传统模型生成图像质量不高的问题,随后提出了StackGAN网络模型,该模型将两个生成对抗网络叠加起来,第一个生成对抗网络生成相对粗糙的64×64的图像,第二个生成对抗网络能够修正之前生成的图像并添加细节,最终生成256×256像素的高分辨率图像。随后,作为对StackGAN网络的改进,在堆栈生成对抗网络的基础上提出了一种树状生成对抗网络结构StackGAN++网络模型,该网络模型是将三个生成对抗网络堆叠起来,三个生成对抗网络分别先后生成64×64、128×128、256×256像素的图像,使生成图像的综合效果得到改善。AttnGAN模型中可以选择单词级别的信息,通过将图像生成分为多个阶段并为每个阶段添加注意力机制,迭代地生成图像的细节。
以上方法虽然都在一定程度上改善了生成图像的质量,但是在生成图像的轮廓,细节纹理等方面还是存在不足,生成的图像存在边缘轮廓模糊,细节纹理不清晰等问题。
发明内容
本发明的目的是提供一种基于StackGAN网络的文本生成图像方法,解决了现有技术中存在的生成的图像边缘轮廓模糊、细节纹理不清晰的问题。
本发明所采用的技术方案是,一种基于StackGAN网络的文本生成图像方法,具体按照以下步骤实施:
步骤1,收集整理文本图像数据集;
步骤2,将收集好的文本图像数据集分成训练集和测试集;
步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段;低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;
步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别器中进行判别;
步骤5,将步骤4得到的64×64低分辨率图像进行预处理;
步骤6,将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN网络模型的第二阶段即高分辨率图像生成阶段生成器的输入,然后再结合图像的类别与重构信息,在第二阶段模型中进行训练,输出256×256高分辨率图像,然后送入到第二阶段的判别器中进行判别。
本发明的特点还在于,
步骤4中,具体过程如下:
步骤4.1,将训练集图像文本描述使用文本编码器进行编码,将文本描述表示为特征向量;
步骤4.3,将步骤4.2得到的条件变量c与随机噪声向量z进行拼接,作为第一阶段生成器的输入,然后通过全连接及上采样操作生成64×64像素的图像;训练中第一阶段生成器的损失函数如式(2)所示;
式中,G1和D1分别为第一阶段的生成器和判别器,LG1表示第一阶段生成器的损失函数,E表示期望,z表示随机噪声向量,t表示文本描述,pz表示随机噪声分布,pdata表示真实数据分布,LkL表示正则化函数,λ是正则化参数,设置为1;
步骤4.4,将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量输入到第一阶段的判别器中进行判别,如果判别器输出为1,则表示判别器输入的是和文本匹配的真实图像;如果判别器输出为0,则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像;第一阶段判别器的损失函数,如式(4)所示;
式中,LD1表示第一阶段判别器的损失函数,I1表示第一阶段64×64真实图像。
步骤4.3中,正则化函数,如式(3)所示;
步骤5中,预处理过程包括图像灰度化、边缘检测及边缘锐化,首先对图像进行灰度化处理,其次对灰度化图像进行边缘检测,最后对得到的边缘检测图像进行边缘锐化。
步骤6中,具体过程如下:
步骤6.1,将第一阶段生成的64×64图像经过步骤5预处理后最终得到的图像与训练集图像文本描述一起输入到第二阶段的生成器中,生成器通过一系列卷积下采样操作后与文本特征向量进行拼接;
第二阶段生成器的损失函数如式(5)所示;
式中,Lg2表示第二阶段生成器的损失函数,E表示期望,s1表示第一阶段生成图像的预处理结果,PG1表示第一阶段生成图像结果分布,Ds为第二阶段的真假判别器,G2为第二阶段的生成器,λ0是一个平衡的正则化参数,设置为1;
步骤6.2,在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练,生成像素更好的256×256高分辨率图像;
第二阶段生成器图像的分类损失函数与Cr做交叉熵如式(6)所示;
式中,LGc表示第二阶段生成器的分类损失函数,H表示交叉熵函数,Dc表示类别判别器,If表示虚假图像,Cr表示正确图像类别;
第二阶段生成器图像特征重构误差函数如式(7)所示;
式中,Lfeature表示图像特征重构误差函数,FD为神经网络非线性函数,Ir表示真实图像;
第二阶段生成器图像像素重构误差函数如式(8)所示;
式中,Limage表示图像像素重构误差函数;
第二阶段生成器的最终损失函数如式(9)所示;
LG2=Lg2+LGc+λ1Lfeature+λ2Limage (9);
式中,LG2表示第二阶段生成器的最终损失函数,λ1和λ2为超参数,设置为1;
步骤6.3,将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量放入第二阶段的判别器中进行判别,第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配,第二个判别器判断输入图像所属类别;
当第一个判别器输入和文本匹配的真实图像Ir和文本特征向量时,与1作交叉熵;当第一个判别器输入生成的虚假图像If和文本特征向量时,则与0作交叉熵;当第一个判别器输入和文本不匹配的错误图像Iw和文本特征向量时,与0作交叉熵;
第二阶段第一个判别器的损失函数如式(10)所示;
式中,LDs表示第二阶段第一个判别器的损失函数,Ds表示真假判别器;
第二个判别器判断输入图像的类别,当第二个判别器输入和文本匹配的真实图像Ir和文本特征向量时,正确图像类别为Cr,与Cr做交叉熵;当第二个判别器输入生成的虚假图像If和文本特征向量时,虚假图像的类别标签也为Cr,则与Cr作交叉熵;当第二个判别器输入和文本不匹配的错误图像Iw和文本特征向量时,错误图像的类别标签为Cw,则与Cw作交叉熵;
第二阶段第二个判别器的损失函数如式(11)所示;
式中,LDc表示第二阶段第二个判别器的分类损失函数,Dc表示类别判别器;
第二阶段判别器最终损失函数如式(12)所示;
LD2=LDs+LDc (12);
式中,LD2表示第二阶段判别器的最终损失函数,LDs为第二阶段第一个判别器判断真假的损失函数,LDc为第二阶段第二个判别器的分类损失函数。
本发明的有益效果是:
(1)本发明一种基于StackGAN网络的文本生成图像方法,采用分段式训练模型,分别对低分辨率图像和高分辨率图像的生成进行训练,有利于提高生成图像的质量;
(2)本发明一种基于StackGAN网络的文本生成图像方法,该方法将模型第一阶段生成的64×64低分辨率的图像进行预处理(图像灰度化、边缘检测、边缘锐化)后,再结合训练集图像文本描述作为模型第二阶段生成器的输入,有利于对图像的轮廓信息进行定位,保证生成图像的边缘清晰不模糊;
(3)本发明一种基于StackGAN网络的文本生成图像方法,该方法在模型第二阶段的生成器中加入了图像的类别信息、特征重构损失及像素重构损失,有利于对图像的类别及特征与像素信息进行定位,使生成模型更加接近真实样本,生成的图像像素更好,细节和纹理更加细腻真实;
(4)本发明一种基于StackGAN网络的文本生成图像方法,该方法在每个阶段的生成器损失中都加入了正则化项,防止文本生成图像模型训练时过拟合,提升模型训练的稳定性。
附图说明
图1是本发明一种基于StackGAN网络的文本生成图像方法的整体流程示意图;
图2是本发明一种基于StackGAN网络的文本生成图像方法的举例效果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于StackGAN网络的文本生成图像方法,如图1所示,具体按照以下步骤实施:
步骤1,收集整理文本图像数据集;
步骤2,将收集好的文本图像数据集分成训练集和测试集;
步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段。低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;
步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别器中进行判别;具体过程如下:
步骤4.1,将训练集图像文本描述使用文本编码器进行编码,将文本描述表示为特征向量;
步骤4.2,采用条件增强模型产生一个附加条件变量c,避免由高维向量导致潜在数据流不连续,不利于生成模型学习的问题;具体是将文本特征向量通过全连接层得到均值向量和协方差矩阵然后从单位高斯分布N(0,1)中随机采样ε,得到最终条件变量c的表达式,如式(1)所示:
步骤4.3,将步骤4.2得到的条件变量c与随机噪声向量z进行拼接,作为第一阶段生成器的输入,然后通过全连接及上采样操作生成64×64像素的图像;训练中第一阶段生成器的损失函数如式(2)所示;
式中,G1和D1分别为第一阶段的生成器和判别器,LG1表示第一阶段生成器的损失函数,E表示期望,z表示随机噪声向量,t表示文本描述,pz表示随机噪声分布,pdata表示真实数据分布,log为对数函数,c表示条件变量,表示文本特征向量,LkL表示正则化函数,λ是一个平衡的正则化参数,设置为1;
为避免模型训练过拟合,在生成器的损失函数中加入正则化函数,如式(3)所示;
步骤4.4,将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量输入到第一阶段的判别器中进行判别,如果判别器输出为1,则表示判别器输入的是和文本匹配的真实图像;如果判别器输出为0,则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像;第一阶段判别器的损失函数,如式(4)所示;
式中,G1和D1分别为第一阶段的生成器和判别器,LD1表示第一阶段判别器的损失函数,E表示期望,I1表示第一阶段64×64真实图像,t表示文本描述,z表示随机噪声向量,pdata表示真实数据分布,pz表示随机噪声分布,log为对数函数,c表示条件变量,表示文本特征向量;
步骤5,将步骤4得到的64×64低分辨率图像进行预处理,包括图像灰度化、边缘检测及边缘锐化,首先对图像进行灰度化处理,其次对灰度化图像进行边缘检测,最后对得到的边缘检测图像进行边缘锐化,使边缘轮廓更加清晰;
步骤6,将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN模型的第二阶段即高分辨率图像生成阶段生成器的输入,然后再结合图像的类别与重构信息(特征重构信息与像素重构信息)在第二阶段模型中进行训练,输出256×256高分辨率图像,然后送入到第二阶段的判别器中进行判别;具体过程如下:
步骤6.1,将第一阶段生成的64×64图像经过步骤5预处理后最终得到的边缘锐化图像与训练集图像文本描述一起输入到第二阶段的生成器中,生成器通过一系列卷积下采样操作后与文本特征向量进行拼接;
在第二阶段生成器训练过程中,生成器的部分损失由判别器传递回来,判别器要判断输入图像的真假,生成器则要尽可能地使判别器认为生成的图像是真实图像,因此第二阶段生成器的损失函数如式(5)所示;
式中,Lg2表示第二阶段生成器的损失函数,E表示期望,s1表示第一阶段生成图像的预处理结果,PG1表示第一阶段生成图像结果分布,t表示文本描述,pdata表示真实数据分布,Ds为第二阶段的真假判别器,G2为第二阶段的生成器,c为条件变量,LkL表示正则化函数,λ0是一个平衡的正则化参数,设置为1;
步骤6.2,在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练,目的是使生成图像细节更加细腻真实,生成像素更好的256×256高分辨率图像;
第二阶段生成器图像的分类损失函数与Cr做交叉熵如式(6)所示;
第二阶段生成器图像特征重构误差函数如式(7)所示;
第二阶段生成器图像像素重构误差函数如式(8)所示;
式中,Limage表示图像像素重构误差函数,If表示虚假图像,Ir表示真实图像;
综上所述,第二阶段生成器的最终损失函数如式(9)所示;
LG2=Lg2+LGc+λ1Lfeature+λ2Limage (9);
式中,LG2表示第二阶段生成器的最终损失函数,Lg2表示第二阶段生成器最初的损失函数,LGc表示第二阶段生成器的分类损失函数,Lfeature表示图像特征重构误差函数,Limage表示图像像素重构误差函数,λ1和λ2为超参数,一般设置它们为1;
步骤6.3,将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量放入第二阶段的判别器中进行判别,在第二阶段的末尾有两个判别器,第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配,第二个判别器判断输入图像所属类别;
当第一个判别器输入和文本匹配的真实图像Ir和文本特征向量时,与1作交叉熵;当第一个判别器输入生成的虚假图像If和文本特征向量时,则与0作交叉熵;当第一个判别器输入和文本不匹配的错误图像Iw和文本特征向量时,与0作交叉熵;
因此,第二阶段第一个判别器的损失函数如式(10)所示;
式中,LDs表示第二阶段第一个判别器的损失函数,H表示交叉熵函数,Ds表示真假判别器;
第二个判别器判断输入图像的类别,当第二个判别器输入和文本匹配的真实图像Ir和文本特征向量时,正确图像类别为Cr,与Cr做交叉熵;当第二个判别器输入生成的虚假图像If和文本特征向量时,虚假图像的类别标签也为Cr,则与Cr作交叉熵;当第二个判别器输入和文本不匹配的错误图像Iw和文本特征向量时,错误图像的类别标签为Cw,则与Cw作交叉熵;
因此,第二阶段第二个判别器的损失函数如式(11)所示;
式中,LDc表示第二阶段第二个判别器的分类损失函数,H表示交叉熵函数,Dc表示类别判别器;
综上所述,第二阶段判别器最终损失函数如式(12)所示;
LD2=LDs+LDc (12);
式中,LD2表示第二阶段判别器的最终损失函数,LDs为第二阶段第一个判别器判断真假的损失函数,LDc为第二阶段第二个判别器的分类损失函数。
图2为本发明举例效果示意图,数据集为鸟类数据集,通过输入一段关于鸟的文本描述然后结合随机噪声向量z输入到模型的第一阶段中进行训练产生64×64像素的鸟的图片,然后对产生的64×64像素的鸟的图片进行预处理得到最终边缘锐化的图像再结合文本特征向量与鸟的类别与特征信息输入到模型的第二阶段中进行训练,最终生成256×256高像素的鸟的图片。
Claims (5)
1.一种基于StackGAN网络的文本生成图像方法,其特征在于,具体按照以下步骤实施:
步骤1,收集整理文本图像数据集;
步骤2,将收集好的文本图像数据集分成训练集和测试集;
步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段;低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;
步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别器中进行判别;
步骤5,将步骤4得到的64×64低分辨率图像进行预处理;
步骤6,将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN网络模型的第二阶段即高分辨率图像生成阶段生成器的输入,然后再结合图像的类别与重构信息,在第二阶段模型中进行训练,输出256×256高分辨率图像,然后送入到第二阶段的判别器中进行判别。
2.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤4中,具体过程如下:
步骤4.1,将训练集图像文本描述使用文本编码器进行编码,将文本描述表示为特征向量;
步骤4.3,将步骤4.2得到的条件变量c与随机噪声向量z进行拼接,作为第一阶段生成器的输入,然后通过全连接及上采样操作生成64×64像素的图像;训练中第一阶段生成器的损失函数如式(2)所示;
式中,G1和D1分别为第一阶段的生成器和判别器,LG1表示第一阶段生成器的损失函数,E表示期望,z表示随机噪声向量,t表示文本描述,pz表示随机噪声分布,pdata表示真实数据分布,LkL表示正则化函数,λ是正则化参数,设置为1;
步骤4.4,将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量输入到第一阶段的判别器中进行判别,如果判别器输出为1,则表示判别器输入的是和文本匹配的真实图像;如果判别器输出为0,则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像;第一阶段判别器的损失函数,如式(4)所示;
式中,LD1表示第一阶段判别器的损失函数,I1表示第一阶段64×64真实图像。
4.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤5中,预处理过程包括图像灰度化、边缘检测及边缘锐化,首先对图像进行灰度化处理,其次对灰度化图像进行边缘检测,最后对得到的边缘检测图像进行边缘锐化。
5.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤6中,具体过程如下:
步骤6.1,将第一阶段生成的64×64图像经过步骤5预处理后最终得到的图像与训练集图像文本描述一起输入到第二阶段的生成器中,生成器通过一系列卷积下采样操作后与文本特征向量进行拼接;
第二阶段生成器的损失函数如式(5)所示;
式中,Lg2表示第二阶段生成器的损失函数,E表示期望,s1表示第一阶段生成图像的预处理结果,PG1表示第一阶段生成图像结果分布,Ds为第二阶段的真假判别器,G2为第二阶段的生成器,λ0是一个平衡的正则化参数,设置为1;
步骤6.2,在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练,生成像素更好的256×256高分辨率图像;
第二阶段生成器图像的分类损失函数与Cr做交叉熵如式(6)所示;
式中,LGc表示第二阶段生成器的分类损失函数,H表示交叉熵函数,Dc表示类别判别器,If表示虚假图像,Cr表示正确图像类别;
第二阶段生成器图像特征重构误差函数如式(7)所示;
式中,Lfeature表示图像特征重构误差函数,FD为神经网络非线性函数,Ir表示真实图像;
第二阶段生成器图像像素重构误差函数如式(8)所示;
式中,Limage表示图像像素重构误差函数;
第二阶段生成器的最终损失函数如式(9)所示;
LG2=Lg2+LGc+λ1Lfeature+λ2Limage (9);
式中,LG2表示第二阶段生成器的最终损失函数,λ1和λ2为超参数,设置为1;
步骤6.3,将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量放入第二阶段的判别器中进行判别,第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配,第二个判别器判断输入图像所属类别;
当第一个判别器输入和文本匹配的真实图像Ir和文本特征向量时,与1作交叉熵;当第一个判别器输入生成的虚假图像If和文本特征向量时,则与0作交叉熵;当第一个判别器输入和文本不匹配的错误图像Iw和文本特征向量时,与0作交叉熵;
第二阶段第一个判别器的损失函数如式(10)所示;
式中,LDs表示第二阶段第一个判别器的损失函数,Ds表示真假判别器;
第二个判别器判断输入图像的类别,当第二个判别器输入和文本匹配的真实图像Ir和文本特征向量时,正确图像类别为Cr,与Cr做交叉熵;当第二个判别器输入生成的虚假图像If和文本特征向量时,虚假图像的类别标签也为Cr,则与Cr作交叉熵;当第二个判别器输入和文本不匹配的错误图像Iw和文本特征向量时,错误图像的类别标签为Cw,则与Cw作交叉熵;
第二阶段第二个判别器的损失函数如式(11)所示;
式中,LDc表示第二阶段第二个判别器的分类损失函数,Dc表示类别判别器;
第二阶段判别器最终损失函数如式(12)所示;
LD2=LDs+LDc (12);
式中,LD2表示第二阶段判别器的最终损失函数,LDs为第二阶段第一个判别器判断真假的损失函数,LDc为第二阶段第二个判别器的分类损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735650.6A CN111968193B (zh) | 2020-07-28 | 2020-07-28 | 一种基于StackGAN网络的文本生成图像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735650.6A CN111968193B (zh) | 2020-07-28 | 2020-07-28 | 一种基于StackGAN网络的文本生成图像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111968193A true CN111968193A (zh) | 2020-11-20 |
CN111968193B CN111968193B (zh) | 2023-11-21 |
Family
ID=73362826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010735650.6A Active CN111968193B (zh) | 2020-07-28 | 2020-07-28 | 一种基于StackGAN网络的文本生成图像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968193B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669215A (zh) * | 2021-01-05 | 2021-04-16 | 北京金山云网络技术有限公司 | 一种训练文本图像生成模型、文本图像生成的方法和装置 |
CN112765317A (zh) * | 2021-01-19 | 2021-05-07 | 东南大学 | 一种引入类信息的文本生成图像方法及装置 |
CN112884856A (zh) * | 2021-01-25 | 2021-06-01 | 浙江师范大学 | 基于谱归一化层级式生成对抗网络的文本生成图像方法 |
CN113052784A (zh) * | 2021-03-22 | 2021-06-29 | 大连理工大学 | 一种基于多辅助信息下的图像生成方法 |
CN113434918A (zh) * | 2021-06-28 | 2021-09-24 | 北京理工大学 | 一种基于文本的三维体素模型生成方法 |
CN113537416A (zh) * | 2021-09-17 | 2021-10-22 | 深圳市安软科技股份有限公司 | 基于生成式对抗网络的文本转换图像的方法及相关设备 |
CN116452906A (zh) * | 2023-03-03 | 2023-07-18 | 哈尔滨市科佳通用机电股份有限公司 | 基于文本描述的铁路货车故障图片生成方法 |
CN116710910A (zh) * | 2020-12-29 | 2023-09-05 | 迪真诺有限公司 | 以通过学习生成的条件为基础的设计生成方法及其装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018205885A (ja) * | 2017-05-31 | 2018-12-27 | 国立研究開発法人産業技術総合研究所 | 画像生成装置と画像生成方法 |
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN109543159A (zh) * | 2018-11-12 | 2019-03-29 | 南京德磐信息科技有限公司 | 一种文本生成图像方法及装置 |
US20190147321A1 (en) * | 2017-10-26 | 2019-05-16 | Preferred Networks, Inc. | Image generation method, image generation apparatus, and image generation program |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110176050A (zh) * | 2019-05-30 | 2019-08-27 | 清华大学深圳研究生院 | 文本生成图像的美学优化方法 |
CN110751698A (zh) * | 2019-09-27 | 2020-02-04 | 太原理工大学 | 一种基于混和网络模型的文本到图像的生成方法 |
CN110827213A (zh) * | 2019-10-11 | 2020-02-21 | 西安工程大学 | 一种基于生成式对抗网络的超分辨率图像修复方法 |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
US10713821B1 (en) * | 2019-06-27 | 2020-07-14 | Amazon Technologies, Inc. | Context aware text-to-image synthesis |
-
2020
- 2020-07-28 CN CN202010735650.6A patent/CN111968193B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018205885A (ja) * | 2017-05-31 | 2018-12-27 | 国立研究開発法人産業技術総合研究所 | 画像生成装置と画像生成方法 |
US20190147321A1 (en) * | 2017-10-26 | 2019-05-16 | Preferred Networks, Inc. | Image generation method, image generation apparatus, and image generation program |
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN109543159A (zh) * | 2018-11-12 | 2019-03-29 | 南京德磐信息科技有限公司 | 一种文本生成图像方法及装置 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110176050A (zh) * | 2019-05-30 | 2019-08-27 | 清华大学深圳研究生院 | 文本生成图像的美学优化方法 |
US10713821B1 (en) * | 2019-06-27 | 2020-07-14 | Amazon Technologies, Inc. | Context aware text-to-image synthesis |
CN110751698A (zh) * | 2019-09-27 | 2020-02-04 | 太原理工大学 | 一种基于混和网络模型的文本到图像的生成方法 |
CN110827213A (zh) * | 2019-10-11 | 2020-02-21 | 西安工程大学 | 一种基于生成式对抗网络的超分辨率图像修复方法 |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
Non-Patent Citations (4)
Title |
---|
ANISH JAIN ET AL: ""Text to Image Generation of Fashion Clothing"", 《2019 6TH INTERNATIONAL CONFERENCE ON COMPUTING FOR SUSTAINABLE GLOBAL DEVELOPMENT (INDIACOM)》 * |
HAN ZHANG ET AL: ""StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks"", 《ARXIV:1612.03242 [CS.CV]》 * |
HAN ZHANG ZT AL: ""StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
黄韬;贾西平;林智勇;马震远;: "基于生成对抗网络的文本引导人物图像编辑方法", 广东技术师范大学学报, no. 03 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116710910A (zh) * | 2020-12-29 | 2023-09-05 | 迪真诺有限公司 | 以通过学习生成的条件为基础的设计生成方法及其装置 |
CN112669215A (zh) * | 2021-01-05 | 2021-04-16 | 北京金山云网络技术有限公司 | 一种训练文本图像生成模型、文本图像生成的方法和装置 |
CN112765317A (zh) * | 2021-01-19 | 2021-05-07 | 东南大学 | 一种引入类信息的文本生成图像方法及装置 |
WO2022156350A1 (zh) * | 2021-01-25 | 2022-07-28 | 浙江师范大学 | 基于谱归一化层级式生成对抗网络的文本生成图像方法 |
CN112884856A (zh) * | 2021-01-25 | 2021-06-01 | 浙江师范大学 | 基于谱归一化层级式生成对抗网络的文本生成图像方法 |
CN112884856B (zh) * | 2021-01-25 | 2023-06-02 | 浙江师范大学 | 基于谱归一化层级式生成对抗网络的文本生成图像方法 |
CN113052784A (zh) * | 2021-03-22 | 2021-06-29 | 大连理工大学 | 一种基于多辅助信息下的图像生成方法 |
CN113052784B (zh) * | 2021-03-22 | 2024-03-08 | 大连理工大学 | 一种基于多辅助信息下的图像生成方法 |
CN113434918B (zh) * | 2021-06-28 | 2022-12-02 | 北京理工大学 | 一种基于文本的三维体素模型生成方法 |
CN113434918A (zh) * | 2021-06-28 | 2021-09-24 | 北京理工大学 | 一种基于文本的三维体素模型生成方法 |
CN113537416A (zh) * | 2021-09-17 | 2021-10-22 | 深圳市安软科技股份有限公司 | 基于生成式对抗网络的文本转换图像的方法及相关设备 |
CN116452906A (zh) * | 2023-03-03 | 2023-07-18 | 哈尔滨市科佳通用机电股份有限公司 | 基于文本描述的铁路货车故障图片生成方法 |
CN116452906B (zh) * | 2023-03-03 | 2024-01-30 | 哈尔滨市科佳通用机电股份有限公司 | 基于文本描述的铁路货车故障图片生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111968193B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968193B (zh) | 一种基于StackGAN网络的文本生成图像方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN101253514B (zh) | 文档可视结构的语法剖析 | |
CN109472024A (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN112257647A (zh) | 基于注意力机制的人脸表情识别方法 | |
Daihong et al. | Multi-scale generative adversarial network for image super-resolution | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
Naveen et al. | Transformer models for enhancing AttnGAN based text to image generation | |
CN113642621A (zh) | 基于生成对抗网络的零样本图像分类方法 | |
CN107967497A (zh) | 基于卷积神经网络和极限学习机的手写体识别方法 | |
Puscasiu et al. | Automated image captioning | |
CN113378949A (zh) | 一种基于胶囊网络和混合注意力的双重生成对抗学习方法 | |
CN116630183A (zh) | 一种基于生成式对抗网络的文字图像修复方法 | |
Yang et al. | A novel degraded document binarization model through vision transformer network | |
CN113537322B (zh) | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
AlAjlan et al. | Machine learning approach for threat detection on social media posts containing Arabic text | |
CN114022582A (zh) | 一种文本生成图像方法 | |
Singh et al. | A deep learning approach for human face sentiment classification | |
CN111859925A (zh) | 一种基于概率情感词典的情感分析系统及方法 | |
CN115758218A (zh) | 一种基于长短时特征和决策融合的三模态情感分析方法 | |
CN115661578A (zh) | 一种工业缺陷图像生成方法 | |
CN111966828B (zh) | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 | |
CN110109994B (zh) | 包含结构化和非结构化数据的汽车金融风控系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |