CN111968193A - 一种基于StackGAN网络的文本生成图像方法 - Google Patents

一种基于StackGAN网络的文本生成图像方法 Download PDF

Info

Publication number
CN111968193A
CN111968193A CN202010735650.6A CN202010735650A CN111968193A CN 111968193 A CN111968193 A CN 111968193A CN 202010735650 A CN202010735650 A CN 202010735650A CN 111968193 A CN111968193 A CN 111968193A
Authority
CN
China
Prior art keywords
image
stage
discriminator
text
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010735650.6A
Other languages
English (en)
Other versions
CN111968193B (zh
Inventor
李云红
朱绵云
聂梦轩
穆兴
贾凯莉
姚兰
罗雪敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202010735650.6A priority Critical patent/CN111968193B/zh
Publication of CN111968193A publication Critical patent/CN111968193A/zh
Application granted granted Critical
Publication of CN111968193B publication Critical patent/CN111968193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • G06T5/73
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于StackGAN网络的文本生成图像方法,具体为:收集整理文本图像数据集并分成训练集和测试集;构建StackGAN网络文本生成图像模型,分两个阶段进行训练,每个阶段由生成器和判别器构成;将训练集图像对应的文本描述与随机噪声向量输入到模型的第一阶段进行训练,生成64×64的低分辨率图像,再进行预处理;最后,将图像再结合训练集图像文本描述输入到模型的第二阶段,结合图像的类别与重构信息进行训练,最终输出256×256高分辨率图像。采用分段式训练模型,有利于对图像的轮廓信息、图像的类别及特征与像素信息进行定位,保证生成图像的边缘清晰,生成的图像像素更好,细节和纹理更加细腻真实。

Description

一种基于StackGAN网络的文本生成图像方法
技术领域
本发明属于计算机视觉与自然语言处理技术领域,具体涉及一种基于StackGAN网络的文本生成图像方法。
背景技术
随着互联网技术的迅猛发展,数以万计的图像信息丰富了人们的生活。与此同时,人们对图像信息的要求也越来越高,含有特定意义的图像还是不能满足人们的需求,为了让计算机能根据人们的需求自动生成有意义的图像,文本生成图像任务应运而生。
文本生成图像是结合计算机视觉与自然语言处理两个领域的综合性任务,近年来,由于深度学习等技术的迅速发展,在计算机视觉、自然语言处理等方面取得了长足的进步,2014年6月,生成式对抗网络的诞生为文本生成图像任务提供了可能。2016年Reed等人第一次将生成式对抗网络用于文本生成图像,使得文本生成图像任务有了突破性进展,其在游戏动漫设计、刑侦破案、绘图插画、广告设计、数据增强等领域具有广泛的应用前景。
目前,文本生成图像方法基本都是基于对抗网络训练的,传统的文本生成图像网络模型有GAWWN模型、GAN-INT-CLS模型等。现有的比较有影响力的模型有StackGAN模型、StackGAN++模型、AttnGAN模型。传统的GAWWN模型使用关键点和边界来标记对象的位置信息,从而实现了可以在图像的相应位置绘制相应的内容。GAN-INT-CLS模型经在数据集上实验可生成64×64像素的图像。针对传统模型生成图像质量不高的问题,随后提出了StackGAN网络模型,该模型将两个生成对抗网络叠加起来,第一个生成对抗网络生成相对粗糙的64×64的图像,第二个生成对抗网络能够修正之前生成的图像并添加细节,最终生成256×256像素的高分辨率图像。随后,作为对StackGAN网络的改进,在堆栈生成对抗网络的基础上提出了一种树状生成对抗网络结构StackGAN++网络模型,该网络模型是将三个生成对抗网络堆叠起来,三个生成对抗网络分别先后生成64×64、128×128、256×256像素的图像,使生成图像的综合效果得到改善。AttnGAN模型中可以选择单词级别的信息,通过将图像生成分为多个阶段并为每个阶段添加注意力机制,迭代地生成图像的细节。
以上方法虽然都在一定程度上改善了生成图像的质量,但是在生成图像的轮廓,细节纹理等方面还是存在不足,生成的图像存在边缘轮廓模糊,细节纹理不清晰等问题。
发明内容
本发明的目的是提供一种基于StackGAN网络的文本生成图像方法,解决了现有技术中存在的生成的图像边缘轮廓模糊、细节纹理不清晰的问题。
本发明所采用的技术方案是,一种基于StackGAN网络的文本生成图像方法,具体按照以下步骤实施:
步骤1,收集整理文本图像数据集;
步骤2,将收集好的文本图像数据集分成训练集和测试集;
步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段;低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;
步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别器中进行判别;
步骤5,将步骤4得到的64×64低分辨率图像进行预处理;
步骤6,将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN网络模型的第二阶段即高分辨率图像生成阶段生成器的输入,然后再结合图像的类别与重构信息,在第二阶段模型中进行训练,输出256×256高分辨率图像,然后送入到第二阶段的判别器中进行判别。
本发明的特点还在于,
步骤4中,具体过程如下:
步骤4.1,将训练集图像文本描述使用文本编码器进行编码,将文本描述表示为特征向量;
步骤4.2,采用条件增强模型产生一个附加条件变量c;具体是将文本特征向量
Figure BDA0002604938510000031
通过全连接层得到均值向量
Figure BDA0002604938510000032
和协方差矩阵
Figure BDA0002604938510000033
然后从单位高斯分布N(0,1)中随机采样ε,得到最终条件变量c的表达式,如式(1)所示:
Figure BDA0002604938510000041
其中,c表示条件变量,
Figure BDA0002604938510000042
表示文本特征向量,
Figure BDA0002604938510000043
表示均值向量,
Figure BDA0002604938510000044
表示协方差矩阵,⊙表示矩阵元素对应相乘;
步骤4.3,将步骤4.2得到的条件变量c与随机噪声向量z进行拼接,作为第一阶段生成器的输入,然后通过全连接及上采样操作生成64×64像素的图像;训练中第一阶段生成器的损失函数如式(2)所示;
Figure BDA0002604938510000045
式中,G1和D1分别为第一阶段的生成器和判别器,LG1表示第一阶段生成器的损失函数,E表示期望,z表示随机噪声向量,t表示文本描述,pz表示随机噪声分布,pdata表示真实数据分布,LkL表示正则化函数,λ是正则化参数,设置为1;
步骤4.4,将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量
Figure BDA0002604938510000048
输入到第一阶段的判别器中进行判别,如果判别器输出为1,则表示判别器输入的是和文本匹配的真实图像;如果判别器输出为0,则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像;第一阶段判别器的损失函数,如式(4)所示;
Figure BDA0002604938510000046
式中,LD1表示第一阶段判别器的损失函数,I1表示第一阶段64×64真实图像。
步骤4.3中,正则化函数,如式(3)所示;
Figure BDA0002604938510000047
式中,LkL表示正则化函数,DkL表示标准高斯分布和条件高斯分布之间的KL散度,
Figure BDA0002604938510000051
表示独立高斯分布,N(0,1)表示标准正态分布。
步骤5中,预处理过程包括图像灰度化、边缘检测及边缘锐化,首先对图像进行灰度化处理,其次对灰度化图像进行边缘检测,最后对得到的边缘检测图像进行边缘锐化。
步骤6中,具体过程如下:
步骤6.1,将第一阶段生成的64×64图像经过步骤5预处理后最终得到的图像与训练集图像文本描述一起输入到第二阶段的生成器中,生成器通过一系列卷积下采样操作后与文本特征向量进行拼接;
第二阶段生成器的损失函数如式(5)所示;
Figure BDA0002604938510000052
式中,Lg2表示第二阶段生成器的损失函数,E表示期望,s1表示第一阶段生成图像的预处理结果,PG1表示第一阶段生成图像结果分布,Ds为第二阶段的真假判别器,G2为第二阶段的生成器,λ0是一个平衡的正则化参数,设置为1;
步骤6.2,在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练,生成像素更好的256×256高分辨率图像;
第二阶段生成器图像的分类损失函数与Cr做交叉熵如式(6)所示;
Figure BDA0002604938510000053
式中,LGc表示第二阶段生成器的分类损失函数,H表示交叉熵函数,Dc表示类别判别器,If表示虚假图像,Cr表示正确图像类别;
第二阶段生成器图像特征重构误差函数如式(7)所示;
Figure BDA0002604938510000061
式中,Lfeature表示图像特征重构误差函数,FD为神经网络非线性函数,Ir表示真实图像;
第二阶段生成器图像像素重构误差函数如式(8)所示;
Figure BDA0002604938510000062
式中,Limage表示图像像素重构误差函数;
第二阶段生成器的最终损失函数如式(9)所示;
LG2=Lg2+LGc1Lfeature2Limage (9);
式中,LG2表示第二阶段生成器的最终损失函数,λ1和λ2为超参数,设置为1;
步骤6.3,将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量
Figure BDA0002604938510000063
放入第二阶段的判别器中进行判别,第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配,第二个判别器判断输入图像所属类别;
当第一个判别器输入和文本匹配的真实图像Ir和文本特征向量
Figure BDA0002604938510000064
时,与1作交叉熵;当第一个判别器输入生成的虚假图像If和文本特征向量
Figure BDA0002604938510000065
时,则与0作交叉熵;当第一个判别器输入和文本不匹配的错误图像Iw和文本特征向量
Figure BDA0002604938510000066
时,与0作交叉熵;
第二阶段第一个判别器的损失函数如式(10)所示;
Figure BDA0002604938510000067
式中,LDs表示第二阶段第一个判别器的损失函数,Ds表示真假判别器;
第二个判别器判断输入图像的类别,当第二个判别器输入和文本匹配的真实图像Ir和文本特征向量
Figure BDA0002604938510000071
时,正确图像类别为Cr,与Cr做交叉熵;当第二个判别器输入生成的虚假图像If和文本特征向量
Figure BDA0002604938510000072
时,虚假图像的类别标签也为Cr,则与Cr作交叉熵;当第二个判别器输入和文本不匹配的错误图像Iw和文本特征向量
Figure BDA0002604938510000073
时,错误图像的类别标签为Cw,则与Cw作交叉熵;
第二阶段第二个判别器的损失函数如式(11)所示;
Figure BDA0002604938510000074
式中,LDc表示第二阶段第二个判别器的分类损失函数,Dc表示类别判别器;
第二阶段判别器最终损失函数如式(12)所示;
LD2=LDs+LDc (12);
式中,LD2表示第二阶段判别器的最终损失函数,LDs为第二阶段第一个判别器判断真假的损失函数,LDc为第二阶段第二个判别器的分类损失函数。
本发明的有益效果是:
(1)本发明一种基于StackGAN网络的文本生成图像方法,采用分段式训练模型,分别对低分辨率图像和高分辨率图像的生成进行训练,有利于提高生成图像的质量;
(2)本发明一种基于StackGAN网络的文本生成图像方法,该方法将模型第一阶段生成的64×64低分辨率的图像进行预处理(图像灰度化、边缘检测、边缘锐化)后,再结合训练集图像文本描述作为模型第二阶段生成器的输入,有利于对图像的轮廓信息进行定位,保证生成图像的边缘清晰不模糊;
(3)本发明一种基于StackGAN网络的文本生成图像方法,该方法在模型第二阶段的生成器中加入了图像的类别信息、特征重构损失及像素重构损失,有利于对图像的类别及特征与像素信息进行定位,使生成模型更加接近真实样本,生成的图像像素更好,细节和纹理更加细腻真实;
(4)本发明一种基于StackGAN网络的文本生成图像方法,该方法在每个阶段的生成器损失中都加入了正则化项,防止文本生成图像模型训练时过拟合,提升模型训练的稳定性。
附图说明
图1是本发明一种基于StackGAN网络的文本生成图像方法的整体流程示意图;
图2是本发明一种基于StackGAN网络的文本生成图像方法的举例效果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于StackGAN网络的文本生成图像方法,如图1所示,具体按照以下步骤实施:
步骤1,收集整理文本图像数据集;
步骤2,将收集好的文本图像数据集分成训练集和测试集;
步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段。低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;
步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别器中进行判别;具体过程如下:
步骤4.1,将训练集图像文本描述使用文本编码器进行编码,将文本描述表示为特征向量;
步骤4.2,采用条件增强模型产生一个附加条件变量c,避免由高维向量导致潜在数据流不连续,不利于生成模型学习的问题;具体是将文本特征向量
Figure BDA0002604938510000091
通过全连接层得到均值向量
Figure BDA0002604938510000092
和协方差矩阵
Figure BDA0002604938510000093
然后从单位高斯分布N(0,1)中随机采样ε,得到最终条件变量c的表达式,如式(1)所示:
Figure BDA0002604938510000094
其中,c表示条件变量,
Figure BDA0002604938510000095
表示文本特征向量,
Figure BDA0002604938510000096
表示均值向量,
Figure BDA0002604938510000097
表示协方差矩阵,⊙表示矩阵元素对应相乘;
步骤4.3,将步骤4.2得到的条件变量c与随机噪声向量z进行拼接,作为第一阶段生成器的输入,然后通过全连接及上采样操作生成64×64像素的图像;训练中第一阶段生成器的损失函数如式(2)所示;
Figure BDA0002604938510000098
式中,G1和D1分别为第一阶段的生成器和判别器,LG1表示第一阶段生成器的损失函数,E表示期望,z表示随机噪声向量,t表示文本描述,pz表示随机噪声分布,pdata表示真实数据分布,log为对数函数,c表示条件变量,
Figure BDA0002604938510000101
表示文本特征向量,LkL表示正则化函数,λ是一个平衡的正则化参数,设置为1;
为避免模型训练过拟合,在生成器的损失函数中加入正则化函数,如式(3)所示;
Figure BDA0002604938510000102
式中,LkL表示正则化函数,DkL表示标准高斯分布和条件高斯分布之间的KL散度,
Figure BDA0002604938510000103
表示独立高斯分布,
Figure BDA0002604938510000104
表示均值向量,
Figure BDA0002604938510000105
表示协方差矩阵,N(0,1)表示标准正态分布;
步骤4.4,将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量
Figure BDA0002604938510000108
输入到第一阶段的判别器中进行判别,如果判别器输出为1,则表示判别器输入的是和文本匹配的真实图像;如果判别器输出为0,则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像;第一阶段判别器的损失函数,如式(4)所示;
Figure BDA0002604938510000106
式中,G1和D1分别为第一阶段的生成器和判别器,LD1表示第一阶段判别器的损失函数,E表示期望,I1表示第一阶段64×64真实图像,t表示文本描述,z表示随机噪声向量,pdata表示真实数据分布,pz表示随机噪声分布,log为对数函数,c表示条件变量,
Figure BDA0002604938510000107
表示文本特征向量;
步骤5,将步骤4得到的64×64低分辨率图像进行预处理,包括图像灰度化、边缘检测及边缘锐化,首先对图像进行灰度化处理,其次对灰度化图像进行边缘检测,最后对得到的边缘检测图像进行边缘锐化,使边缘轮廓更加清晰;
步骤6,将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN模型的第二阶段即高分辨率图像生成阶段生成器的输入,然后再结合图像的类别与重构信息(特征重构信息与像素重构信息)在第二阶段模型中进行训练,输出256×256高分辨率图像,然后送入到第二阶段的判别器中进行判别;具体过程如下:
步骤6.1,将第一阶段生成的64×64图像经过步骤5预处理后最终得到的边缘锐化图像与训练集图像文本描述一起输入到第二阶段的生成器中,生成器通过一系列卷积下采样操作后与文本特征向量进行拼接;
在第二阶段生成器训练过程中,生成器的部分损失由判别器传递回来,判别器要判断输入图像的真假,生成器则要尽可能地使判别器认为生成的图像是真实图像,因此第二阶段生成器的损失函数如式(5)所示;
Figure BDA0002604938510000111
式中,Lg2表示第二阶段生成器的损失函数,E表示期望,s1表示第一阶段生成图像的预处理结果,PG1表示第一阶段生成图像结果分布,t表示文本描述,pdata表示真实数据分布,Ds为第二阶段的真假判别器,G2为第二阶段的生成器,c为条件变量,LkL表示正则化函数,λ0是一个平衡的正则化参数,设置为1;
步骤6.2,在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练,目的是使生成图像细节更加细腻真实,生成像素更好的256×256高分辨率图像;
第二阶段生成器图像的分类损失函数与Cr做交叉熵如式(6)所示;
Figure BDA0002604938510000121
式中,LGc表示第二阶段生成器的分类损失函数,H表示交叉熵函数,Dc表示类别判别器,If表示虚假图像,
Figure BDA0002604938510000122
表示文本特征向量,Cr表示正确图像类别;
第二阶段生成器图像特征重构误差函数如式(7)所示;
Figure BDA0002604938510000123
式中,Lfeature表示图像特征重构误差函数,FD为神经网络非线性函数,If表示虚假图像,
Figure BDA0002604938510000124
为文本特征向量,Ir表示真实图像;
第二阶段生成器图像像素重构误差函数如式(8)所示;
Figure BDA0002604938510000125
式中,Limage表示图像像素重构误差函数,If表示虚假图像,Ir表示真实图像;
综上所述,第二阶段生成器的最终损失函数如式(9)所示;
LG2=Lg2+LGc1Lfeature2Limage (9);
式中,LG2表示第二阶段生成器的最终损失函数,Lg2表示第二阶段生成器最初的损失函数,LGc表示第二阶段生成器的分类损失函数,Lfeature表示图像特征重构误差函数,Limage表示图像像素重构误差函数,λ1和λ2为超参数,一般设置它们为1;
步骤6.3,将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量
Figure BDA0002604938510000137
放入第二阶段的判别器中进行判别,在第二阶段的末尾有两个判别器,第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配,第二个判别器判断输入图像所属类别;
当第一个判别器输入和文本匹配的真实图像Ir和文本特征向量
Figure BDA0002604938510000131
时,与1作交叉熵;当第一个判别器输入生成的虚假图像If和文本特征向量
Figure BDA0002604938510000132
时,则与0作交叉熵;当第一个判别器输入和文本不匹配的错误图像Iw和文本特征向量
Figure BDA0002604938510000133
时,与0作交叉熵;
因此,第二阶段第一个判别器的损失函数如式(10)所示;
Figure BDA0002604938510000134
式中,LDs表示第二阶段第一个判别器的损失函数,H表示交叉熵函数,Ds表示真假判别器;
第二个判别器判断输入图像的类别,当第二个判别器输入和文本匹配的真实图像Ir和文本特征向量
Figure BDA0002604938510000138
时,正确图像类别为Cr,与Cr做交叉熵;当第二个判别器输入生成的虚假图像If和文本特征向量
Figure BDA0002604938510000135
时,虚假图像的类别标签也为Cr,则与Cr作交叉熵;当第二个判别器输入和文本不匹配的错误图像Iw和文本特征向量
Figure BDA0002604938510000136
时,错误图像的类别标签为Cw,则与Cw作交叉熵;
因此,第二阶段第二个判别器的损失函数如式(11)所示;
Figure BDA0002604938510000141
式中,LDc表示第二阶段第二个判别器的分类损失函数,H表示交叉熵函数,Dc表示类别判别器;
综上所述,第二阶段判别器最终损失函数如式(12)所示;
LD2=LDs+LDc (12);
式中,LD2表示第二阶段判别器的最终损失函数,LDs为第二阶段第一个判别器判断真假的损失函数,LDc为第二阶段第二个判别器的分类损失函数。
图2为本发明举例效果示意图,数据集为鸟类数据集,通过输入一段关于鸟的文本描述然后结合随机噪声向量z输入到模型的第一阶段中进行训练产生64×64像素的鸟的图片,然后对产生的64×64像素的鸟的图片进行预处理得到最终边缘锐化的图像再结合文本特征向量与鸟的类别与特征信息输入到模型的第二阶段中进行训练,最终生成256×256高像素的鸟的图片。

Claims (5)

1.一种基于StackGAN网络的文本生成图像方法,其特征在于,具体按照以下步骤实施:
步骤1,收集整理文本图像数据集;
步骤2,将收集好的文本图像数据集分成训练集和测试集;
步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段;低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;
步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别器中进行判别;
步骤5,将步骤4得到的64×64低分辨率图像进行预处理;
步骤6,将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN网络模型的第二阶段即高分辨率图像生成阶段生成器的输入,然后再结合图像的类别与重构信息,在第二阶段模型中进行训练,输出256×256高分辨率图像,然后送入到第二阶段的判别器中进行判别。
2.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤4中,具体过程如下:
步骤4.1,将训练集图像文本描述使用文本编码器进行编码,将文本描述表示为特征向量;
步骤4.2,采用条件增强模型产生一个附加条件变量c;具体是将文本特征向量
Figure FDA0002604938500000021
通过全连接层得到均值向量
Figure FDA0002604938500000022
和协方差矩阵
Figure FDA0002604938500000023
然后从单位高斯分布N(0,1)中随机采样ε,得到最终条件变量c的表达式,如式(1)所示:
Figure FDA0002604938500000024
其中,c表示条件变量,
Figure FDA0002604938500000025
表示文本特征向量,
Figure FDA0002604938500000026
表示均值向量,
Figure FDA0002604938500000027
表示协方差矩阵,⊙表示矩阵元素对应相乘;
步骤4.3,将步骤4.2得到的条件变量c与随机噪声向量z进行拼接,作为第一阶段生成器的输入,然后通过全连接及上采样操作生成64×64像素的图像;训练中第一阶段生成器的损失函数如式(2)所示;
Figure FDA0002604938500000028
式中,G1和D1分别为第一阶段的生成器和判别器,LG1表示第一阶段生成器的损失函数,E表示期望,z表示随机噪声向量,t表示文本描述,pz表示随机噪声分布,pdata表示真实数据分布,LkL表示正则化函数,λ是正则化参数,设置为1;
步骤4.4,将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量
Figure FDA0002604938500000029
输入到第一阶段的判别器中进行判别,如果判别器输出为1,则表示判别器输入的是和文本匹配的真实图像;如果判别器输出为0,则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像;第一阶段判别器的损失函数,如式(4)所示;
Figure FDA00026049385000000210
式中,LD1表示第一阶段判别器的损失函数,I1表示第一阶段64×64真实图像。
3.根据权利要求2所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤4.3中,正则化函数,如式(3)所示;
Figure FDA0002604938500000031
式中,LkL表示正则化函数,DkL表示标准高斯分布和条件高斯分布之间的KL散度,
Figure FDA0002604938500000032
表示独立高斯分布,N(0,1)表示标准正态分布。
4.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤5中,预处理过程包括图像灰度化、边缘检测及边缘锐化,首先对图像进行灰度化处理,其次对灰度化图像进行边缘检测,最后对得到的边缘检测图像进行边缘锐化。
5.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤6中,具体过程如下:
步骤6.1,将第一阶段生成的64×64图像经过步骤5预处理后最终得到的图像与训练集图像文本描述一起输入到第二阶段的生成器中,生成器通过一系列卷积下采样操作后与文本特征向量进行拼接;
第二阶段生成器的损失函数如式(5)所示;
Figure FDA0002604938500000033
式中,Lg2表示第二阶段生成器的损失函数,E表示期望,s1表示第一阶段生成图像的预处理结果,PG1表示第一阶段生成图像结果分布,Ds为第二阶段的真假判别器,G2为第二阶段的生成器,λ0是一个平衡的正则化参数,设置为1;
步骤6.2,在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练,生成像素更好的256×256高分辨率图像;
第二阶段生成器图像的分类损失函数与Cr做交叉熵如式(6)所示;
Figure FDA0002604938500000041
式中,LGc表示第二阶段生成器的分类损失函数,H表示交叉熵函数,Dc表示类别判别器,If表示虚假图像,Cr表示正确图像类别;
第二阶段生成器图像特征重构误差函数如式(7)所示;
Figure FDA0002604938500000042
式中,Lfeature表示图像特征重构误差函数,FD为神经网络非线性函数,Ir表示真实图像;
第二阶段生成器图像像素重构误差函数如式(8)所示;
Figure FDA0002604938500000043
式中,Limage表示图像像素重构误差函数;
第二阶段生成器的最终损失函数如式(9)所示;
LG2=Lg2+LGc1Lfeature2Limage (9);
式中,LG2表示第二阶段生成器的最终损失函数,λ1和λ2为超参数,设置为1;
步骤6.3,将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量
Figure FDA0002604938500000044
放入第二阶段的判别器中进行判别,第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配,第二个判别器判断输入图像所属类别;
当第一个判别器输入和文本匹配的真实图像Ir和文本特征向量
Figure FDA0002604938500000051
时,与1作交叉熵;当第一个判别器输入生成的虚假图像If和文本特征向量
Figure FDA0002604938500000052
时,则与0作交叉熵;当第一个判别器输入和文本不匹配的错误图像Iw和文本特征向量
Figure FDA0002604938500000053
时,与0作交叉熵;
第二阶段第一个判别器的损失函数如式(10)所示;
Figure FDA0002604938500000054
式中,LDs表示第二阶段第一个判别器的损失函数,Ds表示真假判别器;
第二个判别器判断输入图像的类别,当第二个判别器输入和文本匹配的真实图像Ir和文本特征向量
Figure FDA0002604938500000055
时,正确图像类别为Cr,与Cr做交叉熵;当第二个判别器输入生成的虚假图像If和文本特征向量
Figure FDA0002604938500000056
时,虚假图像的类别标签也为Cr,则与Cr作交叉熵;当第二个判别器输入和文本不匹配的错误图像Iw和文本特征向量
Figure FDA0002604938500000057
时,错误图像的类别标签为Cw,则与Cw作交叉熵;
第二阶段第二个判别器的损失函数如式(11)所示;
Figure FDA0002604938500000058
式中,LDc表示第二阶段第二个判别器的分类损失函数,Dc表示类别判别器;
第二阶段判别器最终损失函数如式(12)所示;
LD2=LDs+LDc (12);
式中,LD2表示第二阶段判别器的最终损失函数,LDs为第二阶段第一个判别器判断真假的损失函数,LDc为第二阶段第二个判别器的分类损失函数。
CN202010735650.6A 2020-07-28 2020-07-28 一种基于StackGAN网络的文本生成图像方法 Active CN111968193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010735650.6A CN111968193B (zh) 2020-07-28 2020-07-28 一种基于StackGAN网络的文本生成图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010735650.6A CN111968193B (zh) 2020-07-28 2020-07-28 一种基于StackGAN网络的文本生成图像方法

Publications (2)

Publication Number Publication Date
CN111968193A true CN111968193A (zh) 2020-11-20
CN111968193B CN111968193B (zh) 2023-11-21

Family

ID=73362826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010735650.6A Active CN111968193B (zh) 2020-07-28 2020-07-28 一种基于StackGAN网络的文本生成图像方法

Country Status (1)

Country Link
CN (1) CN111968193B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669215A (zh) * 2021-01-05 2021-04-16 北京金山云网络技术有限公司 一种训练文本图像生成模型、文本图像生成的方法和装置
CN112765317A (zh) * 2021-01-19 2021-05-07 东南大学 一种引入类信息的文本生成图像方法及装置
CN112884856A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN113052784A (zh) * 2021-03-22 2021-06-29 大连理工大学 一种基于多辅助信息下的图像生成方法
CN113434918A (zh) * 2021-06-28 2021-09-24 北京理工大学 一种基于文本的三维体素模型生成方法
CN113537416A (zh) * 2021-09-17 2021-10-22 深圳市安软科技股份有限公司 基于生成式对抗网络的文本转换图像的方法及相关设备
CN116452906A (zh) * 2023-03-03 2023-07-18 哈尔滨市科佳通用机电股份有限公司 基于文本描述的铁路货车故障图片生成方法
CN116710910A (zh) * 2020-12-29 2023-09-05 迪真诺有限公司 以通过学习生成的条件为基础的设计生成方法及其装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018205885A (ja) * 2017-05-31 2018-12-27 国立研究開発法人産業技術総合研究所 画像生成装置と画像生成方法
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
US20190147321A1 (en) * 2017-10-26 2019-05-16 Preferred Networks, Inc. Image generation method, image generation apparatus, and image generation program
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN110176050A (zh) * 2019-05-30 2019-08-27 清华大学深圳研究生院 文本生成图像的美学优化方法
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法
CN110827213A (zh) * 2019-10-11 2020-02-21 西安工程大学 一种基于生成式对抗网络的超分辨率图像修复方法
CN111340907A (zh) * 2020-03-03 2020-06-26 曲阜师范大学 一种自适应属性和实例掩码嵌入图的文本到图像生成方法
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018205885A (ja) * 2017-05-31 2018-12-27 国立研究開発法人産業技術総合研究所 画像生成装置と画像生成方法
US20190147321A1 (en) * 2017-10-26 2019-05-16 Preferred Networks, Inc. Image generation method, image generation apparatus, and image generation program
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN110176050A (zh) * 2019-05-30 2019-08-27 清华大学深圳研究生院 文本生成图像的美学优化方法
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法
CN110827213A (zh) * 2019-10-11 2020-02-21 西安工程大学 一种基于生成式对抗网络的超分辨率图像修复方法
CN111340907A (zh) * 2020-03-03 2020-06-26 曲阜师范大学 一种自适应属性和实例掩码嵌入图的文本到图像生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANISH JAIN ET AL: ""Text to Image Generation of Fashion Clothing"", 《2019 6TH INTERNATIONAL CONFERENCE ON COMPUTING FOR SUSTAINABLE GLOBAL DEVELOPMENT (INDIACOM)》 *
HAN ZHANG ET AL: ""StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks"", 《ARXIV:1612.03242 [CS.CV]》 *
HAN ZHANG ZT AL: ""StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
黄韬;贾西平;林智勇;马震远;: "基于生成对抗网络的文本引导人物图像编辑方法", 广东技术师范大学学报, no. 03 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116710910A (zh) * 2020-12-29 2023-09-05 迪真诺有限公司 以通过学习生成的条件为基础的设计生成方法及其装置
CN112669215A (zh) * 2021-01-05 2021-04-16 北京金山云网络技术有限公司 一种训练文本图像生成模型、文本图像生成的方法和装置
CN112765317A (zh) * 2021-01-19 2021-05-07 东南大学 一种引入类信息的文本生成图像方法及装置
WO2022156350A1 (zh) * 2021-01-25 2022-07-28 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN112884856A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN112884856B (zh) * 2021-01-25 2023-06-02 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN113052784A (zh) * 2021-03-22 2021-06-29 大连理工大学 一种基于多辅助信息下的图像生成方法
CN113052784B (zh) * 2021-03-22 2024-03-08 大连理工大学 一种基于多辅助信息下的图像生成方法
CN113434918B (zh) * 2021-06-28 2022-12-02 北京理工大学 一种基于文本的三维体素模型生成方法
CN113434918A (zh) * 2021-06-28 2021-09-24 北京理工大学 一种基于文本的三维体素模型生成方法
CN113537416A (zh) * 2021-09-17 2021-10-22 深圳市安软科技股份有限公司 基于生成式对抗网络的文本转换图像的方法及相关设备
CN116452906A (zh) * 2023-03-03 2023-07-18 哈尔滨市科佳通用机电股份有限公司 基于文本描述的铁路货车故障图片生成方法
CN116452906B (zh) * 2023-03-03 2024-01-30 哈尔滨市科佳通用机电股份有限公司 基于文本描述的铁路货车故障图片生成方法

Also Published As

Publication number Publication date
CN111968193B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN111968193B (zh) 一种基于StackGAN网络的文本生成图像方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN101253514B (zh) 文档可视结构的语法剖析
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN112257647A (zh) 基于注意力机制的人脸表情识别方法
Daihong et al. Multi-scale generative adversarial network for image super-resolution
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
Naveen et al. Transformer models for enhancing AttnGAN based text to image generation
CN113642621A (zh) 基于生成对抗网络的零样本图像分类方法
CN107967497A (zh) 基于卷积神经网络和极限学习机的手写体识别方法
Puscasiu et al. Automated image captioning
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN116630183A (zh) 一种基于生成式对抗网络的文字图像修复方法
Yang et al. A novel degraded document binarization model through vision transformer network
CN113537322B (zh) 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
AlAjlan et al. Machine learning approach for threat detection on social media posts containing Arabic text
CN114022582A (zh) 一种文本生成图像方法
Singh et al. A deep learning approach for human face sentiment classification
CN111859925A (zh) 一种基于概率情感词典的情感分析系统及方法
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
CN115661578A (zh) 一种工业缺陷图像生成方法
CN111966828B (zh) 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法
CN110109994B (zh) 包含结构化和非结构化数据的汽车金融风控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant