CN114332565A - 一种基于分布估计的条件生成对抗网络文本生成图像方法 - Google Patents

一种基于分布估计的条件生成对抗网络文本生成图像方法 Download PDF

Info

Publication number
CN114332565A
CN114332565A CN202111670694.6A CN202111670694A CN114332565A CN 114332565 A CN114332565 A CN 114332565A CN 202111670694 A CN202111670694 A CN 202111670694A CN 114332565 A CN114332565 A CN 114332565A
Authority
CN
China
Prior art keywords
image
text
generator
generating
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111670694.6A
Other languages
English (en)
Inventor
俞俊
刘贝利
丁佳骏
范建平
付圣祺
沈铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111670694.6A priority Critical patent/CN114332565A/zh
Publication of CN114332565A publication Critical patent/CN114332565A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分布估计的条件生成对抗网络文本生成图像方法用。本发明步骤如下:步骤(1)、数据预处理,提取文本数据的特征;步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数;步骤(3)、引入基于分布估计的损失函数;步骤(4)、模型训练;根据得到的新的损失函数,在训练过程中对判别器Di和生成器Gi进行交替训练。本发明损失隐式地体现了单个文本生成无限次图像的影响,优化的目标为单个文本描述生成图像的特征分布。通过估计单个文本描述生成的图像的特征分布,来实现损失计算及梯度信息回传。在多个模型和数据集上的实验表明,基于分布估计的新损失函数能够有效提升文本生成图像模型的性能。

Description

一种基于分布估计的条件生成对抗网络文本生成图像方法
技术领域
本发明提到了一种基于分布估计的条件生成对抗神经网络(cGAN)的新损失形式,用于跨模态的文本生成图像任务。
背景技术
人类将书面文本内容形象化、视觉化的能力在许多认知过程中起重要的作用,如记忆,空间推理等。受人类可视化的能力的启发,构建一个在语言和视觉之间转化的跨模态系统,也成了人工智能领域新的追求。
图像是一种更准确、高效和便捷的信息共享和传递的方式,相比书面文本而言。近几年,深度学习的发展使计算机视觉和图像生成技术也更进一步。生成对抗神经网络(GAN)的出现使得图像生成任务可以以无监督的形式训练。同时,随着生成对抗网络(GAN)的进一步发展,文本描述这类条件变量也融合进了图像生成任务的框架内。通过条件生成对抗神经网络(cGAN),可以以文本描述为条件,生成与文本描述相对应的图像。文本描述能携带关于当前对象的属性、空间位置、关系等密集语义信息,并且可以表示不同的场景,从而实现了语言到视觉的转化过程。
从文本的描述生成图像(T2I)是一种复杂的计算机视觉和机器学习的任务,在多个领域有重要的应用,如图像编辑、计算机辅助设计、电子游戏等。
使用基于条件生成对抗神经网络(cGAN)是实现文本生成图像(T2I)的一种主流方法,在过去几年模型的架构和性能都有了一定的提升。其中包括文本特征提取更加细致,分为句子特征和单词特征;采用新的架构(如层叠结构逐步提升图像分辨、网络中引入注意力机制、动态内存机制等);引入新的文本到图像的生成(T2I)的多模态损失。近几年出现的一些优秀的算法,引入了上述改进,如StackGAN++、AttnGAN、DM-GAN等,在生成的图像质量、图像分辨率上有了很大的提升。同时在评价指标上,开发定义的新指标(R-值、语义对象准确性等),用来评价文本生成图像模型的性能。
然而,现有的模型仍存在着一些限制和缺陷。首先,是在一些数据量受限的数据集上训练(例如,Oxford-102Flowers和CUB-200Birds),图像总数都在10k左右,数据集的图像总量过小。判别器的训练往往容易产生过拟合现象,导致模型在一段时间的训练后,整体的性能很难再提升。
另外一个问题就是模型的性能不稳定,通过对模型生成的图像的观察统计,发现仍存在不少质量较差的图像,且许多方法的定量结果也很难复现(即使提供代码和模型)。文本到图像的生成(T2I)任务的评价指标基本都是从数据的分布出发,进行评价,少数质量较低的图像很难体现在评价指标上。应该考虑提升模型生成高质量图像的水平和整体训练的稳定性。
发明内容
本发明的目的是针对现有技术的不足,提出了一种基于分布估计的条件生成对抗网络文本生成图像方法。基于分布估计的条件生成对抗网络的新损失形式,用于提高文本生图像模型的性能和训练的稳定性。本发明提出的新损失函数是以单个文本描述生成大量图像的形式,通过同时惩罚大量的文本-图像对来提升整体生成图像的质量,从而提高模型的性能这一动机出发。
但实际情况是无法承受涉及生成大量图像的损失的计算消耗。通过对新损失函数进行数学推导,利用杰森不等式和矩母函数公式,可以得到一个易于计算的上界,该损失以特征的概率分布,隐式地体现单个文本描述进行无限次图像生成的影响,从分布的角度来约束损失,从而能更好地优化生成器和判别器。提高模型生成图像的质量。
一种基于分布估计的条件生成对抗网络文本生成图像方法,包括如下步骤:
步骤(1)、数据预处理,提取文本数据的特征;
对于文本生成图像任务的训练数据集和测试数据集。首先将相应地自然语言文本描述添加到CUB和MSCOCO图像数据集。CUB-200数据集作为鸟类数据集,有200类鸟类数据,按照指定的划分规定划分CUB-200数据集,训练集包含150类,测试集有50类鸟类数据。COCO数据集总共91类图像,也按规定的比例划分训练集和测试集。
对自然语言文本描述进行特征提取,得到一个文本特征集合。提取的文本特征集合包括全局的句子级别的特征和细粒度的单词级别的特征。具体就是使用一个预训练过的双向长短期记忆网络BiLSTM从自然语言文本描述中提取语义特征,形成每个单词的特征,通过最后的连接的隐藏状态得到句子的特征。
步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络(ConditionalGenerative Adversarial Networks,cGAN)和损失函数;
传统的条件生成对抗神经网络只有一组生成器和判别器,在生成高分辨图像上比较困难,本发明采用多阶段的条件生成对抗神经网络模型作为基准模型,利用其能堆叠生成器的能力,逐步了提高生成的图像的分辨率。
同时联合无条件生成对抗神经网络和有条件生成对抗神经网络来共同训练,对于无条件生成对抗神经网络,训练生成器生成能骗过判别器的假图,判别器能区分真实图像和虚假图像。为了控制图像生成符合描述的图像,还要训练有条件生成对抗神经网络,使用步骤(1)中提取的文本特征集合作为条件变量输入到生成器和判别器中,指导生成器生成逼近文本条件的图像分布,同时判别器能更好判别图像和文本条件是否匹配。所述的文本特征集合包含单词的特征和句子的特征。
步骤(3)、引入基于分布估计的损失函数;
将步骤(2)中的损失函数换成基于分布估计的新损失函数。将基于分布估计的新损失函数分别用在判别器和生成器的损失上。新损失函数假定单个文本描述生成的图像的特征都属于一个高斯分布,即:
Figure BDA0003452896040000041
Figure BDA0003452896040000042
其中,
Figure BDA0003452896040000043
是无条件生成对抗神经网络生成的图像的特征,
Figure BDA0003452896040000044
是有条件生成对抗神经网络生成的图像的特征,
Figure BDA0003452896040000045
Figure BDA0003452896040000046
分别是两个高斯分布的均值,
Figure BDA0003452896040000047
Figure BDA0003452896040000048
是高斯分布的协方差,i表示第i个文本描述。通过概率分布来约束模型的训练。
步骤(4)、模型训练,优化判别器和生成器,得到与文本描述相对应的图像。
进一步的,所述的步骤(1)所述的数据预处理,文本特征的提取具体如下:
引文数据集(CUB-200,COCO-2014),CUB-200是相对较小的数据集,总计包含200类的鸟类图像。按照指定的划分训练集和测试集,训练集包含8,855张图像,2,933张图像作为测试集。每张图像描述了一个单一的物体(鸟),每张图像有10个相关的文本描述。COCO由大约123k张图像组成,每张图像有5个描述。其中80k的图像被划分为训练集,40k的图像用作测试集。COCO数据集是物体类别比较多的数据集,数据量也是CUB-200鸟类数据集的数倍,可以更好地检验算法在实际场景下的性能。
对于数据集中的自然语言文本描述进行特征提取,使用一个预训练好的双向长短期记忆网络(BiLSTM)从文本描述中提取文本特征集合。在双向长短期记忆网络中,连接它的两个隐藏状态作为一个单词的特征。得到一个文本描述中所有单词的特征矩阵e∈RD×T,其中特征矩阵的第i列向量ei表示第i个单词的特征,D表示单词特征的维度,T是单词的数量。将最后一层隐藏状态连接起来,作为全局的句子特征
Figure BDA0003452896040000051
进一步的,所述的步骤(2)具体方法如下:
2-1采用DM-GAN作为基准模型,多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率,生成细节更丰富的图像。对于模型的生成器,给定随机噪声z~N(0,1)和条件变量c,通过F0和Fi得到生成器的输入h0=F0(c,z)和hi=Fi(hi-1,z),hi-1输入下一阶段生成器网络Fi得到hi,其中Fi是生成器的神经网络。对于生成器Gi,生成多阶段分辨率的图像xi=Gi(hi)。
2-2联合有条件和无条件生成对抗神经网络共同训练,模型的目标函数包含两项内容,分别是无条件损失和条件损失。无条件损失决定图像的视觉真实性,条件损失决定图像和文本描述能否匹配。第i个阶段判别器Di的损失定义如下:
Figure BDA0003452896040000052
相应地第i个阶段的生成器Gi的损失也是由两部分的损失组成,
Figure BDA0003452896040000053
其中xi是来自第i个阶段真实图像分布pdatai的图像,si是生成器Gi生成的第i阶段的虚假图像,c是条件变量,E表示求数学期望。
进一步的,所述的步骤(3)具体方法如下:
3-1为实现对单个文本描述生成的图像进行整体优化,通过生成大量的同一文本描述的图像来优化网络,提升模型性能。单个文本描述生成一次图像的生成器损失定义如下:
Figure BDA0003452896040000054
故生成M次图像的损失表示为:
Figure BDA0003452896040000061
3-2但是在实际的计算过程中,无法承受生成过多图像带来的计算成本。为了解决这个问题,在公式中使用一个无限大的M,通过数学推导,能将损失转化为一个易于计算的上界,是以概率分布的形式来隐式体现生成大量图像的约束。
使M→∞,生成器的损失
Figure BDA0003452896040000062
定义如下:
Figure BDA0003452896040000063
其中wu,bu和wc,bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差。
Figure BDA0003452896040000064
是无条件生成对抗神经网络生成的图像,经过判别器Di最后一层网络前的特征;
Figure BDA0003452896040000065
是条件生成对抗神经网络生成的图像,经过判别器Di最后一层网络前的特征;其中i表示第i个阶段,E表示求相应的数学期望,N表示样本个数。
假定单个文本描述生成的图像的特征都属于一个高斯分布,即:
Figure BDA0003452896040000066
Figure BDA0003452896040000067
公式(5)的无条件损失可以推导为一个易于计算的上界:
Figure BDA0003452896040000068
同样的生成器Gi的无条件损失也可以推导为如下形式:
Figure BDA0003452896040000071
在上述的推导中公式(8)是利用Jensen不等式E[logX]≤logE[X],公式(9)是使用矩母函数做变换得到,矩母函数定义如下:
Figure BDA0003452896040000072
对于判别器Di的条件和无条件损失,也可以通过同样的数学推导得到相应的损失上界,即:
Figure BDA0003452896040000073
其中αi和βi是真实图像经过判别器网络的得到的特征,wu,bu和wc,bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差。
Figure BDA0003452896040000074
Figure BDA0003452896040000075
分别是特征
Figure BDA0003452896040000076
Figure BDA0003452896040000077
所属的高斯分布的均值,
Figure BDA0003452896040000078
Figure BDA0003452896040000079
分别是特征
Figure BDA00034528960400000710
Figure BDA00034528960400000711
所属的高斯分布的协方差。N表示样本个数。
最后根据引入概率分布来构成损失函数,对每个判别器Di和生成器Gi(i=0,1,2)都使用基于分布估计的新损失函数。
进一步的,所述的步骤(4)具体方法如下:
根据得到的新损失函数,在训练过程中对判别器Di和生成器Gi进行交替训练。判别器训练时固定生成器模型,同时梯度信息只在判别器上传递;生成器训练时梯度信息从判别器一直传递到生成器,但判别器的模型不进行梯度更新,只优化生成器网络的参数。最后通过反向传播算法(Back-Propagation,BP)对模型参数进行更新,直至模型收敛。
训练结束保存的生成器模型,可以根据指定的文本描述生相对应的高分辨率图像。
本发明有益效果如下:
为了提升条件生成对抗神经网络在文本生成图像任务上的整体性能,生成高质量的图像,本发明提出了一种适用于条件生成对抗神经网络的新损失函数,是一种通过图像特征的概率分布来优化网络的机制。该损失隐式地体现了单个文本生成无限次图像的影响,经过数学推导得到了一个易于计算的损失上界。通过估计单个文本描述生成的图像特征的分布,来实现损失计算及梯度信息回传。在多个模型和数据集上的实验表明,基于分布估计的新损失函数能够有效提升条件生成对抗神经网络实现文本生成图像的性能,同时减少低质量图像的出现,图像整体效果得到提升。
本发明完全采用端到端的方式,优化网络的性能。新的损失应用在多个文本生成图像模型上,性能均有一定的提升。
附图说明
图1为本发明基于分布估计的条件生成对抗生成网络模型结构。
图2为本发明实现文本生成图像任务完整流程图
具体实施方式
下面对本发明方法和其详细参数和做进一步具体说明。
一种基于分布估计的条件生成对抗神经网络文本生成图像方法,具体步骤如下:
步骤(1)、数据预处理,提取文本数据的特征;
引文数据集(CUB-200,COCO-2014),CUB-200是包含200类的鸟类图像,总计11788张图像。按照指定的划分训练集和验证集,训练集包含8,855张图像,2,933张图像作为测试集。每张图像描述了一个单一的物体(鸟),每张图像有10个相关的文本描述。由于该数据集中80%的鸟类的对象和图像大小比小于0.5,对数据进行预处理,裁剪所有图像,以确保鸟类的边界框的对象和图像大小比大于0.75。使用的真实图像的大小为299×299。
COCO由大约123k张图像组成,每张图像有5个描述。其中80k的图像被划分为训练集,40k的图像用作测试集。进行实验设置之后,直接使用COCO划分的训练集和验证集。
对于数据集中的自然语言文本描述进行文本特征集合的提取,使用一个预训练好的双向的长短期记忆网络(BiLSTM)从文本中提取文本特征集合,文本特征集合包含单词的特征和句子的特征。在双向长短期记忆网络中,每个单词对应两个隐藏状态,每个方向对应一个状态。因此,连接它的两个隐藏状态作为一个单词的特征,最后得到一个单词特征矩阵e∈RD×T,其中矩阵的第i列向量ei表示第i个单词的特征,D=256表示单词特征的维度,T=25是单词的数量。同时,将双向的长短期记忆网络的最后一层隐藏状态连接起来,作为全局句子特征
Figure BDA0003452896040000091
步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数;
2-1采用DM-GAN作为基准模型,多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率,生成细节更丰富的图像。对于模型的生成器,给定随机噪声z~N(0,1)和条件变量c,维度分别是100和256维。
通过F0和Fi得到下一阶段生成器的输入h0=F0(c,z)、hi=Fi(hi-1,z),hi-1输入下一阶段生成器网络Fi得到hi,其中Fi是生成器中的神经网络。F0由一个全连接层和四层卷积网络构成,Fi(i=1,2)由动态内存写入机制、两个残差模块和一个卷积层构成。对于生成器Gi,生成多阶段分辨率的图像
Figure BDA0003452896040000092
Figure BDA0003452896040000093
的分别率大小分别是64×64,128×128和256×256
2-2联合有条件和无条件生成对抗神经网络共同训练,模型的目标函数包含两项内容,分别是无条件损失和条件损失。第i个阶段判别器Di的损失定义如下:
Figure BDA0003452896040000101
相应的第i个阶段的生成器Gi的损失也是由两部分的损失组成,
Figure BDA0003452896040000102
其中xi是来自第i个阶段真实图像分布
Figure BDA0003452896040000103
的图像,si是生成器Gi生成的第i阶段的虚假图像,c是条件变量,E表示求数学期望。
步骤(3)、引入基于分布估计的损失函数;
为了实现对单个文本描述生成的图像进行整体优化,使用之前推导出的新的损失函数,该损失为一个易于计算的上界,是以概率分布的形式来隐式体现单个文本生成大量图像的影响。生成器的损失
Figure BDA0003452896040000104
定义如下:
Figure BDA0003452896040000105
其中wu,bu和wc,bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差。
Figure BDA0003452896040000106
是无条件生成对抗神经网络生成的图像,经过判别器Di最后一层网络前的特征;
Figure BDA0003452896040000107
是条件生成对抗神经网络生成的图像,经过判别器Di最后一层网络前的特征;其中i表示第i个阶段,E表示求相应的数学期望,N表示样本个数。
假定单个文本描述生成的图像的特征都属于一个高斯分布,即
Figure BDA0003452896040000108
Figure BDA0003452896040000109
这里通过单个文本描述生成M′次图像的来估计两个分布的均值和协方差矩阵,其中M′=4。
生成器的损失
Figure BDA00034528960400001010
在M趋向无穷后,可以推导出一个易于计算的形式,生成器的无条件损失和条件损失最后分别定义为如下:
Figure BDA0003452896040000111
Figure BDA0003452896040000112
Figure BDA0003452896040000113
对于判别器Di的条件和无条件损失,也可以通过同样的数学推导得到相应的损失上界,即:
Figure BDA0003452896040000114
其中αi和βi是真实图像经过判别器网络的得到的特征。wu,bu和wc,bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差。
Figure BDA0003452896040000115
Figure BDA0003452896040000116
分别是特征
Figure BDA0003452896040000117
Figure BDA0003452896040000118
所属的高斯分布的均值,
Figure BDA0003452896040000119
Figure BDA00034528960400001110
分别是特征
Figure BDA00034528960400001111
Figure BDA00034528960400001112
所属的高斯分布的协方差。N表示样本个数。
如图1所示,是单个阶段的基于分布估计的条件生成对抗网络,进行文本生成图像任务的训练过程。最后根据引入概率分布来构成损失函数,对每个阶段的判别器Di和生成器Gi(i=0,1,2)都使用基于分布估计的新损失函数。
步骤(4)、模型训练;
根据得到的新的损失函数,在训练过程中对判别器Di和生成器Gi进行交替训练。相关训练参数设置如下:训练epoch为800,batch大小为20,使用Adam优化器,判别器和生成器初始学习率均为2e-4。
判别器训练时固定生成器模型,同时梯度信息只在判别器上传递;生成器训练时梯度信息从判别器一直传递到生成器,但判别器的模型不进行梯度更新,只优化生成器网络的参数。最后通过反向传播算法(Back-Propagation,BP)对模型参数进行更新,直至模型收敛。
训练结束保存的生成器模型,可以根据指定的文本描述生相对应的高分辨率图像。如图2所示,是模型实现文本生成图像任务的完整流程。
使用生成图像的均值和协方差来计算评价指标FID和IS的值,量化模型的性能。
表1展示的是采用基于分布估计条件生成对抗网络(DM-GAN+DE)及其对比算法在CUB-200数据集上的定量评价结果,图像生成质量评价使用FID(越大越好)和IS(越小越好)这两个指标。该结果表明采用本文的基于分布估计的条件生成对抗神经网络的新损失形式,能有效提升DM-GAN这类文本生成图像模型的性能:在FID这一指标上,从16.09降低到了14.71,IS从4.71上升到了4.84。
这一结果表明,本文提出的基于分布估计的新损失形式可以使基于对抗生成网络的文本生成图像模型生成质量更好的图像。
表1
Figure BDA0003452896040000121

Claims (4)

1.一种基于分布估计的条件生成对抗网络文本生成图像方法,其特征在于包括如下步骤:
步骤(1)、数据预处理,提取文本数据的特征;
步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数;
步骤(3)、引入基于分布估计的损失函数;
步骤(4)、模型训练;根据得到的新的损失函数,在训练过程中对判别器Di和生成器Gi进行交替训练。
2.根据权利要求书1所述的一种基于分布估计的条件生成对抗网络文本生成图像方法,其特征在于步骤(1)具体实现如下:
引文数据集CUB-200是包含200类的鸟类图像,总计11788张图像;按照指定的划分训练集和验证集,训练集包含8,855张图像,2,933张图像作为测试集;每张图像描述了一个单一的物体(鸟),每张图像有10个相关的文本描述;由于该数据集中80%的鸟类的对象和图像大小比小于0.5,对数据进行预处理,裁剪所有图像,以确保鸟类的边界框的对象和图像大小比大于0.75;使用的真实图像的大小为299×299;
COCO由大约123k张图像组成,每张图像有5个描述;其中80k的图像被划分为训练集,40k的图像用作测试集;
对数据集中的自然语言文本描述进行文本特征集合的提取,使用一个预训练好的双向的长短期记忆网络从文本描述中提取文本特征集合,文本特征集合包含单词的特征和句子的特征;在双向长短期记忆网络中,每个单词对应两个隐藏状态,每个方向对应一个状态;因此,连接它的两个隐藏状态作为一个单词的特征,最后得到一个单词特征矩阵e∈RD×T,其中矩阵的第i列向量ei表示第i个单词的特征,D=256表示单词特征的维度,T=25是单词的数量;同时,将双向的长短期记忆网络的最后一层隐藏状态连接起来,作为全局句子特征
Figure FDA0003452896030000021
3.根据权利要求书1或2所述的一种基于分布估计的条件生成对抗网络文本生成图像方法,其特征在于步骤(2)具体实现如下:
2-1采用DM-GAN作为基准模型,多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率;对于模型的生成器,给定随机噪声z~N(0,1)和条件变量c,维度分别是100和256维;
通过F0和Fi得到下一阶段生成器的输入h0=F0(c,z)、hi=Fi(hi-1,z),hi-1输入下一阶段生成器网络Fi得到hi,其中Fi是生成器中的神经网络;F0由一个全连接层和四层卷积网络构成,Fi由动态内存写入机制、两个残差模块和一个卷积层构成;对于生成器Gi,生成多阶段分辨率的图像
Figure FDA0003452896030000022
Figure FDA0003452896030000023
的分别率大小分别是64×64,128×128和256×256
2-2联合有条件和无条件生成对抗神经网络共同训练,模型的目标函数包含两项内容,分别是无条件损失和条件损失;第i个阶段判别器Di的损失定义如下:
Figure FDA0003452896030000024
相应的第i个阶段的生成器Gi的损失也是由两部分的损失组成,
Figure FDA0003452896030000025
其中xi是来自第i个阶段真实图像分布
Figure FDA0003452896030000026
的图像,si是生成器Gi生成的第i阶段的虚假图像,c是条件变量,E表示求数学期望。
4.根据权利要求书3所述的一种基于分布估计的条件生成对抗网络文本生成图像方法,其特征在于步骤(3)具体实现如下:
为了实现对单个文本描述生成的图像进行整体优化,使用之前推导出的新的损失函数,该损失为一个易于计算的上界,是以概率分布的形式来隐式体现单个文本生成大量图像的影响;生成器的损失
Figure FDA0003452896030000027
定义如下:
Figure FDA0003452896030000031
其中wu,bu和wc,bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差;
Figure FDA0003452896030000032
是无条件生成对抗神经网络生成的图像,经过判别器Di最后一层网络前的特征;
Figure FDA0003452896030000033
是条件生成对抗神经网络生成的图像,经过判别器Di最后一层网络前的特征;其中i表示第i个阶段,E表示求相应的数学期望,N表示样本个数;
假定单个文本描述生成的图像的特征都属于一个高斯分布,即
Figure FDA0003452896030000034
Figure FDA0003452896030000035
这里通过单个文本描述生成M′次图像的来估计两个分布的均值和协方差矩阵,其中M′=4;
生成器的损失
Figure FDA0003452896030000036
在M趋向无穷后,推导出一个易于计算的形式,生成器的无条件损失和条件损失最后分别定义为如下:
Figure FDA0003452896030000037
Figure FDA0003452896030000038
Figure FDA0003452896030000039
对于判别器Di的条件和无条件损失,通过同样的数学推导得到相应的损失上界,即:
Figure FDA00034528960300000310
其中αi和βi是真实图像经过判别器网络的得到的特征;wu,bu和wc,bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差;
Figure FDA0003452896030000041
Figure FDA0003452896030000042
分别是特征
Figure FDA0003452896030000043
Figure FDA0003452896030000044
所属的高斯分布的均值,
Figure FDA0003452896030000045
Figure FDA0003452896030000046
分别是特征
Figure FDA0003452896030000047
Figure FDA0003452896030000048
所属的高斯分布的协方差;N表示样本个数;
最后根据引入概率分布来构成损失函数,对每个阶段的判别器Di和生成器Gi(i=0,1,2)都使用基于分布估计的新损失函数。
CN202111670694.6A 2021-12-31 2021-12-31 一种基于分布估计的条件生成对抗网络文本生成图像方法 Pending CN114332565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111670694.6A CN114332565A (zh) 2021-12-31 2021-12-31 一种基于分布估计的条件生成对抗网络文本生成图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111670694.6A CN114332565A (zh) 2021-12-31 2021-12-31 一种基于分布估计的条件生成对抗网络文本生成图像方法

Publications (1)

Publication Number Publication Date
CN114332565A true CN114332565A (zh) 2022-04-12

Family

ID=81020151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111670694.6A Pending CN114332565A (zh) 2021-12-31 2021-12-31 一种基于分布估计的条件生成对抗网络文本生成图像方法

Country Status (1)

Country Link
CN (1) CN114332565A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681A (zh) * 2022-05-20 2022-06-21 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质
CN115527216A (zh) * 2022-11-09 2022-12-27 中国矿业大学(北京) 基于调制融合和生成对抗网络的文本生成图像方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681A (zh) * 2022-05-20 2022-06-21 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质
CN114648681B (zh) * 2022-05-20 2022-10-28 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质
CN115527216A (zh) * 2022-11-09 2022-12-27 中国矿业大学(北京) 基于调制融合和生成对抗网络的文本生成图像方法
CN115527216B (zh) * 2022-11-09 2023-05-23 中国矿业大学(北京) 基于调制融合和生成对抗网络的文本生成图像方法

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110209817B (zh) 文本处理模型的训练方法、装置和文本处理方法
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110751698B (zh) 一种基于混和网络模型的文本到图像的生成方法
JPWO2020174826A1 (ja) 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
CN110210032B (zh) 文本处理方法及装置
JP7247878B2 (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN113361250A (zh) 一种基于语义一致性的双向文本生成图像方法及系统
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN111046178B (zh) 一种文本序列生成方法及其系统
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN114611670A (zh) 一种基于师生协同的知识蒸馏方法
CN115797495A (zh) 一种句子-字符语义空间融合感知的文本生成图像的方法
CN117788629B (zh) 一种具有风格个性化的图像生成方法、装置及存储介质
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
KR20230141683A (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
WO2019244803A1 (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
CN113554040B (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN110930469B (zh) 一种基于过渡空间映射的文本生成图像方法和系统
CN112465929A (zh) 一种基于改进图卷积网络的图像生成方法
Kasi et al. A deep learning based cross model text to image generation using DC-GAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination