CN116188621A - 基于文本监督的双向数据流生成对抗网络图像生成方法 - Google Patents

基于文本监督的双向数据流生成对抗网络图像生成方法 Download PDF

Info

Publication number
CN116188621A
CN116188621A CN202211570345.1A CN202211570345A CN116188621A CN 116188621 A CN116188621 A CN 116188621A CN 202211570345 A CN202211570345 A CN 202211570345A CN 116188621 A CN116188621 A CN 116188621A
Authority
CN
China
Prior art keywords
image
text
generator
data stream
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211570345.1A
Other languages
English (en)
Inventor
张爱琳
吴春国
刘桂霞
张秀伊
邱正中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202211570345.1A priority Critical patent/CN116188621A/zh
Publication of CN116188621A publication Critical patent/CN116188621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于图像生成技术领域,提供了基于文本监督的双向数据流生成对抗网络图像生成方法,包括以下步骤:步骤一:输入文本,并对文本中的句子和单词进行双通道处理,形成了一种全局‑局部注意力机制,随后通过生成器生成图像;步骤二:将步骤一中生成的图像通过卷积神经网络重新转换为新文本,并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量,计算二者相似度;步骤三:依据步骤二中的相似度进行判断,再通过生成模型反向传播,更新潜在空间的嵌入表示向量,重复前向和后向传递直到收敛,得到最大相似度,最后输出最优图像,该方法能够提升由给定文本生成图像的真实性、细节性以及多样性,完成更复杂的图像生成任务。

Description

基于文本监督的双向数据流生成对抗网络图像生成方法
技术领域
本发明涉及图像生成技术领域,具体是基于文本监督的双向数据流生成对抗网络图像生成方法。
背景技术
随着数据时代爆发性的数据增长,与繁琐的文本信息相比,人们更倾心于直观可见的图片信息,这让基于文本监督的图像生成方法逐渐火热起来。同时,近年来多模态的研究吸引了越来越多学者的关注,尤其是计算机视觉和自然语言处理的交叉领域研究。基于文本监督的图像生成任务是指将以文本形式呈现的关键词或语句生成与文本语义相近的图像。由于近年来生成对抗网络(GAN,Generative Adversarial Networks)在图像生成任务上的成功,所以在目前该类任务中大多使用GAN作为模型框架来生成高分辨率的图像,例如植物、动物和人脸等,与其他的生成模型相比,GAN不仅可以避免各种复杂的计算,而且生成的图片质量也更好。
GAN是一种模拟博弈游戏的训练网络,由生成器G和判别器D两部分组成,生成器学习真实样本的分布,从而生成接近真实样本的伪样本来欺骗判别器,而判别器主要是区分其输入是真实样本和伪样本,通过让生成器和判别器互相博弈对抗达到纳什平衡状态,从而达到优化的效果,使生成器生成的数据最大可能地接近真实样本,即使得判别器无法判别出来其输入是真实样本还是伪样本。GAN模型的训练可以分为三个步骤:首先,固定判别器D,训练生成器G;其次,固定生成器G,训练判别器D;最后循环前两步骤并不断进行训练。目前在生成对抗网络中应用最为广泛的两种神经网络是卷积神经网络和自动编码器神经网络。基于卷积神经网路搭建的GAN,其生成器是由多个卷积网络层组成,例如最先采用此结构的DCGAN,该模型引入了批量正则化来稳定GAN的训练过程;而自动编码网络,则是输入值设置为目标值,用自监督方法来进行训练,是一种可用于无监督学习的自重构神经网络。例如VAEGAN,就是用判别器来表示VAE的重构过程中的损失,从而结合自动编码器和GAN两者的优势来生成优质图像。原始的GAN有很多缺陷,国内外众多论文从不同角度提出了对GAN的改进方案,Karras等人为提高对生成图像特定特征的控制,提出基于风格的生成器(style-based generator),通过分别修改每层输入来控制各层的视觉特征;此外,Qiao等人为使生成图像更加细致,在GAN中引入注意力机制,通过关注文本描述中的关键词,从而能够在图像的不同子区域生成更精细的信息;Zhu等人提出DM-GAN,设计出一个动态记忆模型(dynamic memory module)选择与生成图像相关的单词,使得生成的图像很好地匹配文本描述。但是,使用单词级别的注意力机制并不能确保全局语义的一致性,由于文本和图像模式的多样性,Li等人提出的MirrorGAN可以先根据文本生成图像,再将图像重新转换成文本,进行对比来解决一致性问题;Zhu等人通过ManiGAN试图解决生成图像的属性与给定文本中的属性表述不一致的问题,该方法提出文本和图像的仿射结合模型,以融合图像特征与文本特征,并设计细节改正模型来纠正图像与文本属性不一致问题,同时补全图片细节,以上方法不同程度地提升了生成图片的质量。基于生成对抗网络强大的能力,已有许多经典的工作,旨在使计算机能够根据输入的文本自动生成预期的视觉内容。同时也在多个任务实现落地应用,创造了较大的实际价值。如广告设计、艺术创作、动画制作、虚拟现实、目标检测、监控跟踪等。一系列视觉生成技术用人工智能技术赋能相关产业,助力产业自动化、智能化改革与转型。
总体来说,图像生成技术的最大挑战在于其生成的图像尚且无法与人类的视觉认知达成高度一致。首先,图像生成的样本随机性较大,只能实现一些简单的任务,大多图像转换缺少对图像变化细节(如物体形状、纹理以及背景等)进行学习的能力;其次,现有的图像生成技术可控性差,大部分只能进行随机视觉生成,无法用于对生成可控性和生成细节要求高的任务中;最后,图像生成用于风格迁移等任务上时只能实现两个域之间的迁移,而多域迁移的效果很差。因此,针对以上生成图像细节粗糙、与文本匹配度不高等现状,迫切需要提供基于文本监督的双向数据流生成对抗网络图像生成方法,以克服当前实际应用中的不足。
发明内容
本发明的目的在于提供基于文本监督的双向数据流生成对抗网络图像生成方法,旨在解决上述技术背景中的生成图像细节粗糙及与给定文本匹配度不高的问题。
本发明公布的,基于文本监督的双向数据流生成对抗网络图像生成方法包括以下步骤:
步骤一:输入文本,并采用循环神经网络对文本中的句子和单词进行双通道处理,形成了一种全局-局部注意力机制,随后通过生成器生成图像;
步骤二:将步骤一中生成的图像通过卷积神经网络重新转换为新文本,并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量,进而基于嵌入表示向量计算二者的相似度;
步骤三:依据步骤二中的相似度进行判断,再通过生成模型反向传播,更新潜在空间的嵌入表示向量,重复前向和后向传递直到收敛,得到最大相似度,最后输出最优图像。
作为本发明进一步的方案:在步骤一中,引入注意力机制,引导生成器在生成不同领域的图像时关注不同的单词。
作为本发明进一步的方案:在步骤一中,双通道处理的具体步骤为:
将给定的文本描述Text同时嵌入到单词级别特征和句子级别特征中,得到:
w,s=RNN(Text);
TeXt={Tl|l=0,1,2......L-1};
w={wl|l=0,1,2......L-1};
其中w表示单词级别特征,s表示句子级别特征,L表示句子的长度,wl表示每个单词的隐藏状态。
作为本发明进一步的方案:对于句子的处理使用条件增强方法来增强文本描述,以此得到增强的句子向量sca,即
sca=Fca(s);
其中,Fca表示条件增强函数。
作为本发明进一步的方案:在步骤一的图像生成结构中,通过堆叠视觉转换器H和图像生成器G的方法来达到高质量图像的效果,具体公式为:
h0=H0(z,s);
Figure BDA0003987648670000041
其中z~N(0,1)表示随机噪声,h0表示隐藏状态,z表示随机噪声的输入,并服从标准的正态分布,单词级别的语义特征是将w和视觉嵌入hi作为输入,Ui-1w是w通过视觉转换器感知层得到。
作为本发明进一步的方案:在步骤一中,对于句子级别的语义特征,采用全局约束,具体为:
Figure BDA0003987648670000042
h1=Hi(hi-1,concat(Wi-1,Si-1));
其中,i∈{1,2,......,m-1},Ii=Gi(hi);
Vi-1s是s通过视觉转换器感知层得到的,二者形成这种全局-局部互相补充的注意力机制之后,再通过生成器G进行图像I的生成,其中要经过m轮次。
作为本发明进一步的方案:在步骤二中,将生成图像经过卷积神经网络CNN处理后得到新的文本Ti,将新的文本Ti和图像Ii分别置入编码器中,得到二者的嵌入Tf和If
Ti=CNN(Im-1);
If=image_encoder(Ii);
Tf=text_encoder(Ti);
然后对If和Tf做L2正则化得到Ie和Te,最后将二者的嵌入做相似度计算,得到如下公式,τ表示对比学习中的可训练参数:
pred=cos_similarity(Ie,Te T)=(Ie·Te T)·τ。
作为本发明进一步的方案:该方法还包括两种对抗性损失:
视觉真实性损失和文本-图像语义一致性损失;
在训练模型过程中,生成器G和判别器D交替训练,使生成器其在第i轮的损失最小,Ii为生成器第i次生成的图像:
Figure BDA0003987648670000051
对于文本-图像语义一致性的损失,从两个方面进行计算,分别是
Figure BDA0003987648670000056
和/>
Figure BDA0003987648670000057
axis=0表示按列计算文本的损失函数,axis=1表示按行计算图像的损失函数:
Figure BDA0003987648670000052
Figure BDA0003987648670000053
将二者平均计算为LCLIP(I~T),表示图像语义一致性损失函数:
Figure BDA0003987648670000054
得到总损失函数是上述损失的加权组合:
Figure BDA0003987648670000055
/>
与现有技术相比,本发明的有益效果:
本发明通过将输入文本经过RNN对句子和单词进行双通道处理,形成一种全局局部注意力机制,随后通过生成器生成图像;将图像通过卷积神经网络CNN重新转换为新文本,并将新文本与图像分别经过文本编码器和图像编码器,对二者做嵌入相似度计算,并对其值做判断,再通过生成模型反向传播,更新潜在向量,重复前向、后向传递直到收敛,使所生成的图像与给定文本越来越接近,从而得到最优图像;
本发明借鉴互相博弈的思想,使文本转换图像和图像转换文本两个过程互相牵制,形成环路,达到生成高质量图像的目的;
对于生成图像的细节处理得更好,包括在颜色、形状、以及数量等特征的呈现上;
可以生成与给定文本语义一致且清晰度高的图像。
附图说明
图1为本发明实施例提供的基于文本监督的双向数据流生成对抗网络图像生成方法的结构图。
图2为基于文本监督的双向数据流生成对抗网络图像生成方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
请参阅图1和图2,本发明实施例提供的基于文本监督的双向数据流生成对抗网络图像生成方法,该方法包括以下步骤:
步骤一:输入文本,引入注意力机制,引导生成器在生成不同领域的图像时关注不同的单词,但又不仅依靠文本的单词级别语义,为保证全文本的语义一致性,在文本输入端口设置两条通道,并采用循环神经网络RNN对文本中的句子和单词进行双通道处理,形成了一种全局-局部注意力机制,随后通过生成器生成图像;
其中双通道处理的具体步骤为:
将给定的文本描述Text同时嵌入到单词级别特征和句子级别特征中,得到:
w,s=RNN(Text);
Text={Tl|l=0,1,2......L-1},L表示句子的长度;
w={wl|l=0,1,2......L-1},wl表示每个单词的隐藏状态;
其中w表示单词级别特征,s表示句子级别特征;
对于句子的处理使用条件增强方法来增强文本描述,以此得到增强的句子向量sca,即
sca=Fca(s);
其中,Fca表示条件增强函数;
在图像生成的结构中,引用AttnGAN中通过堆叠视觉转换器H和图像生成器G的方法来达到高质量图像的效果,下述公式中,z表示随机噪声的输入,服从标准的正态分布,单词级别的语义特征是将w和视觉嵌入hi作为输入,Ui-1w是w通过视觉转换器感知层得到的,与视觉嵌入相乘后得到注意力分数,通过对得到的分数做内积来获得词级的上下文特征,
h0=H0(z,s),z~N(0,1)表示随机噪声,h0表示隐藏状态;
Figure BDA0003987648670000071
对于句子级别的语义特征,采用全局约束,类比上述单词级别的过程,Vi-1s是s通过视觉转换器感知层得到的,二者形成这种全局-局部互相补充的注意力机制之后,再通过生成器G进行图像I的生成,其中要经过m轮次,
Figure BDA0003987648670000072
h1=Hi(hi-1,concat(Wi-1,Si-1))i∈{1,2,......,m-1};
Ii=Gi(hi);
步骤二:步骤一中的图像生成之后,并不直接作为结果输出,而是进入到反向数据流中,在此处将CLIP作为潜在的映射层,当一段文本生成符合其语义的图像之后,其图像也可以重新转换为描述其含义的文本,将生成图像经过卷积神经网络CNN处理后得到新的文本Ti,将Ti和图像Ii分别置入编码器中,得到二者的嵌入Tf和If
Ti=CNN(Im-1);
If=image_encoder(Ii);
Tf=text_encoder(Ti);
然后对If和Tf做L2正则化得到Ie和Te,最后将二者的嵌入做相似度计算,如下公式,τ表示对比学习中的可训练参数:
pred=cos_similarity(Ie,Te T)=(Ie·Te T)·τ;
步骤三:对步骤二中的计算值进行判断,再通过生成模型反向传播,更新潜在向量,重复前向和后向传递直到收敛,得到最大相似度,使所生成的图像与给定文本越来越接近,最后输出最优图像;
在该方法中,采用两种对抗性损失:视觉真实性损失和文本-图像语义一致性损失;
在训练模型过程中,生成器G和判别器D交替训练,使生成器其在第i轮的损失最小,Ii为生成器第i次生成的图像:
Figure BDA0003987648670000081
对于文本-图像语义一致性的损失,从两个方面进行计算,分别是
Figure BDA0003987648670000082
和/>
Figure BDA0003987648670000083
axis=0表示按列计算文本的损失函数,axis=1表示按行计算图像的损失函数:
Figure BDA0003987648670000084
Figure BDA0003987648670000093
将二者平均计算为TCLIP(I~T),表示图像语义一致性损失函数:
Figure BDA0003987648670000091
得到总损失函数是上述损失的加权组合:
Figure BDA0003987648670000092
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,包括以下步骤:
步骤一:输入文本,并采用循环神经网络对文本中的句子和单词进行双通道处理,形成了一种全局-局部注意力机制,随后通过生成器生成图像;
步骤二:将步骤一中生成的图像通过卷积神经网络重新转换为新文本,并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量,进而基于嵌入表示向量计算二者的相似度;
步骤三:依据步骤二中的相似度进行判断,再通过生成模型反向传播,更新潜在空间的嵌入表示向量,重复前向和后向传递直到收敛,得到最大相似度,最后输出最优图像。
2.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一中,引入注意力机制,引导生成器在生成不同领域的图像时关注不同的单词。
3.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一中,双通道处理的具体步骤为:
将给定的文本描述Text同时嵌入到单词级别的特征和句子级别的特征中,得到:
w,s=RNN(Text);
Text={Tl|l=0,1,2......L-1};
w={wl|l=0,1,2......L-1};
其中w表示单词级别特征,s表示句子级别特征,L表示句子的长度,wl表示每个单词的隐藏状态。
4.根据权利要求3所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,对于句子的处理使用条件增强方法来增强文本描述,以此得到增强的句子向量sca,即
sca=Fca(s);
其中,Fca表示条件增强函数。
5.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一的图像生成结构中,通过堆叠视觉转换器H和图像生成器G的方法来达到高质量图像的效果,具体公式为:
h0=H0(z,s);
Figure FDA0003987648660000021
其中z~N(0,1)表示随机噪声,h0表示隐藏状态,z表示随机噪声的输入,并服从标准的正态分布,单词级别的语义特征是将w和视觉嵌入hi作为输入,Ui-1w是w通过视觉转换器感知层得到。
6.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一中,对于句子级别的语义特征,采用全局约束,具体为:
Figure FDA0003987648660000022
h1=Hi(hi-1,concat(Wi-1,Si-1));
其中,i∈{1,2,......,m-1},Ii=Gi(hi);
Vi-1s是s通过视觉转换器感知层得到的,二者形成这种全局-局部互相补充的注意力机制之后,再通过生成器G进行图像I的生成,其中要经过m轮次。
7.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤二中,将生成图像经过卷积神经网络处理后得到新的文本Ti,将新的文本Ti和图像Ii分别置入编码器中,得到二者的嵌入Tf和If
Ti=CNN(Im-1);
If=image_encoder(Ii);
Tf=text_encoder(Ti);
然后对If和Tf做L2正则化得到Ie和Te,最后按照如下公式,将二者的嵌入表示向量做相似度计算,τ表示对比学习中的可训练参数:
pred=cos_similarity(Ie,Te T)=(Ie·Te T)·τ。
8.根据权利要求1-7任一项所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,该方法还包括两种对抗性损失:
视觉真实性损失和文本-图像语义一致性损失;
在训练模型过程中,生成器G和判别器D交替训练,使生成器在第i轮的损失最小,Ii为生成器第i次生成的图像:
Figure FDA0003987648660000031
对于文本-图像语义一致性的损失,从两个方面进行计算,分别是
Figure FDA0003987648660000032
和/>
Figure FDA0003987648660000033
axis=0表示按列计算文本的损失函数,axis=1表示按行计算图像的损失函数:
Figure FDA0003987648660000034
Figure FDA0003987648660000035
将二者平均计算为LCLIP(I~T),表示图像语义一致性损失函数:
Figure FDA0003987648660000036
得到总损失函数是上述损失的加权组合:
Figure FDA0003987648660000037
/>
CN202211570345.1A 2022-12-08 2022-12-08 基于文本监督的双向数据流生成对抗网络图像生成方法 Pending CN116188621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211570345.1A CN116188621A (zh) 2022-12-08 2022-12-08 基于文本监督的双向数据流生成对抗网络图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211570345.1A CN116188621A (zh) 2022-12-08 2022-12-08 基于文本监督的双向数据流生成对抗网络图像生成方法

Publications (1)

Publication Number Publication Date
CN116188621A true CN116188621A (zh) 2023-05-30

Family

ID=86439174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211570345.1A Pending CN116188621A (zh) 2022-12-08 2022-12-08 基于文本监督的双向数据流生成对抗网络图像生成方法

Country Status (1)

Country Link
CN (1) CN116188621A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN117635418A (zh) * 2024-01-25 2024-03-01 南京信息工程大学 生成对抗网络的训练方法、双向图像风格转换方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN116721176B (zh) * 2023-08-10 2023-11-10 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN117635418A (zh) * 2024-01-25 2024-03-01 南京信息工程大学 生成对抗网络的训练方法、双向图像风格转换方法和装置
CN117635418B (zh) * 2024-01-25 2024-05-14 南京信息工程大学 生成对抗网络的训练方法、双向图像风格转换方法和装置

Similar Documents

Publication Publication Date Title
Wu et al. Nüwa: Visual synthesis pre-training for neural visual world creation
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
WO2021254499A1 (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN116188621A (zh) 基于文本监督的双向数据流生成对抗网络图像生成方法
Wu et al. Recall what you see continually using gridlstm in image captioning
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN113361251B (zh) 一种基于多阶段生成对抗网络的文本生成图像方法及系统
Lin et al. Attribute-Aware Convolutional Neural Networks for Facial Beauty Prediction.
US11574142B2 (en) Semantic image manipulation using visual-semantic joint embeddings
CN116704079B (zh) 图像生成方法、装置、设备及存储介质
CN113191357A (zh) 基于图注意力网络的多层次图像-文本匹配方法
CN116993876B (zh) 生成数字人形象的方法、装置、电子设备及存储介质
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
Wang et al. Learning to globally edit images with textual description
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Ibarrola et al. A collaborative, interactive and context-aware drawing agent for co-creative design
CN117478978B (zh) 一种文本生成电影视频片段的方法、系统和设备
CN117216223A (zh) 对话文本的生成方法和装置、存储介质及电子设备
CN113052257A (zh) 一种基于视觉转换器的深度强化学习方法及装置
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN117058673A (zh) 文本生成图像模型训练方法、系统以及文本生成图像方法、系统
Zhao et al. Generating diverse gestures from speech using memory networks as dynamic dictionaries
Jaiswal et al. Enhancing Image Captioning Using Deep Convolutional Generative Adversarial Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination