CN109543159B - 一种文本生成图像方法及装置 - Google Patents
一种文本生成图像方法及装置 Download PDFInfo
- Publication number
- CN109543159B CN109543159B CN201811336849.0A CN201811336849A CN109543159B CN 109543159 B CN109543159 B CN 109543159B CN 201811336849 A CN201811336849 A CN 201811336849A CN 109543159 B CN109543159 B CN 109543159B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- neural network
- images
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种文本生成图像方法及装置,其中,文本生成图像方法包括以下步骤:步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;步骤2,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态,输出每步的对象隐编码;步骤3,对步骤2输出的每步对象隐编码进行解码生成步图像,最后融合所有步图像得到生成图像;步骤4,将生成图像和真实图像进行对抗训练。本发明生成器根据对象隐编码,通过多步转码、解码生成图像前景与背景像素集合,并进行融合,生成高质量图像,降低了直接生成图像的训练难度。
Description
技术领域
本发明涉及深度学习生成模型技术领域,具体涉及基于文本描述的图像生成方法及装置。
背景技术
从自然语言文本描述生成照片级逼真的图像是一个重要的问题,并具有广泛的应用,例如照片编辑,计算机辅助设计等。
有很多方法可以跨图像模态与文本模态学习生成模型。其中一个研究方向是学习以图像为条件的文本生成模型,称为“图像字幕生成”。该类模型目前较为主流的处理流程是,首先抽取图像特征并使用编码器进行编码,之后利用解码器生成非结构化文本。
最近,生成对抗网络(Generative Adversarial Network,简称GAN)在生成真实图像方面取得了较好的效果。其变体conditional-GAN(简称cGAN)能够根据给定的文本描述作为条件,生成与文本含义相关的图像。然而由于GAN本身训练的不稳定性,从文本描述生成高维逼真图像仍是非常困难的,简单的增加上采样层只会导致训练的不稳定以及生成无意义的图像。
要解决根据文本描述生成对应图像的问题,通常要解决两个子问题:
1、如何学习一个能够捕捉文本描述中的语义以及描述中的视觉细节的文本嵌入表示方法(文本编码器);
2、如何结合1中的文本语义嵌入表示,通过GAN网络生成一幅逼真的图像(图像生成器),使人类误认为是真实的。
传统的条件生成对抗网络模型,一般首先从文本语义嵌入(联合随机噪声)解码,之后直接生成高维图像,并通过判别器进行对抗训练。但这种方式一定程度上增加了神经网络的学习难度,并且从文本语义嵌入直接得到图像,将导致图像模糊,同时难以覆盖文本的有效信息,这种缺陷在生成多对象图像(图像中包含多个实体)时会尤为明显。
发明内容
本发明所要解决的技术问题是针对上述现有技术存在的不足,而提供了一种基于条件生成对抗网络和循环神经网络的根据文本描述生成图像的方法,该方法能够解决在文本描述中存在多个实体,并具有较为复杂关系情况下的图像生成问题。
为解决上述技术问题,本发明采用的技术方案为:
一种文本生成图像方法,其特征在于,包括以下步骤:
步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;
步骤2,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态,输出每步的对象隐编码;
步骤3,对步骤2输出的每步对象隐编码进行解码生成步图像,最后融合所有步图像得到生成图像;
步骤4,将生成图像和真实图像进行对抗训练。
所述步骤2中,每步输出的对象隐编码在生成过程中,通过注意力机制,在每步对文本语义嵌入表示的不同部分赋予不同的权重。
所述步骤2中,所述循环神经网络转码器采用长短时记忆网络;所述步骤3中,采用反卷积神经网络对步骤2输出的每步对象隐编码进行解码生成步图像。
所述步骤4的对抗训练方法为:对生成图像和真实图像进行下采样处理得到图形隐表示;将经过下采样后得到的图像隐表示和文本语义嵌入表示直接连接,通过全连接神经网络得到输出。
所述下采样处理采用卷积神经网络,输入生成图像与真实图像,以及其对应的文本条件,输出对图像真实程度和与文本匹配程度的评分。
所述步骤1中,对描述图像的自然语言文本进行编码的方法为:
对自然语言文本进行特征提取,得到的长度为d的词序列p=(w1,w2,…,wd),其中每个单词wi采用预训练的词向量进行表示,i=1~d;
由得到的词向量对自然语言文本进行编码。
所述提取的自然语言文本的特征包括高层语义特征以及文本描述的视觉特征,其中高层语义特征包括实体和关系,视觉特征包括颜色和尺寸。
所述步骤3中,融合所有步图像得到生成图像的融合采用像素值取平均或将步图像输入卷积神经网络得到最后的生成图像。
一种文本生成图像装置,其特征在于,包括:
一文本编码器,对输入的描述图像的自然语言文本进行编码,得到文本语义嵌入表示;
一生成器,包括循环神经网络转码器、图像解码器以及图像融合器,所述循环神经网络转码器用于读取文本语义嵌入和转码器上一步的隐态,输出每步的对象隐编码;所述图像解码器对输入的每步对象隐编码进行解码生成步图像;所述图像融合器对所述图像解码器生产的所有步图像进行图像融合得到生成图像;
一判别器,由下采样网络构成,对输入的生成图像和真实图像,在隐层联合文本语义嵌入表示进行对抗训练。
本发明构建了一种基于cGAN和RNN(循环神经网络)的根据文本描述生成图像的模型,采用RNN从文本语义嵌入和上一步隐态生成下一步的对象(图像元素如实体、背景)编码,将逐步生成的对象编码通过上采样层学习得到图像像素集合,最后融合所有图像像素集合得到一幅完整图像作为输出图像通入到判别器进行对抗训练。
与现有相比,本发明具有以下有益效果:
本发明不需要<文本,图像>对以外的额外监督数据,例如带类别标记的图像掩模;循环神经网络转码器可以根据文本和已生成图像自动学习下一步要生成的对象隐编码;生成器根据对象隐编码,通过多步转码、解码生成图像前景与背景像素集合,并进行融合,生成高质量图像,降低了直接生成图像的训练难度;能够捕捉包含多个对象、关系复杂的文本描述中更多的语义信息从而生成内容完整、逻辑合理的高质量图像。
附图说明
图1是本发明公开的基于条件生成对抗网络和循环神经网络的文本生成图像方法的训练流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围。在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于条件生成对抗网络和循环神经网络的文本生成图像方法,如图1所示,包括下列步骤:
步骤1,构建文本编码器,输入自然语言文本序列,输出文本的嵌入表示。自然语言文本序列是通过分词技术得到的长度为d的词序列p=(w1,w2,…,wd),其中每个单词采用预训练的词向量进行表示。
如:输入自然语言“绿色的草坪上有孩子在放风筝”,通过分词技术初步得到词序列['绿色','的','草坪','上','有','孩子','在','放风筝'],去掉停用词得到最后的词序列P=['绿色','草坪','上','孩子','放风筝'],d=5。不同的输入d不同。
根据最终得到的词序列P,输出文本的嵌入表示。文本的嵌入表示可用隐空间的稠向量表示。
文本编码器的目标是提取自然语言文本中的高层语义特征如实体和关系等,及对视觉特征如颜色尺寸的描述等。文本编码器由双向长短时记忆神经网络(Bi-LSTM)充当,输入文本序列,对所有时刻输出的隐态取时序平均作为最后的文本语义嵌入,即t为文本序列,hi是时刻i两个方向连接后的隐态,L是Bi-LSTM长度。这里给出的仅是一种优选方式,根据实际情况也可以采用符合编码目标的其它合适方法进行编码。另外也可以通过对文本编码器进行预训练来加快整个网络的训练速度甚至进一步提高网络性能,但应注意本模型并不依赖于对文本编码器的预训练;
步骤2,构建条件生成对抗网络,生成器由循环神经网络转码器和图像解码器构成,判别器由下采样网络构成。转码器由长短时记忆神经网络(LSTM)充当,输入文本语义嵌入和上一步的隐态,输出每步的对象隐编码,在隐编码生成过程中,通过注意力机制(Attention mechanism),在每步对文本语义嵌入的不同部分赋予不同的权重。图像解码器可由反卷积神经网络构成,输入对象隐编码,输出生成的图像。判别器的下采样网络可采用卷积神经网络,输入生成的图像与真实的图像,以及其对应的文本条件,输出对图像真实程度和与文本匹配程度的评分。
步骤3,将描述图像的自然语言文本输入到文本编码器,得到文本语义嵌入表示;
步骤4,将文本嵌入表示和高斯噪声混合,输入到生成器,经过逐步转码和解码,生成图像前景与背景像素集合,最后融合前景与背景信息得到生成图像。文本语义嵌入表示和高斯噪声z的混合方式可以采用直接连接的方式,即/>融合图像前景与背景像素的方式可以是像素值取平均,也可以将图像的前景与背景像素输入卷积神经网络得到最后生成的图像;
步骤5,将生成图像和真实图像输入到判别器,在隐层联合文本的嵌入表示(条件)进行对抗训练。被输入图像经过下采样后得到的图像隐表示和文本语义嵌入的联合方式采用如步骤4的直接连接,通过全连接神经网络得到判别器输出。
损失函数采用带梯度罚项的Wasserstein loss:
其中,D(x)表示判别器对输入x的评分,pr表示数据的真实分布,pg表示生成数据的分布,λ为平衡系数。网络通过反向传播算法进行优化训练。
训练神经网络优选的超参数设置如下:
梯度罚项的平衡系数λ=10;对抗训练每迭代一次判别器训练5次,生成器训练一次;更新网络的优化器采用Adam,其中beta1=0.5,beta2=0.999;学习率LR=0.0002。
训练本网络时,可在生成器和判别器中加入归一化技术如批归一化(BatchNormalization)和谱归一化(Spectral Normalization)来稳定训练,进一步提高生成质量。
综上所述,本发明公开的基于条件生成对抗网络和循环神经网络的文本生成图像方法,相比于传统的条件生成对抗网络模型,改变了生成器从文本语义嵌入到图像的一步生成方式,利用循环神经网络实现了带注意力的多步图像生成方式。本发明不需要<文本,图像>对以外的额外监督数据,例如带类别标记的图像掩模;循环神经网络转码器可以根据文本和已生成图像自动学习下一步要生成的对象隐编码;生成器根据对象隐编码,通过多步转码、解码生成图像前景与背景像素集合,并进行融合,生成高质量图像,降低了直接生成图像的训练难度;能够捕捉包含多个对象、关系复杂的文本描述中更多的语义信息从而生成内容完整、逻辑合理的高质量图像。
上述实施例仅是本发明的优选实施方式,但本发明的实施方式不受上述实施例的限制,应当指出:对于本技术领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰、替代、组合、简化,这些均为等效的置换方式,也应视为本发明的保护范围。
Claims (4)
1.一种文本生成图像方法,其特征在于,包括以下步骤:
步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;
步骤2,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态,输出每步的对象隐编码;在隐编码生成过程中,通过注意力机制,在每步对文本语义嵌入的不同部分赋予不同的权重;
步骤3,对步骤2输出的每步对象隐编码进行解码生成步图像,最后融合所有步图像得到生成图像;
步骤4,将生成图像和真实图像进行对抗训练;
步骤3包括:
将描述图像的自然语言文本输入到文本编码器,得到文本语义嵌入表示;
将文本嵌入表示和高斯噪声混合,输入到生成器,经过逐步转码和解码,生成图像前景与背景像素集合,最后融合前景与背景信息得到生成图像;文本语义嵌入表示和高斯噪声z的混合方式采用直接连接的方式,即融合图像前景与背景像素的方式是像素值取平均或将图像的前景与背景像素输入卷积神经网络得到最后生成的图像;图像解码器由反卷积神经网络构成,输入对象隐编码,输出生成的图像;步骤4包括:
将生成图像和真实图像输入到判别器,在隐层联合文本的嵌入表示进行对抗训练;被输入图像经过下采样后得到的图像隐表示和文本语义嵌入的联合方式采用如步骤3的直接连接,通过全连接神经网络得到判别器输出;判别器的下采样网络采用卷积神经网络,输入生成的图像与真实的图像,以及其对应的文本条件,输出对图像真实程度和与文本匹配程度的评分;
损失函数采用带梯度罚项的Wasserstein loss:
其中,D(x)表示判别器对输入x的评分,pr表示数据的真实分布,pg表示生成数据的分布,λ为平衡系数。
2.根据权利要求1所述的文本生成图像方法,其特征在于,所述步骤1中,对描述图像的自然语言文本进行编码的方法为:
对自然语言文本进行特征提取,得到的长度为d的词序列p=(w1,w2,…,wd),其中每个单词wi采用预训练的词向量进行表示,i=1~d;
由得到的词向量对自然语言文本进行编码。
3.根据权利要求1所述的文本生成图像方法,其特征在于,提取的自然语言文本的特征包括高层语义特征以及文本描述的视觉特征,其中高层语义特征包括实体和关系,视觉特征包括颜色和尺寸。
4.一种用于实现权利要求1-3任一所述文本生成图像方法的文本生成图像装置,其特征在于,包括:
一文本编码器,对输入的描述图像的自然语言文本进行编码,得到文本语义嵌入表示;
一生成器,包括循环神经网络转码器、图像解码器以及图像融合器,所述循环神经网络转码器用于读取文本语义嵌入和转码器上一步的隐态,输出每步的对象隐编码;所述图像解码器对输入的每步对象隐编码进行解码生成步图像;所述图像融合器对所述图像解码器生产的所有步图像进行图像融合得到生成图像;
一判别器,由下采样网络构成,对输入的生成图像和真实图像,在隐层联合文本语义嵌入表示进行对抗训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811336849.0A CN109543159B (zh) | 2018-11-12 | 2018-11-12 | 一种文本生成图像方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811336849.0A CN109543159B (zh) | 2018-11-12 | 2018-11-12 | 一种文本生成图像方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543159A CN109543159A (zh) | 2019-03-29 |
CN109543159B true CN109543159B (zh) | 2023-03-24 |
Family
ID=65846731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811336849.0A Active CN109543159B (zh) | 2018-11-12 | 2018-11-12 | 一种文本生成图像方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543159B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833235B (zh) * | 2019-04-19 | 2024-01-16 | 北京京东尚科信息技术有限公司 | 图像转换方法及装置 |
CN112400186B (zh) * | 2019-05-15 | 2023-08-01 | 微软技术许可有限责任公司 | 图像生成 |
CN110176050B (zh) * | 2019-05-30 | 2023-05-09 | 清华大学深圳研究生院 | 文本生成图像的美学优化方法 |
CN110287484B (zh) * | 2019-06-11 | 2022-12-06 | 华东师范大学 | 一种基于人脸特征的汉语文本描述人脸图像生成方法 |
CN110264398B (zh) * | 2019-07-16 | 2021-05-28 | 北京市商汤科技开发有限公司 | 图像处理方法及装置 |
CN110909181A (zh) * | 2019-09-30 | 2020-03-24 | 中国海洋大学 | 一种面向多类型海洋数据的跨模态检索方法及系统 |
CN110866958B (zh) * | 2019-10-28 | 2023-04-18 | 清华大学深圳国际研究生院 | 一种文本到图像的方法 |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
CN111918071A (zh) * | 2020-06-29 | 2020-11-10 | 北京大学 | 数据压缩的方法、装置、设备及存储介质 |
CN111968193B (zh) * | 2020-07-28 | 2023-11-21 | 西安工程大学 | 一种基于StackGAN网络的文本生成图像方法 |
CN112462001B (zh) * | 2020-11-17 | 2021-07-23 | 吉林大学 | 一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法 |
CN112581431B (zh) * | 2020-12-07 | 2022-08-23 | 重庆邮电大学 | 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法 |
CN112364946B (zh) * | 2021-01-13 | 2021-05-28 | 长沙海信智能系统研究院有限公司 | 图像确定模型的训练方法、图像确定的方法、装置和设备 |
CN112765317A (zh) * | 2021-01-19 | 2021-05-07 | 东南大学 | 一种引入类信息的文本生成图像方法及装置 |
CN112926671B (zh) * | 2021-03-12 | 2024-04-19 | 云知声智能科技股份有限公司 | 一种图像文本匹配的方法、装置、电子设备和存储介质 |
CN113033544B (zh) * | 2021-05-28 | 2021-09-10 | 北京世纪好未来教育科技有限公司 | 一种用于模型训练的图像获取方法、装置、设备及介质 |
CN113554040B (zh) * | 2021-09-07 | 2024-02-02 | 西安交通大学 | 一种基于条件生成对抗网络的图像描述方法、装置设备 |
CN114187405B (zh) * | 2021-12-07 | 2023-05-05 | 北京百度网讯科技有限公司 | 确定虚拟形象的方法及装置、设备、介质和产品 |
CN116543082A (zh) * | 2023-05-18 | 2023-08-04 | 无锡捷通数智科技有限公司 | 数字人的生成方法、装置和数字人的生成系统 |
CN116543388B (zh) * | 2023-07-04 | 2023-10-17 | 深圳大学 | 一种基于语义引导信息的条件式图像生成方法及相关装置 |
CN116741197B (zh) * | 2023-08-11 | 2023-12-12 | 上海蜜度信息技术有限公司 | 多模态图像生成方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN108230426A (zh) * | 2018-02-07 | 2018-06-29 | 深圳市唯特视科技有限公司 | 一种基于眼睛注视数据和图像数据集的图像生成方法 |
CN108256627A (zh) * | 2017-12-29 | 2018-07-06 | 中国科学院自动化研究所 | 视听信息互生装置及其基于循环对抗生成网络的训练系统 |
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9317872B2 (en) * | 2013-02-06 | 2016-04-19 | Muzak Llc | Encoding and decoding an audio watermark using key sequences comprising of more than two frequency components |
US9628868B2 (en) * | 2014-07-16 | 2017-04-18 | Crestron Electronics, Inc. | Transmission of digital audio signals using an internet protocol |
-
2018
- 2018-11-12 CN CN201811336849.0A patent/CN109543159B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN108256627A (zh) * | 2017-12-29 | 2018-07-06 | 中国科学院自动化研究所 | 视听信息互生装置及其基于循环对抗生成网络的训练系统 |
CN108230426A (zh) * | 2018-02-07 | 2018-06-29 | 深圳市唯特视科技有限公司 | 一种基于眼睛注视数据和图像数据集的图像生成方法 |
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
Non-Patent Citations (4)
Title |
---|
基于图像云模型语义标注的条件生成对抗网络;杜秋平等;《模式识别与人工智能》;20180415(第04期);第89-98页 * |
机器学习中的特征选择方法研究及展望;崔鸿雁等;《北京邮电大学学报》;20180215(第01期);第5-16页 * |
生成式对抗网络GAN的研究进展与展望;王坤峰等;《自动化学报》;20170315(第03期);第321-312页 * |
生成式对抗网络研究进展;王万良等;《通信学报》;20180225(第02期);第139-152页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109543159A (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543159B (zh) | 一种文本生成图像方法及装置 | |
Singer et al. | Text-to-4d dynamic scene generation | |
EP3166049B1 (en) | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering | |
CN108388900A (zh) | 基于多特征融合和时空注意力机制相结合的视频描述方法 | |
CN110533737A (zh) | 基于结构引导汉字字体生成的方法 | |
CN107729987A (zh) | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 | |
CN111260740A (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
CN113140020B (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN111444367A (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN111402365B (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN112765316A (zh) | 一种引入胶囊网络的文本生成图像方法及装置 | |
CN112765317A (zh) | 一种引入类信息的文本生成图像方法及装置 | |
Ni et al. | NUWA-LIP: language-guided image inpainting with defect-free VQGAN | |
CN117252957A (zh) | 根据文字描述生成带精确文字图片的方法、装置及存储介质 | |
CN113987129A (zh) | 基于变分自动编码器的数字媒体保护文本隐写方法 | |
CN117521672A (zh) | 一种基于扩散模型的长文本生成连续图片的方法 | |
CN116188621A (zh) | 基于文本监督的双向数据流生成对抗网络图像生成方法 | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
Cai et al. | Leveraging large language models for scalable vector graphics-driven image understanding | |
Lin | Comparative Analysis of Pix2Pix and CycleGAN for Image-to-Image Translation | |
CN117173219A (zh) | 一种基于可提示的分割模型的视频目标跟踪方法 | |
CN117034951A (zh) | 基于大语言模型的具有特定语言风格的数字人 | |
Rohith et al. | Image Generation Based on Text Using BERT And GAN Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |