CN115908641A - 一种基于特征的文本到图像生成方法、装置及介质 - Google Patents

一种基于特征的文本到图像生成方法、装置及介质 Download PDF

Info

Publication number
CN115908641A
CN115908641A CN202211703322.3A CN202211703322A CN115908641A CN 115908641 A CN115908641 A CN 115908641A CN 202211703322 A CN202211703322 A CN 202211703322A CN 115908641 A CN115908641 A CN 115908641A
Authority
CN
China
Prior art keywords
image
text
training
module
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211703322.3A
Other languages
English (en)
Inventor
周媛
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211703322.3A priority Critical patent/CN115908641A/zh
Publication of CN115908641A publication Critical patent/CN115908641A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征的文本到图像生成方法、装置及介质,其方法包括获取测试文本,进行编码处理生成文本特征;随机生成分布噪声并作为图像特征;将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;其中,图像生成模型的训练包括:获取由大量训练文本及对应的真实图像构成的数据集;基于生成对抗网络设计图像生成模块,图像生成模块包括生成器和判别器;从数据集中取出训练文本及其对应的真实图像;对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征,并计算对抗性损失和相似性比较损失,根据对抗性损失和相似性比较损失优化生成器和判别器,并进行迭代训练;本发明能够提升图像生成的准确性。

Description

一种基于特征的文本到图像生成方法、装置及介质
技术领域
本发明涉及一种基于特征的文本到图像生成方法、装置及介质,属于图像合成技术领域。
背景技术
文本到图像合成(T2I),以文本描述为输入,输出与描述对应的具有高度语义相关性的图像,将自然语言与计算机视觉连接起来,从而促进人工智能在“看”和“理解”上的应用。从文本描述中自动生成图像因其在许多应用中的重要性而吸引了许多努力的兴趣。根据外观描述生成肖像,使用给定的样式标签设计所需的图像,在零样本学习中基于类描述合成看不见的特征。根据是否使用生成对抗网络(GAN)作为主要框架,T2I方法可以大致分为两类:基于非GAN的模型和基于GAN的模型。
现有技术虽然基于GAN的工作取得了显著成果,但多阶段或循环的训练策略使得在现实世界中应用T2I变得很麻烦。古语有云,“一望千言”。这些模型将带有来自标准正态分布的随机样本的文本作为输入,与真实图像相比,文本和随机噪声都无法覆盖足够的信息。因此,使用来自标准正态分布的样本进行生成并不是最佳选择。此外,这些模型考虑了生成的图像和文本之间的语义匹配,但忽略了与真实图像的一致性。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于特征的文本到图像生成方法、装置及介质,考虑真实图像的一致性,保证生成的图像服从真实的图像分布。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于特征的文本到图像生成方法,包括:
获取测试文本,对测试文本进行编码处理生成文本特征;
随机生成分布噪声,将随机生成的分布噪声作为图像特征;
将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;
其中,所述图像生成模型的训练包括:
获取由大量训练文本及对应的真实图像构成的数据集;
基于生成对抗网络设计图像生成模块,所述图像生成模块包括生成器和判别器;
从数据集中取出训练文本及其对应的真实图像;
对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;
将文本特征和图像特征输入生成器,获取输出的生成图像;
将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;
将文本特征、生成图像和真实图像输入相似性比较器,计算相似性比较损失;
根据对抗性损失和相似性比较损失优化生成器和判别器;
返回步骤:从数据集中取出训练文本及其对应的真实图像,对图像生成模块进行迭代训练。
可选的,所述生成文本特征包括:
采用由预训练的CLIP模型作为文本编码器,所述文本编码器将文本编码为文本特征,所述文本特征包括句子级特征和单词级特征,其表达式为:
(fs,fw)=ET(t)
式中,ET为文本编码器,t为文本,fs∈R512为句子级特征,R512为512大小的实数向量,fw∈R512×seq_len为单词级特征,R512×seq_len为512×seq_len大小的实数矩阵,seq_len为序列长度。
可选的,所述生成图像特征包括:
采用由预训练的ViT-B/32模型作为图像编码器,所述图像编码器将真实图像编码为初始的图像特征,其表达式为:
fx=EI(x)
式中,EI为图像编码器,x为真实图像,fx为初始的图像特征;
采用预设的分布编码器将图像特征映射成一个连续流形,用独立的高斯分布表示:N(μ(fx),σ(fx));对所述分布编码器添加正则化以确保连续流形的平滑度;
基于初始的图像特征根据连续流形生成最终的图像特征,其表达式为:
z=Ez(fx)=μ(fx)+∈×σ(fx)
式中,Ez为分布编码器,fx为初始的图像特征,z为最终的图像特征,∈~N(0,I)。
可选的,所述对抗性损失Ladv为:
Figure BDA0004025324920000031
式中,
Figure BDA0004025324920000032
为数学期望,(t,x)为训练文本及对应的真实图像,Pdata为数据集,D(x,fs)为真实图像x和对应训练文本的句子级特征fs输入判别器D的输出结果,
Figure BDA0004025324920000033
为生成图像
Figure BDA0004025324920000034
和对应训练文本的句子级特征fs输入判别器D的输出结果。
可选的,所述相似性比较损失Lsim为:
Figure BDA0004025324920000035
Figure BDA0004025324920000036
Figure BDA0004025324920000037
式中,
Figure BDA0004025324920000038
为数据集中第i个训练文本对应的真实图像和生成图像输入相似性比较器C的输出结果,
Figure BDA0004025324920000039
为数据集中第i个训练文本的句子级特征和生成图像输入相似性比较器C的输出结果,n为数据集中训练文本的数量。
可选的,所述根据对抗性损失和相似性比较损失优化生成器和判别器包括:
生成器和判别器通过交替最大化和最小化的对抗性损失进行优化;
在生成器的对抗性损失优化后,通过相似性比较损失再次优化。
第二方面,本发明提供了一种基于特征的文本到图像生成装置,包括:
测试文本模块,用于获取测试文本,对测试文本进行编码处理生成文本特征;
噪声生成模块,用于随机生成分布噪声,将随机生成的分布噪声作为图像特征;
模型运行模块,用于将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;
其中,所述图像生成模型的训练包括:
数据获取模块,用于获取由大量训练文本及对应的真实图像构成的数据集;
模型构建模块,用于基于生成对抗网络设计图像生成模块,所述图像生成模块包括生成器和判别器;
数据取出模块,用于从数据集中取出训练文本及其对应的真实图像;
特征生成模块,用于对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;
图像生成模块,用于将文本特征和图像特征输入生成器,获取输出的生成图像;
对抗损失模块,用于将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;
相似性损失模块,用于将文本特征、生成图像以及真实图像输入相似性比较器,计算相似性比较损失;
模型优化模块,用于根据对抗性损失和相似性比较损失优化生成器和判别器;
迭代训练模块,用于返回数据取出模块,对图像生成模块进行迭代训练。
第三方面,本发明提供了一种基于特征的文本到图像生成装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行上述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供的一种基于特征的文本到图像生成方法、装置及介质,采用分布编码器来近似真实图像的分布,从而保证生成的图像服从真实的图像分布;提出了一种相似性比较器,为目标函数引入了最坏情况优化的相似度损失;这减少了生成图像在语义和视觉空间中与真实图像之间的差异,从而使生成的图像不仅符合文本描述,而且也符合真实样本图像;综上,本发明考虑了文本、生成图像以及真实图像之间的一致性,从而提高生成图像的准确性。
附图说明
图1是本发明实施例一提供的基于特征的文本到图像生成方法的流程图;
图2是本发明实施例一提供的图像生成模型的训练的流程图;
图3是本发明实施例一提供的生成器的生成网络的结构图;
图4是本发明实施例一提供的基于特征的文本到图像生成方法的框架图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,本发明实施例提供了一种基于特征的文本到图像生成方法,包括以下步骤:
1、获取测试文本,对测试文本进行编码处理生成文本特征;
2、随机生成分布噪声,将随机生成的分布噪声作为图像特征;
3、将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像(即通过图像生成模型中的生成器输出生成图像);
如图2所示,图像生成模型的训练包括:
S1、获取由大量训练文本及对应的真实图像构成的数据集;
S2、基于生成对抗网络设计图像生成模块,图像生成模块包括生成器和判别器;
S3、从数据集中取出训练文本及其对应的真实图像;
S4、对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;
S4.1、生成文本特征包括:
采用由预训练的CLIP模型作为文本编码器,文本编码器将文本编码为文本特征,文本特征包括句子级特征和单词级特征,其表达式为:
(fs,fw)=ET(t)
式中,ET为文本编码器,t为文本,fs∈R512为句子级特征,R512为512大小的实数向量,fw∈R512×seq_len为单词级特征,R512×seq_len为512×seq_len大小的实数矩阵,seq_len为序列长度。
S4.2、生成图像特征包括:
采用由预训练的ViT-B/32模型作为图像编码器,图像编码器将真实图像编码为初始的图像特征,其表达式为:
fx=EI(x)
式中,EI为图像编码器,x为真实图像,fx为初始的图像特征;
采用预设的分布编码器将图像特征映射成一个连续流形,用独立的高斯分布表示:N(μ(fx),σ(fx));对分布编码器添加正则化以确保连续流形的平滑度;
基于初始的图像特征根据连续流形生成最终的图像特征,其表达式为:
z=Ez(fx)=μ(fx)+∈×σ(fx)
式中,Ez为分布编码器,fx为初始的图像特征,z为最终的图像特征,∈~N(0,I)。
S5、将文本特征和图像特征输入生成器,获取输出的生成图像;
生成器包括多个级联的生成网络,每个生成网络包括两个方向上进行卷积池化以提取图像特征,最后将两个方向的图像特征进行残差处理;如图3所示,第一个方向包括AveragePooling层、1×1Conv层、Concat层,AveragePooling层的输出连接1×1Conv层和Concat层,1×1Conv层的输出连接Concat层;第二个方向包括依次连接的ReLU层、1×1Conv层、ReLU层、3×3Conv层、ReLU层、3×3Conv层、ReLU层、AveragePooling层、1×1Conv层;将句子级特征fs和图像特征z作为生成器的输入,将单词级特征fw和生成器倒数第二个生成网络的图像特征计算注意力,将注意力用应于图像特征,在最后一个生成网络细化生成图像。
S6、将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;
对抗性损失Ladv为:
Figure BDA0004025324920000071
式中,
Figure BDA0004025324920000072
为数学期望,(t,x)为训练文本及对应的真实图像,Pdata为数据集,D(x,fs)为真实图像x和对应训练文本的句子级特征fs输入判别器D的输出结果,
Figure BDA0004025324920000073
为生成图像
Figure BDA0004025324920000074
和对应训练文本的句子级特征fs输入判别器D的输出结果。
S7、将文本特征、生成图像和真实图像输入相似性比较器,计算相似性比较损失;
相似性比较损失Lsim为:
Figure BDA0004025324920000075
Figure BDA0004025324920000076
Figure BDA0004025324920000077
式中,
Figure BDA0004025324920000081
为数据集中第i个训练文本对应的真实图像和生成图像输入相似性比较器C的输出结果,
Figure BDA0004025324920000082
为数据集中第i个训练文本的句子级特征和生成图像输入相似性比较器C的输出结果,n为数据集中训练文本的数量。
相似性比较器C采用余弦相似性方法计算,其计算公式如下:
Figure BDA0004025324920000083
式中,[x1,y1]、[x2,y2]为两个向量;
对于编码器,ET和EI在训练时是固定的,并且真实图像和文本对保证它们的特征向量彼此接近。因此,我们只考虑等式中两个距离的最坏的情况,即最大距离
Figure BDA0004025324920000084
在真实图像和文本的监督下,最小化最坏情况推动生成图像在特征空间中逼近文本和真实图像。
S8、根据对抗性损失和相似性比较损失优化生成器和判别器;
生成器和判别器通过交替最大化和最小化的对抗性损失进行优化;
在生成器的对抗性损失优化后,通过相似性比较损失再次优化。
S9、返回步骤:从数据集中取出训练文本及其对应的真实图像,对图像生成模块进行迭代训练(即重复步骤S3-S8,对生成器和判别器进行迭代优化,迭代的结束条件一般为到达预设的最大迭代次数,或损失到达预设阈值)。
本发明与其他方法做了对比实验,在CUB和COCO数据集上的比较结果,FID的值达到了19.08,IS的值达到了4.79,得到了比其他方法更加优异的分数。
实施例二:
本发明实施例提供了一种基于特征的文本到图像生成装置,包括:
测试文本模块,用于获取测试文本,对测试文本进行编码处理生成文本特征;
噪声生成模块,用于随机生成分布噪声,将随机生成的分布噪声作为图像特征;
模型运行模块,用于将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;
其中,图像生成模型的训练包括:
数据获取模块,用于获取由大量训练文本及对应的真实图像构成的数据集;
模型构建模块,用于基于生成对抗网络设计图像生成模块,图像生成模块包括生成器和判别器;
数据取出模块,用于从数据集中取出训练文本及其对应的真实图像;
特征生成模块,用于对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;
图像生成模块,用于将文本特征和图像特征输入生成器,获取输出的生成图像;
对抗损失模块,用于将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;
相似性损失模块,用于将文本特征、生成图像和真实图像输入相似性比较器,计算相似性比较损失;
模型优化模块,用于根据对抗性损失和相似性比较损失优化生成器和判别器;
迭代训练模块,用于返回数据取出模块,对图像生成模块进行迭代训练。
实施例三:
基于实施例一,本发明实施例提供了一种基于特征的文本到图像生成装置,包括处理器及存储介质;
存储介质用于存储指令;
处理器用于根据指令进行操作以执行上述方法的步骤。
实施例四:
基于实施例一,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种基于特征的文本到图像生成方法,其特征在于,包括:
获取测试文本,对测试文本进行编码处理生成文本特征;
随机生成分布噪声,将随机生成的分布噪声作为图像特征;
将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;
其中,所述图像生成模型的训练包括:
获取由大量训练文本及对应的真实图像构成的数据集;
基于生成对抗网络设计图像生成模块,所述图像生成模块包括生成器和判别器;
从数据集中取出训练文本及其对应的真实图像;
对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;
将文本特征和图像特征输入生成器,获取输出的生成图像;
将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;
将文本特征、生成图像和真实图像输入相似性比较器,计算相似性比较损失;
根据对抗性损失和相似性比较损失优化生成器和判别器;
返回步骤:从数据集中取出训练文本及其对应的真实图像,对图像生成模块进行迭代训练。
2.根据权利要求1所述的一种基于特征的文本到图像生成方法,其特征在于,所述生成文本特征包括:
采用由预训练的CLIP模型作为文本编码器,所述文本编码器将文本编码为文本特征,所述文本特征包括句子级特征和单词级特征,其表达式为:
(fs,fw)=ET(t)
式中,ET为文本编码器,t为文本,fs∈R512为句子级特征,R512为512大小的实数向量,fw∈R512×seq_len为单词级特征,R512×seq_len为512×seq_len大小的实数矩阵,seq_len为序列长度。
3.根据权利要求2所述的一种基于特征的文本到图像生成方法,其特征在于,所述生成图像特征包括:
采用由预训练的ViT-B/32模型作为图像编码器,所述图像编码器将真实图像编码为初始的图像特征,其表达式为:
fx=EI(x)
式中,EI为图像编码器,x为真实图像,fx为初始的图像特征;
采用预设的分布编码器将图像特征映射成一个连续流形,用独立的高斯分布表示:N(μ(fx),σ(fx));对所述分布编码器添加正则化以确保连续流形的平滑度;
基于初始的图像特征根据连续流形生成最终的图像特征,其表达式为:
z=Ez(fx)=μ(fx)+∈×σ(fx)
式中,Ez为分布编码器,fx为初始的图像特征,z为最终的图像特征,∈~N(0,I)。
4.根据权利要求3所述的一种基于特征的文本到图像生成方法,其特征在于,所述对抗性损失Ladv为:
Figure FDA0004025324910000021
式中,
Figure FDA0004025324910000022
为数学期望,(t,x)为训练文本及对应的真实图像,Pdata为数据集,D(x,fs)为真实图像x和对应训练文本的句子级特征fs输入判别器D的输出结果,
Figure FDA0004025324910000023
为生成图像
Figure FDA0004025324910000025
和对应训练文本的句子级特征fs输入判别器D的输出结果。
5.根据权利要求3所述的一种基于特征的文本到图像生成方法,其特征在于,所述相似性比较损失Lsim为:
Figure FDA0004025324910000024
Figure FDA0004025324910000031
Figure FDA0004025324910000032
式中,
Figure FDA0004025324910000033
为数据集中第i个训练文本对应的真实图像和生成图像输入相似性比较器C的输出结果,
Figure FDA0004025324910000034
为数据集中第i个训练文本的句子级特征和生成图像输入相似性比较器C的输出结果,n为数据集中训练文本的数量。
6.根据权利要求1所述的一种基于特征的文本到图像生成方法,其特征在于,所述根据对抗性损失和相似性比较损失优化生成器和判别器包括:
生成器和判别器通过交替最大化和最小化的对抗性损失进行优化;
在生成器的对抗性损失优化后,通过相似性比较损失再次优化。
7.一种基于特征的文本到图像生成装置,其特征在于,包括:
测试文本模块,用于获取测试文本,对测试文本进行编码处理生成文本特征;
噪声生成模块,用于随机生成分布噪声,将随机生成的分布噪声作为图像特征;
模型运行模块,用于将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;
其中,所述图像生成模型的训练包括:
数据获取模块,用于获取由大量训练文本及对应的真实图像构成的数据集;
模型构建模块,用于基于生成对抗网络设计图像生成模块,所述图像生成模块包括生成器和判别器;
数据取出模块,用于从数据集中取出训练文本及其对应的真实图像;
特征生成模块,用于对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;
图像生成模块,用于将文本特征和图像特征输入生成器,获取输出的生成图像;
对抗损失模块,用于将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;
相似性损失模块,用于将文本特征、生成图像和真实图像输入相似性比较器,计算相似性比较损失;
模型优化模块,用于根据对抗性损失和相似性比较损失优化生成器和判别器;
迭代训练模块,用于返回数据取出模块,对图像生成模块进行迭代训练。
8.一种基于特征的文本到图像生成装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-6任一项所述方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
CN202211703322.3A 2022-12-29 2022-12-29 一种基于特征的文本到图像生成方法、装置及介质 Pending CN115908641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211703322.3A CN115908641A (zh) 2022-12-29 2022-12-29 一种基于特征的文本到图像生成方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211703322.3A CN115908641A (zh) 2022-12-29 2022-12-29 一种基于特征的文本到图像生成方法、装置及介质

Publications (1)

Publication Number Publication Date
CN115908641A true CN115908641A (zh) 2023-04-04

Family

ID=86491453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211703322.3A Pending CN115908641A (zh) 2022-12-29 2022-12-29 一种基于特征的文本到图像生成方法、装置及介质

Country Status (1)

Country Link
CN (1) CN115908641A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645668A (zh) * 2023-07-21 2023-08-25 腾讯科技(深圳)有限公司 图像生成方法、装置、设备以及存储介质
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN117725922A (zh) * 2023-04-13 2024-03-19 书行科技(北京)有限公司 图像生成方法、装置、计算机设备和存储介质
CN117725922B (zh) * 2023-04-13 2024-09-24 书行科技(北京)有限公司 图像生成方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725922A (zh) * 2023-04-13 2024-03-19 书行科技(北京)有限公司 图像生成方法、装置、计算机设备和存储介质
CN117725922B (zh) * 2023-04-13 2024-09-24 书行科技(北京)有限公司 图像生成方法、装置、计算机设备和存储介质
CN116645668A (zh) * 2023-07-21 2023-08-25 腾讯科技(深圳)有限公司 图像生成方法、装置、设备以及存储介质
CN116645668B (zh) * 2023-07-21 2023-10-20 腾讯科技(深圳)有限公司 图像生成方法、装置、设备以及存储介质
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN116721176B (zh) * 2023-08-10 2023-11-10 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110288665B (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN112686058B (zh) Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备
CN115908641A (zh) 一种基于特征的文本到图像生成方法、装置及介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112348911B (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN110083729B (zh) 一种图像搜索的方法及系统
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN112380319A (zh) 一种模型训练的方法及相关装置
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
KR20230152741A (ko) 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN109446334A (zh) 一种实现英文文本分类的方法及相关设备
CN111126059B (zh) 一种短文文本的生成方法、生成装置及可读存储介质
CN111984783A (zh) 文本生成模型的训练方法、文本生成方法及相关设备
CN113486160B (zh) 基于跨语言知识的对话方法及系统
CN111339782B (zh) 一种基于多层次语义解析的手语翻译系统及方法
CN114065834A (zh) 一种模型训练方法、终端设备及计算机存储介质
CN110349570B (zh) 语音识别模型训练方法、可读存储介质和电子设备
CN113836910A (zh) 一种基于多层次语义的文本识别方法及系统
Viswanathan et al. Text to image translation using generative adversarial networks
CN114647717A (zh) 一种智能问答方法及装置
CN111639152B (zh) 意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination