CN114638905A - 图像生成方法、装置、设备、存储介质及计算机程序产品 - Google Patents
图像生成方法、装置、设备、存储介质及计算机程序产品 Download PDFInfo
- Publication number
- CN114638905A CN114638905A CN202210114595.8A CN202210114595A CN114638905A CN 114638905 A CN114638905 A CN 114638905A CN 202210114595 A CN202210114595 A CN 202210114595A CN 114638905 A CN114638905 A CN 114638905A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- hidden feature
- original
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000004590 computer program Methods 0.000 title claims description 17
- 239000013598 vector Substances 0.000 claims abstract description 370
- 238000013139 quantization Methods 0.000 claims abstract description 81
- 238000009826 distribution Methods 0.000 claims description 30
- 239000003550 marker Substances 0.000 claims description 11
- 230000006870 function Effects 0.000 description 31
- 238000012549 training Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000011084 recovery Methods 0.000 description 6
- ZHUJMSMQIPIPTF-JMBSJVKXSA-N (2s)-2-[[(2s)-2-[[2-[[(2r)-2-[[(2s)-2-amino-3-(4-hydroxyphenyl)propanoyl]amino]propanoyl]amino]acetyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoic acid Chemical compound C([C@@H](C(=O)N[C@@H](CC(C)C)C(O)=O)NC(=O)CNC(=O)[C@@H](C)NC(=O)[C@@H](N)CC=1C=CC(O)=CC=1)C1=CC=CC=C1 ZHUJMSMQIPIPTF-JMBSJVKXSA-N 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013144 data compression Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像生成方法、设备、装置及存储介质,该图像生成方法包括:通过目标任务对应的目标编码器,获取目标图像标记序列;基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;其中,所述目标任务包括图像重构任务和/或文本转图像任务。本发明通过目标编码器获取目标图像标记序列后,使用图像标记序列相对应的图像隐特征码字获取连续的图像隐特征权重向量,基于连续的图像隐特征权重向量获取图像,从而实现减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及图像生成方法、装置、设备、存储介质及计算机程序产品。
背景技术
文本至图像生成的任务目标是基于给定的描述文本,生成与描述文本内容一致的真实图像。该任务要求生成模型既能理解输入文本的语义含义,掌握真实图像的概率分布,也能执行跨模态理解,从而生成与输入描述文本内容一致的真实图像。
目前在进行文本至图像的生成任务时,常见的基于变分自编码器的方法和框架存在图像隐特征码本信息冗余,造成计算资源和时间成本的损失;而且,在对图像进行向量量化时,量化误差大,造成图像细节信息丢失等问题;另外,在训练过程中,使用均方误差损失函数进行图像重构,重构图像模糊,影响文本至图像生成的效果。
发明内容
本发明提供一种图像生成方法、装置、设备、存储介质及计算机程序产品,用以解决现有技术中图像向量量化误差大、图像细节信息丢失的缺陷,实现减小图像向量量化误差、保留图像细节信息的作用。
第一方面,本发明提供一种图像生成方法,包括:
通过目标任务对应的目标编码器,获取目标图像标记序列;基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;
基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;
其中,所述目标任务包括图像重构任务和/或文本转图像任务。
可选地,在所述目标任务包括所述图像重构任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器;
所述通过目标任务对应的目标编码器,获取目标图像标记序列,包括:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列,将所述原始图像标记序列作为所述目标图像标记序列。
可选地,在所述目标任务包括所述文本转图像任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器和文本字节对编码器;
通过目标任务对应的目标编码器,获取目标图像标记序列,包括:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列;
基于所述文本转图像任务的原始文本和描述文本,通过文本字节对编码器,获取与原始文本对应的原始文本标记序列,和与描述文本对应的描述文本标记序列,其中,所述原始文本与所述原始图像一一对应,所述描述文本与所述原始文本不完全相同或完全不相同;
确定所述原始图像标记序列和所述原始文本标记序列之间的第一关联关系;
基于所述描述文本标记序列和所述第一关联关系,获取所述目标图像标记序列。
可选地,所述确定所述原始图像标记序列和所述文本标记序列之间的第一关联关系,包括:
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述第一关联关系。
可选地,所述第一关联关系,包括:图像单模态的概率分布,以及文本和图像的跨模态关联关系。
可选地,所述将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述第一关联关系,包括:
将所述原始图像标记序列输入自回归生成模型,获取所述图像单模态的概率分布;
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述文本和图像的跨模态关联关系。
可选地,所述基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像,包括:
基于所述连续的图像隐特征权重向量中的目标图像隐特征权重向量,对图像隐特征码本中的所有图像隐特征码字进行加权求和,加权求和后的图像隐特征码字用于表征所述目标图像隐特征权重向量对应的目标图像特征向量;
获取所有的所述图像隐特征权重向量分别对应的目标图像特征向量;
基于所述所有的所述图像隐特征权重向量分别对应的目标图像特征向量,获取所述目标任务的目标图像;
其中,所述图像隐特征码本包括用于表征目标图像特征向量的所有图像隐特征码字,以及所有所述图像隐特征码字之间的关联关系;所述目标图像隐特征权重向量对应的全部图像隐特征码字的权重不全部相同或全部不相同,且权重之和为1。
可选地,所述基于所述所有的所述图像隐特征权重向量分别对应的目标图像特征向量,获取所述目标任务的目标图像,还包括:
基于所述所有的所述图像隐特征权重向量组成的连续向量空间,恢复图像细节信息。
可选地,所述基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列,包括:
基于所述原始图像,获取所述原始图像的原始图像特征向量;
基于所述原始图像特征向量中的目标原始图像特征向量,对图像隐特征码本中的所有图像隐特征码字进行权重分配,确定所述目标原始图像特征向量对应的原始图像隐特征权重向量;
获取所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量;
基于所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量,获取所述原始图像标记序列。
可选地,所述基于所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量,获取所述原始图像标记序列,包括:
确定所述目标原始图像隐特征权重向量对应的所有图像隐特征码字中权重最大的图像隐特征码字,作为所述目标原始图像特征向量的图像隐特征码字;
获取所有所述目标原始图像特征向量各自对应的图像隐特征码字;
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,获取所述原始图像标记序列。
可选地,所述方法还包括:
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,更新所述图像隐特征码本。
第二方面,本发明还提供一种图像生成装置,包括:图像编码器和图像解码器;
所述图像编码器用于通过目标任务对应的目标编码器,获取目标图像标记序列;
所述图像解码器用于基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;
其中,所述目标任务包括图像重构任务和/或文本转图像任务。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像生成方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像生成方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像生成方法的步骤。
本发明提供的图像生成方法、装置、设备、存储介质及计算机程序产品,通过目标编码器获取目标图像标记序列后,基于图像标记序列相对应的图像隐特征码字获取连续的图像隐特征权重向量,基于连续的图像隐特征权重向量获取图像,从而实现减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像生成方法流程示意图之一;
图2是本发明提供的图像生成方法的流程示意图之二;
图3是本发明提供的图像生成方法的流程示意图之三;
图4是本发明提供的图像生成装置的结构示意图之一;
图5是本发明提供的图像生成装置的结构示意图之二;
图6是本发明提供的图像生成装置的结构示意图之三;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的图像生成方法。
图1是本发明提供的图像生成方法流程示意图之一,如图1所示,本发明提供一种图像生成方法,该方法包括步骤110至步骤130:
步骤110、通过目标任务对应的目标编码器,获取目标图像标记序列;
步骤120、基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;
步骤130、基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;
其中,所述目标任务包括图像重构任务和/或文本转图像任务。
具体地,可以通过目标任务对应的目标编码器,其中,目标任务可以是基于原始图像重构图像的图像重构任务,也可以是基于描述文本,生成图像的文本转图像任务。
具体地,当目标任务是图像重构任务的情况下,目标编码器可以是动态向量量化图像变分自编码器。
具体地,可以将原始图像输入动态向量量化图像变分自编码器,获取与原始图像对应的原始图像标记序列,作为目标图像标记序列。
具体地,当目标任务是文本转图像任务的情况下,目标编码器可以是动态向量量化图像变分自编码器和文本字节对编码器。
具体地,可以将原始图像输入动态向量量化图像变分自编码器,获取与原始图像对应的原始图像标记序列;接着将原始文本和描述文本输入文本字节对编码器,获取与原始文本对应的原始文本标记序列,以及与描述文本对应的描述文本标记序列;再将原始图像标记序列和原始文本对应的文本标记序列输入自回归生成模型,获取图像标记序列与文本标记序列的对应关系;最后将描述文本对应的描述文本标记序列输入自回归生成模型,获取与描述文本对应的图像标记序列,作为目标图像标记序列。
其中,原始文本与原始图像一一对应,描述文本与原始文本不完全相同或完全不相同。
具体地,目标图像标记序列中的图像标记与图像隐特征码本中的图像隐特征码字一一对应,基于图像标记序列中的图像标记可以获取相对应的图像隐特征码字。
具体地,在获取图像标记序列对应的图像隐特征码字后,可以基于图像隐特征码字之间的关联关系,通过动态权重恢复函数,获取目标图像隐特征权重向量,其中,动态权重恢复函数是基于原始图像的图像隐特征权重向量,以及重构的原始图像隐特征权重向量确定的。目标图像隐特征权重向量对应的每个图像隐特征码字占有不完全相同或完全不同的权重,且权重之和为1,由不同权重的图像隐特征码字求和获得的目标图像特征向量,可以组成与目标图像相对应的连续的特征向量空间。
具体地,基于连续的图像隐特征权重向量,可以获取与目标图像相对应的图像特征向量,进而获取目标任务的目标图像。
本发明提供的图像生成方法,通过编码器获取目标图像标记序列后,基于图像隐特征码字之间的关联关系,获取连续的图像隐特征权重向量,可以获取与目标图像相对应的连续的特征向量空间,从而减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
可选地,在所述目标任务包括所述图像重构任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器;
所述通过目标任务对应的目标编码器,获取目标图像标记序列,包括:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列,将所述原始图像标记序列作为所述目标图像标记序列。
具体地,可以搭建动态向量量化变分自编码器模型,图2是本发明提供的图像生成方法的流程示意图之二,如图2所示,搭建动态向量量化变分自编码器模型,包括步骤210至步骤230:
步骤210、基于输入的训练图像,获取训练图像的图像特征向量;
步骤220、基于训练图像的图像特征向量,获取训练图像的图像隐特征权重向量;
步骤230、基于训练图像的图像隐特征权重向量,获取训练图像的图像标记序列。
具体地,可以向动态向量量化变分自编码器模型中的图像下采样模块输入RGB图像,其中,图像下采样模块可以包括下采样卷积层和剩余连接卷积块。
具体地,可以通过下采样卷积层压缩图像局部细节信息,降低图像空间分辨率,获取空间分辨率缩小f倍的图像特征,其中,f可以根据实际需要设置。
具体地,在获取空间分辨率缩小f倍的图像特征之后,可以将图像特征输入剩余连接卷积层,获取一组图像特征向量。
具体地,一组图像特征向量中的每个图像特征向量对应一个图像隐特征码字,每个图像隐特征码字具有图像标记,一组图像特征向量对应一组离散有序的图像隐特征码字,进而可以对应一个图像标记序列。
具体地,基于离散有序的图像隐特征码字,可以获取图像隐特征码本。
例如,图像隐特征码本E∈RM×D,其中,R为向量集合,M为图像隐特征码字的个数,D为图像特征码字的维度,第i个图像隐特征码字Ei∈RD对应数字标记i,其中,1≤i≤M。
具体地,动态向量量化变分自编码器模型还可以包括动态权重生成模块,在获取一组图像特征向量之后,可以以图像特征向量为输入,为每个图像特征向量生成对应的图像隐特征权重向量,每个图像隐特征权重向量对应不同权重分布的图像隐特征码字。
具体地,可以将一组图像特征向量分别输入动态权重生成模块,获取一组图像隐特征权重向量Wen,每个图像隐特征权重向量中,最大权重对应的图像隐特征码字的数字标记用于填入图像标记序列的对应位置,得到输出的图像标记序列。
具体地,在搭建动态向量量化变分自编码器模型之后,可以将原始图像输入动态向量量化变分自编码器模型,获取与原始图像对应的原始图像标记序列,作为目标图像标记序列。
本发明提供的图像生成方法,通过向动态向量量化图像变分自编码器输入原始图像,获取原始图像标记序列作为目标图像标记序列,基于目标图像标记序列相对应的图像隐特征码字,获取图像隐特征权重向量,可以获取与目标图像相对应的连续的特征向量空间,从而减少对图像进行量化时的量化误差,保留获取图像的图像细节信息,实现基于原始图像标记序列,重构原始图像。
可选地,在所述目标任务包括所述文本转图像任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器和文本字节对编码器;
通过目标任务对应的目标编码器,获取目标图像标记序列,包括:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列;
基于所述文本转图像任务的原始文本和描述文本,通过文本字节对编码器,获取与原始文本对应的原始文本标记序列,和与描述文本对应的描述文本标记序列,其中,所述原始文本与所述原始图像一一对应,所述描述文本与所述原始文本不完全相同或完全不相同;
确定所述原始图像标记序列和所述原始文本标记序列之间的第一关联关系;
基于所述描述文本标记序列和所述第一关联关系,获取所述目标图像标记序列。
具体地,在目标任务包括文本转图像任务的情况下,目标编码器可以包括动态向量量化图像变分自编码器和文本字节对编码器。
具体地,可以构建文本字节对编码器并加载预训练的文本字节对码本,其中,文本字节对编码器是一种常见的数据压缩算法,文本字节对编码器使用一个未使用过的标记迭代地替换文本序列中最频繁的字节对,并重复该过程,直到达到一个指定的目标词汇量为止。
具体地,通过将描述文本和与原始图像对应的原始文本输入文本字节对编码器,可以获取描述文本标记序列和原始文本标记序列;通过将原始图像输入动态向量量化图像变分自编码器,可以获取原始图像标记序列。
具体地,在获取原始文本标记序列和原始图像标记序列之后,可以将原始文本标记序列与原始图像标记序列一起输入至自回归生成模型中,进行图像单模态概率分布,以及文本和图像的跨模态关联关系的学习,以确定原始图像标记序列和原始文本标记序列之间的第一关联关系,从而自回归生成模型可以自回归地执行文本标记序列至图像标记序列的生成任务。
具体地,在获取自回归生成模型之后,可以输入描述文本标记序列,进而自回归生成模型可以基于描述文本标记序列和第一关联关系,获取目标图像标记序列。
本发明提供的图像生成方法,通过向动态向量量化图像变分自编码器获取原始图像标记序列,通过文本字节对编码器获取原始文本标记序列和描述文本标记序列,基于文本与图像的关联关系,可以获取描述文本对应的图像标记序列,作为目标图像标记序列,使用目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量,可以获取与目标图像相对应的连续的特征向量空间,从而减少对图像进行量化时的量化误差,保留获取图像的图像细节信息,实现基于描述文本,生成与描述文本对应的图像。
可选地,所述确定所述原始图像标记序列和所述原始文本标记序列之间的第一关联关系,包括:
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述第一关联关系。
具体地,可以将通过动态向量量化图像变分自编码器获取的原始图像标记序列,以及通过文本字节对编码器获取的原始文本标记序列,输入自回归生成模型,通过训练自回归生成模型,获取原始文本标记序列与原始图像标记序列之间的第一关联关系。
本发明提供的图像生成方法,通过将原始图像标记序列和原始文本标记序列输入自回归生成模型,以训练自回归生成模型,基于训练自回归生成模型,可以获取第一关联关系,以使图像标记序列与文本标记序列具有一一对应的映射关系,进而可以输入描述文本标记序列,获取对应的图像标记序列。
可选地,所述第一关联关系,包括:图像单模态的概率分布,以及文本和图像的跨模态关联关系。
具体地,第一关联关系可以包括基于原始图像标记序列获取的图像单模态的概率分布,还可以包括基于原始图像标记序列和原始文本标记序列获取的文本和图像的跨模态关联关系。
本发明提供的图像生成方法,动态向量量化的图像变分自编码器输出的原始图像标记序列,以及文本字节对编码器输出的原始文本标记序列均具有离散性、有限性、有序性和可展平性,原始图像标记序列中的每一个标记均与动态向量量化的图像变分自编码器的图像隐特征码本中的图像隐特征码字一一对应,原始文本标记序列中的每一个标记均与文本字节码本中的码字一一对应,通过构建图像单模态的概率分布,以及文本和图像的跨模态关联关系,可以获取文本标记序列与图像标记序列的映射关系,进而可以基于描述文本标记序列,可以获取对应的图像标记序列。
可选地,所述将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述第一关联关系,包括:
将所述原始图像标记序列输入自回归生成模型,获取所述图像单模态的概率分布;
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述文本和图像的跨模态关联关系。
具体地,可以采用生成结构的自回归生成模型,以一对语义相符的文本标记序列和图像标记序列为输入,学习图像标记序列的单模态概率分布以及文本标记序列和图像标记序列的跨模态关联关系。
具体地,将文本标记序列和图像标记序列输入自回归的生成模型中,拟合图像单模态概率分布,建立文本与图像的跨模态关联关系,可以包括步骤a和步骤b:
步骤a、搭建Transformer结构的自回归生成模型;
步骤b、训练Transformer结构的自回归生成模型。
具体地,搭建Transformer结构的自回归生成模型,可以包括:多头注意力层和掩盖机制。
多头注意力层包含多个自注意力模块,是Transformer的基本组成单元;自注意力模块以一组特征向量为输入,输入的一组特征向量组成特征向量组X,其中,特征向量组X包含N个不同的特征向量,每个特征向量的维度均为d,使用线性变换矩阵WQ,WK和WV分别与输入的特征向量组X相乘,得到三组新的特征向量Q,K和V,分别包含N个dq维的特征向量,N个dk维的特征向量和N个dv维的特征向量,则自注意力模块的输出特征向量组Z可以定义为:
其中,softmax为操作按行执行的函数,用于计算每一个特征向量对于其它特征向量的注意力权重。
多头注意力层由多个自注意力模块组合而成,将特征向量组X分别输入h个不同的自注意力模块中,计算h个输出特征向量组Z,其中h可根据实际需要设置。
在计算h个输出特征向量组Z之后,将h个输出特征向量组Z按向量维度进行拼接并传入线性层中进行维度变换,得到多头注意力层的输出特征向量组。
而掩盖机制使得自回归模型的训练过程与生成过程保持一致,掩码机制使得自回归生成模型在计算某输出位置的标记概率分布时,仅能计算在当前输出位置之前的所有标记序列。若当前输出标记为文本标记,则当前输出标记概率分布是由位于当前输出标记之前的所有文本标记计算得到;若当前输出标记为图像标记,则当前输出标记概率分布是由所有文本标记序列以及位于当前输出标记左方和上方的所有图像标记计算得到。
具体地,训练Transformer结构的自回归生成模型,可以包括:
对于给定的文本标记序列和图像标记序列,其组合概率密度函数可以定义为:
具体地,在获取第一关联关系之后,可以基于图像单模态概率分布和文本与图像的跨模态关联关系,将文本标记序列输入自回归生成模型中,得到相应的图像标记序列。
具体地,可以根据自回归模型建立的图像单模态概率分布及文本和图像多模态关联关系,基于输入的描述文本标记序列递归生成图像标记序列,其中递归生成,是指图像标记序列中的目标图像标记,都基于目标图像标记前面所有图像标记的生成。
本发明提供的图像生成方法,通过搭建并训练自回归生成模型,构建图像单模态的概率分布,以及文本和图像的跨模态关联关系,可以通过训练好的自回归生成模型,输入文本标记序列,获取对应的图像标记序列。
可选地,所述基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像,包括:
基于所述连续的图像隐特征权重向量中的目标图像隐特征权重向量,对图像隐特征码本中的所有图像隐特征码字进行加权求和,加权求和后的图像隐特征码字用于表征所述目标图像隐特征权重向量对应的目标图像特征向量;
获取所有的所述图像隐特征权重向量分别对应的目标图像特征向量;
基于所述所有的所述图像隐特征权重向量分别对应的目标图像特征向量,获取所述目标任务的目标图像;
其中,所述图像隐特征码本包括用于表征目标图像特征向量的所有图像隐特征码字,以及所有所述图像隐特征码字之间的关联关系;所述目标图像隐特征权重向量对应的全部图像隐特征码字的权重不全部相同或全部不相同,且权重之和为1。
具体地,在获取目标图像标记序列之后,可以根据目标图像标记序列中的每个数字标记,从图像隐特征码本中查询得到对应的图像隐特征码字,获取多个图像隐特征向量;
具体地,在获取多个图像隐特征向量之后,可以基于多个图像隐特征向量中的目标图像隐特征向量,获取目标图像隐特征权重向量。
具体地,可以基于图像隐特征码字之间的关联关系,通过动态权重恢复函数,获取目标图像隐特征权重向量。
具体地,基于多个图像隐特征权重向量,获取的图像隐特征权重向量组成的向量空间是连续的。
具体地,目标图像隐特征权重向量对应的图像隐特征码本中的图像隐特征码字的权重不全部相同或全部不相同,且所有权重之和为1。
具体地,在获取连续的多个图像隐特征权重向量之后,可以基于连续的多个图像隐特征权重向量中的目标图像隐特征权重向量,对图像隐特征码本中的所有图像隐特征码字进行加权求和,获取加权求和后的一个图像隐特征码字。
具体地,在获取加权求和后的一个图像隐特征码字之后,可以基于图像隐特征码字,确定目标图像隐特征权重向量对应的目标图像特征向量。
具体地,可以按照上述获取目标图像特征向量的步骤,获取所有的所述图像隐特征权重向量分别对应的目标图像特征向量。
具体地,在获取所有的图像隐特征权重向量分别对应的目标图像特征向量之后,基于所有的图像隐特征权重向量分别对应的目标图像特征向量,可以获取所述目标任务的目标图像。
具体地,在搭建图像生成模型时,可以初始化图像隐特征码本中包含N个图像隐特征码字,在固定的N个图像隐特征码字中,目标图像隐特征权重向量可以对每个图像隐特征码字分配权重,以获取N个权重。
例如,目标图像隐特征权重向量Wre包含N个与图像隐特征码本中的图像隐特征码字一一对应的大小为0到1的之间的图像隐特征码字权重,N个图像隐特征码字的权重之和为1;基于每个图像隐特征权重向量,对图像隐特征码本中的N个图像隐特征码字进行加权求和,获取一组重构或生成图像特征向量。
在获取一组重构或生成图像特征向量之后,可以基于一组重构或生成图像特征向量,输出重构或生成图像,其中,重构图像是基于原始图像标记序列重构的图像,生成图像是基于描述文本标记序列生成的图像。
可选地,可以使用基于原始图像与重构图像的目标函数,重构目标图像。
在传统的向量量化变分自编码器中,每个图像特征向量仅用一个图像隐特征码字量化表达,造成量化误差和图像细节信息的丢失。区别于传统的向量量化变分自编码器,本发明提供的图像生成方法,基于目标图像标记序列,对目标图像标记序列中每个图像标记对应的图像特征向量,动态的生成连续的目标图像隐特征权重向量,不同图像特征向量之间的差异性得以保留,从而可以在减少量化误差和图像细节信息丢失的基础上,更好的重构或生成图像。
可选地,所述基于所述所有的所述图像隐特征权重向量分别对应的目标图像特征向量,获取所述目标任务的目标图像,还包括:
基于所述所有的所述图像隐特征权重向量组成的连续向量空间,恢复图像细节信息。
具体地,在获取所有的图像隐特征权重向量对应的图像特征向量之后,可以利用卷积层对输入的图像特征向量进行转化,进而基于转化后的图像特征向量恢复图像细节信息,并输出重构或生成图像。
本发明提供的图像生成方法,通过动态生成连续权重向量,可以构建一个连续的图像特征向量空间,相比于传统的向量量化具有更强的表达能力,减少量化误差,使重构或生成图像的图像细节信息得以保留。
可选地,所述基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列,包括:
基于所述原始图像,获取所述原始图像的原始图像特征向量;
基于所述原始图像特征向量中的目标原始图像特征向量,对图像隐特征码本中的所有图像隐特征码字进行权重分配,确定所述目标原始图像特征向量对应的原始图像隐特征权重向量;
获取所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量;
基于所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量,获取所述原始图像标记序列。
具体地,可以利用如图2所示的步骤,获取原始图像标记序列。
在传统的向量量化变分自编码器中,每个图像特征向量仅用一个离散的图像隐特征码字量化表达,造成量化误差和图像细节信息的丢失。区别于传统的向量量化变分自编码器,本发明提供的图像生成方法,通过对输入的原始图像的每个图像特征向量分别生成对应的图像隐特征权重向量,从而对图像隐特征码字进行权重分配,通过对图像隐特征码字加权求和构建一个连续的图像特征向量空间,从而减少量化误差和图像细节信息丢失。
可选地,所述基于所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量,获取所述原始图像标记序列,包括:
确定所述目标原始图像隐特征权重向量对应的所有图像隐特征码字中权重最大的图像隐特征码字,作为所述目标原始图像特征向量的图像隐特征码字;
获取所有所述目标原始图像特征向量各自对应的图像隐特征码字;
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,获取所述原始图像标记序列。
具体地,在获取目标图像隐特征权重向量之后,可以基于目标图像隐特征权重向量对应的所有图像隐特征码字,确定其中权重最大的图像隐特征码字。
具体地,在确定权重最大的图像隐特征码字之后,可以根据图像隐特征码字的标记,获取原始图像标记序列。
具体地,可以基于输入的原始图像通过卷积层学习得到原始图像特征向量,进而可以通过学习到的图像特征向量来生成图像隐特征权值向量,最后可以基于这个图像隐特征权重向量获取图像标记序列。
具体地,可以基于恢复的图像隐特征权值向量对码字加权求和得到的目标图像特征向量,其中,可以基于图像标记序列获取图像隐特征码本中对应的图像隐特征码字,来恢复图像隐特征权重向量,再基于图像特征向量,用卷积层映射得到重构的图像。
具体地,基于图像标记序列恢复图像隐特征权重向量的过程中,图像隐特征码本中的图像隐特征码字可以学习图像隐特征码字之间的关联关系。
具体地,基于恢复的图像隐特征权重向量对图像隐特征码字加权的过程中,图像隐特征码本中的图像隐特征码字可以跟图像隐特征权重向量交互。
例如,图像隐特征码本中,可以包括5个隐特征码字a1、a2、a3、a4和a5,基于原始图像的一组原始图像特征向量动态生成的目标图像隐特征权重向量对应原始图像隐特征码本中的图像隐特征码字的权重分别为10%、40%、30%、10%和10%,此时,将权重最大的40%对应的图像隐特征码字a2作为目标图像特征向量对应的图像隐特征码字,相应地,将码字a2的下标2作为目标图像特征向量对应图像标记。
传统的向量量化变分自编码器在训练向量量化变分自编码器中的图像隐特征码本时,每个图像隐特征码字独立的表征一个图像特征向量,导致不同的图像隐特征码字重复表达相同信息。本发明提供的图像生成方法,动态向量量化变分自编码器构建的连续图像特征空间具有更强的表达能力,其图像隐特征码本包含的图像特征信息也更紧凑。
可选地,所述方法还包括:
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,更新所述图像隐特征码本。
具体地,可以通过调整动态生成的图像隐特征权重向量对应的图像隐特征码字的权重,图像隐特征码字之间可以进行信息交互和/或信息互补。
具体地,动态向量量化变分自编码器通过自主调整图像隐特征权重向量对应的图像隐特征码字的权重,使得与权重具有一一对应关系的图像隐特征码字之间可以进行信息交互,从而查找图像隐特征码字中的冗余信息,进而可以从图像隐特征码字中剔除冗余的信息,增加图像隐特征权重向量对应的图像隐特征码字之间的有效信息,形成更新后的图像隐特征码本,其中,增加的有效信息用于量化原始图像的细节信息,冗余信息剔除后,包含原冗余信息的图像隐特征码字的权重变小,包含非冗余信息的图像隐特征码字的权重变大。
可选地,通过调整图像隐特征权重向量对应的图像隐特征码字的权重,与图像隐特征权重向量对应的图像隐特征码字之间可以进行信息互补,包含不同有效信息的图像隐特征码字可以通过加权求和表征目标图像特征向量的不同信息,进而可以表征图像特征向量中丰富的图像信息,有利于减少量化误差,保留图像细节信息。
传统的向量量化变分自编码器在训练图像隐特征码本时,每个图像隐特征码字独立表征图像特征向量,导致不同的图像隐特征码字重复表达相同信息,造成信息冗余与图像隐特征码本表达能力的浪费;每个图像特征向量仅用一个图像隐特征码字量化表达,造成量化误差和图像细节信息的丢失。
本发明提供的图像生成方法,通过调整动态生成的权重,图像隐特征码字之间可以进行信息交互和/或信息互补,从而,获取的图像隐特征码本包含的图像特征信息更紧凑,同时不同图像特征向量之间的差异性得以保留,获取的图像隐特征码本更利于减少量化误差、保留图像的细节信息。
可选地,图3是本发明提供的图像生成方法的流程示意图之三,如图3所示,本发明提供的图像生成方法,包括步骤310至步骤350:
步骤310、通过动态向量量化图像变分自编码器,获取原始图像标记序列;
步骤320、通过文本字节对编码器,获取文本标记序列;
步骤330、基于原始图像标记序列和文本标记序列,训练自回归生成模型;
步骤340、通过训练好的自回归生成模型,生成描述文本对应的图像标记序列;
步骤350、基于图像标记序列,获取生成图像。
具体地,可以通过如图2所示的步骤,获取原始图像标记序列。
具体地,可以构建文本字节对编码器并加载预训练的文本字节对码本,进而可以通过向文本字节对编码器输入原始文本,获取与原始文本对应的原始文本标记序列。
具体地,在获取原始图像标记序列和原始文本标记序列之后,可以通过步骤a和步骤b训练自回归生成模型。
具体地,在获取训练好的自回归生成模型之后,可以输入想要生成图像的描述文本的描述文本标记序列,获取与描述文本对应的图像标记序列。
具体地,在获取图像标记序列之后,可以基于图像标记序列中的图像标记,从图像隐特征码本中查找对应的图像隐特征码字,然后基于图像隐特征码字,获取与图像隐特征码字对应的图像隐特征向量。
具体地,在获取与图像隐特征码字对应的图像隐特征向量之后,可以通过动态权重重构函数,重构图像隐特征权重向量,其中,动态权重重构函数是基于原始图像的图像隐特征权重向量,以及重构的图像隐特征权重向量确定的。
具体地,在重构图像隐特征权重向量之后,可以对图像隐特征权重向量对应的图像隐特征码字进行加权求和,获取与图像隐特征权重向量对应的图像特征向量。
具体地,在获取与图像隐特征权重向量对应的图像特征向量之后,可以通过图像重构函数,重构图像,其中,图像重构函数是基于原始图像以及重构的图像确定的。
具体地,基于动态权重重构函数和图像重构函数,可以确定目标函数,进而可以基于目标函数L(θ)训练图像生成模型。
具体地,目标函数可以由图像重构均方误差损失项l0,图像重构损失项l1,编码图像隐特征权重重构损失项l2,解码图像隐特征权重重构损失项l3和图像隐特征权重正则化项l4构成:
L(θ)=l0+λ1×l1+λ2×l2+λ3×l3+λ4×l4 (4)
其中,λ1、λ2、λ3和λ4分别为图像重构损失项、编码图像隐特征权重重构损失项、解码图像隐特征权重重构损失项和图像隐特征权重正则化项的权重因子。
图像重构均方误差损失项可以通过计算输入图像和重构图像的均方误差得到:
其中,Wen是原始图像对应的图像隐特征权重向量,Wre是重构图像的图像隐特征权重向量,sg表示梯度停止操作,x是输入图像,D(Wen+sg[Wre-Wen])是基于Wen和Wre得到的重构图像。
由于采用了梯度停止操作,图像重构均方误差损失项不更新动态权重重构函数的相关参数。
图像重构损失项可以通过计算输入图像和基于Wre得到的重构图像的均方误差得到:
通过图像重构损失项,可以更新整个图像重构函数的参数。
解码图像隐特征权重重构损失项可以通过暂停Wen的梯度,计算Wre和Wen的均方误差得到:
解码图像隐特征权重重构损失项使得恢复得到的图像隐特征权重Wre尽可能保留原始图像隐特征权重Wen的信息,解码图像隐特征权重重构损失项主要更新图像隐特征码本中图像隐特征码字之间的关联关系,以及动态权重重构函数的参数。
编码图像隐特征权重重构损失项可以通过暂停Wre的梯度,计算Wre和Wen的均方误差得到:
编码图像隐特征权重重构损失项确保原始图像隐特征权重向量的生成训练,与重构图像隐特征权重向量的重构训练以及二者对应的图像隐特征码本中码字的训练保持一致。
图像隐特征权重正则化项可以定义为:
l4=CWR(Wen+sg[Wre-Wen]) (9)
具体地,针对图像重构任务,本发明测试了动态向量量化变分自编码器的重构性能,表1为在MSCOCO验证集上的图像重构结果,如表1所示,本发明提出的图像生成方法,以下简称本文方法,在同等条件下,即模型参数量同一量级,本文方法显著超过了CogView和DALLEs的重构准确性。
其中,重构准确性可以通过与原始图像分布的距离来判断,距离越小,重构准确性越高。
对于参数量更大的VQGANa,VQGANb和DALLE模型,本文方法均方误差低于VQGAN,与DALLE基本持平,与原始图像的相似程度远超DALLE,其中,VQGANa和VQGANb模型均为VQGAN模型变种。
其中,CogView、DALLEs、VQGANa、VQGANb和DALLE,均为现有技术中的图像重构模型。
表1 在MSCOCO验证集上的图像重构结果
针对文本至图像生成任务,本发明在MSCOCO验证集中随机抽取1000句描述文本,并基于抽取1000句描述文本测试了自回归生成模型的生成图像与输入描述文本的语义一致性。表2是在MSCOCO验证集上测试生成图像与描述文本匹配得分,如表2所示,在MSCOCO验证集上测试生成图像与描述文本匹配得分,对于每一句描述文本,通过本发明提供的图像生成方法,生成32幅不同的图像,并根据生成图像与描述文本的匹配得分进行重排序。
表2 在MSCOCO验证集上测试生成图像与描述文本匹配得分
在基于每一句描述文本生成一幅图像,即采样样本数为1的情况下,生成图像与描述文本的匹配得分,即文本图像匹配得分,略低于原始图像与其对应描述文本的匹配得分,相对得分小于1;在生成多幅图像并进行重排序的情况下,生成图像与其对应描述文本的匹配得分,与原始图像与对应描述文本的匹配得分基本持平,相对得分接近1。
此外,为了进一步地验证本发明中的预训练任务的效果,本发明采取剥离实验,分别去掉不同的训练目标函数项,在ImageNet-1K验证集上进行图像重构实验来评价动态向量量化变分自编码器的模型性能,表3是在ImageNet-1K验证集上的剥离实验结果结果,如表3所示,去掉任何一个训练目标函数项都会导致性能的下降,即标准化的均方误差增大。
其中,单独学习率表示以不同的学习率对参数进行优化,由于图像隐特征权重正则化项l4使得图像隐特征码本能够稳定训练,因此图像隐特征码本的更新学习率可以较其他参数学习率更高,即以更快的速度训练图像隐特征码本;相似性表示重构图像与真实图像的相似程度。
表3 在ImageNet-1K验证集上的剥离实验结果
在传统的向量量化变分自编码器中,每个图像特征向量仅用一个图像隐特征码字量化表达,造成量化误差和图像细节信息的丢失;在训练向量量化变分自编码器中的图像隐特征码本时,每个图像隐特征码字独立的表征一个图像特征向量,导致不同的图像隐特征码字重复表达相同信息;在训练变分自编码器的过程中,均方误差损失函数作为训练目标指导变分自编码器进行图像重构,而均方误差损失函数关注于图像像素级别的重建,为使尽可能多的像素得到重建,其倾向于优先重建大目标,忽略区域边界或小目标的重建,造成重构图像的模糊。
区别于使用传统的向量量化变分自编码器生成图像的方法,本发明提供的图像生成方法,通过动态生成连续权重向量并对图像隐特征码字进行加权求和,构建一个连续的图像特征向量空间;通过调整动态生成的权重,图像隐特征码字之间可以进行信息交互和/或信息互补,使得动态向量量化变分自编码器构建的图像特征向量空间具有更强的表达能力,其图像隐特征码本包含的图像特征信息也更紧凑;通过对基于不同输入图像的每个图像特征向量分别生成对应的图像隐特征权重向量,不同图像特征向量之间的差异性得以保留,从而减少了量化误差和信息丢失;动态向量量化变分自编码器的训练目标引入了图像隐特征权重正则化项,图像隐特征权重正则化项通过平滑生成的动态权重向量和加强生成图像和图像隐特征之间的关联关系,帮助模型重构图像小目标和图像区域边界处的像素,从而获得更清晰的重构图像及更高质量的生成图像。
本发明提供的图像生成方法,通过编码器获取目标图像标记序列后,基于图像隐特征码字之间的关联关系,获取连续的图像隐特征权重向量,可以获取与目标图像相对应的连续的图像特征向量空间,从而减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
下面对本发明提供的生成装置进行描述,下文描述的生成装置与上文描述的图像生成方法可相互对应参照。
图4是本发明提供的图像生成装置的结构示意图之一,如图4所示,本发明提供的图像生成装置,包括:图像编码器410和图像解码器420;
所述图像编码器410用于通过目标任务对应的目标编码器,获取目标图像标记序列;
所述图像解码器420用于基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;
其中,所述目标任务包括图像重构任务和/或文本转图像任务。
具体地,可以通过目标任务对应的目标编码器,其中,目标任务可以是基于原始图像重构图像的图像重构任务,也可以是基于描述文本,生成图像的文本转图像任务。
可选地,当目标任务是图像重构任务的情况下,目标编码器可以是动态向量量化图像变分自编码器。
相应地,图像编码器410可以包括:图像下采样模块411和动态权重生成模块412。
其中,图像下采样模块411用于压缩原始图像空间分辨率,获取一个或多个图像特征向量;动态权重生成模块412用于以图像特征向量为输入,得到相应地原始图像隐特征权重向量。
具体地,可以将原始图像输入图像编码器410,通过图像下采样模块411和动态权重生成模块412,生成原始图像隐特征权重,进而获取与原始图像对应的离散有序的原始图像标记序列,作为目标图像标记序列。
可选地,当目标任务是文本转图像任务的情况下,目标编码器可以是动态向量量化图像变分自编码器和文本字节对编码器。
具体地,可以将原始图像输入图像编码器410,获取与原始图像对应的原始图像标记序列;接着将原始文本和描述文本输入文本字节对编码器,获取与原始文本对应的原始文本标记序列,和与描述文本对应的描述文本标记序列;再将原始图像标记序列和原始文本标记序列输入自回归生成模型,获取图像标记序列与文本标记序列的对应关系;最后将描述文本标记序列输入自回归生成模型,获取与描述文本对应的图像标记序列,作为目标图像标记序列。
具体地,图像解码器420可以包括图像隐特征码本421、码字查询模块422、动态权重恢复模块423、加权求和码字模块424和图像重构模块425。
其中,图像隐特征码本421由图像隐特征码字构成,包括码字关联关系信息和重构图像所需的图像特征信息;码字查询模块422用于以图像标记序列为输入,从图像隐特征码本中查询图像标记对应的图像隐特征码字,获取图像隐特征向量;动态权重恢复模块423用于以图像隐特征向量为输入,得到恢复的图像隐特征权重向量;加权求和码字模块424用于以图像隐特征权重向量为输入,对图像隐特征码本中的图像隐特征码字进行加权求和,得到重构图像特征向量;图像重构模块425用于以重构图像特征向量为输入,上采样并恢复图像细节信息,得到重构图像。
具体地,目标图像标记序列中的图像标记与图像隐特征码本421中的图像隐特征码字一一对应,基于图像标记序列中的图像标记可以通过码字查询模块422,获取相对应的图像隐特征码字。
具体地,在获取图像标记序列对应的图像隐特征码字后,可以通过动态权重恢复模块423,获取图像隐特征权重向量的图像隐特征权重。
具体地,基于连续的图像隐特征权重向量,可以获取与目标图像相对应的图像特征向量,进而获取目标任务的目标图像。
相应地,图像生成装置的参数可以根据上述图像生成方法的目标函数来确定。
其中,目标函数包含图像重构均方误差损失项,解码图像重构损失项,解码图像隐特征权重重构损失项,编码图像隐特征权重重构损失项和图像隐特征权重正则化项。
其中,图像重构均方误差损失项和解码图像重构损失项是基于原始输入图像和图像解码器420输出的重构图像确定的;
解码图像隐特征权重重构损失项和编码图像隐特征权重重构损失项是基于图像编码器410得到的原始图像隐特征权重和图像解码器420恢复的图像隐特征权重确定的;
图像隐特征权重正则化是基于图像解码器420输出的重构图像关于图像隐特征权重的梯度向量确定的。
本发明提供的图像生成装置,通过图像编码器对原始图像进行编码,通过对不同的原始图像提取图像特征向量,并针对不同的图像特征向量动态生成连续的图像隐特征权重向量,进而对连续的图像隐特征权重向量对应的图像隐特征码字进行加权求和,从而减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
本发明提供的图像生成装置,通过图像编码器获取目标图像标记序列后,基于图像隐特征码字之间的关联关系,获取连续的图像隐特征权重向量,可以获取与目标图像相对应的连续的图像特征向量空间,从而减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
可选地,在所述目标任务包括所述图像重构任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器;
图像编码器410还用于:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列,将所述原始图像标记序列作为所述目标图像标记序列。
可选地,在所述目标任务包括所述文本转图像任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器和文本字节对编码器;
图像编码器410还用于:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列;
基于所述文本转图像任务的原始文本和描述文本,通过文本字节对编码器,获取与原始文本对应的原始文本标记序列,和与描述文本对应的描述文本标记序列,其中,所述原始文本与所述原始图像一一对应,所述描述文本与所述原始文本不完全相同或完全不相同;
确定所述原始图像标记序列和所述原始文本标记序列之间的第一关联关系;
基于所述描述文本标记序列和所述第一关联关系,获取所述目标图像标记序列。
图5是本发明提供的图像生成装置的结构示意图之二,如图5所示,包括训练过程和生成过程。
具体地,在训练过程中,图像图像编码器410可以包括动态向量量化图像变分自编码器510、文本字节对编码器520和自回归生成模型530。
其中,文本字节对编码器520可以构建文本字节对编码器并加载预训练的文本字节对码本,其中,文本字节对编码器是一种常见的数据压缩算法,文本字节对编码器使用一个未使用过的标记迭代地替换文本序列中最频繁的字节对,并重复该过程,直到达到一个指定的目标词汇量为止。
具体地,可以将原始文本输入文本字节对编码器520,获取文本标记序列;然后将原始图像输入动态向量量化图像变分自编码器510获取图像标记序列;最后将文本标记序列和图像标记序列输入自回归生成模型530,进行图像单模态概率分布,以及文本和图像的跨模态关联关系的学习,以确定原始图像标记序列和文本标记序列之间的第一关联关系,从而自回归生成模型可以自回归地执行文本标记序列至图像标记序列的生成任务。
具体地,在生成过程中,通过将描述文本输入文本字节对编码器520,可以获取与描述文本对应的描述文本标记序列;通过将描述文本标记序列输入训练好的自回归生成模型540,可以获取图像标记序列。
具体地,在获取图像标记序列之后,可以通过图像解码器420,获取生成图像。
可选地,所述确定所述原始图像标记序列和所述文本标记序列之间的第一关联关系,包括:
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型530,获取所述第一关联关系。
可选地,所述第一关联关系,包括:图像单模态的概率分布,以及文本和图像的跨模态关联关系。
可选地,自回归生成模型530还用于:
将所述原始图像标记序列输入自回归生成模型,获取所述图像单模态的概率分布;
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述文本和图像的跨模态关联关系。
可选地,图像解码器420还用于:
基于所述连续的图像隐特征权重向量中的目标图像隐特征权重向量,对图像隐特征码本中的所有图像隐特征码字进行加权求和,加权求和后的图像隐特征码字用于表征所述目标图像隐特征权重向量对应的目标图像特征向量;
获取所有的所述图像隐特征权重向量分别对应的目标图像特征向量;
基于所述所有的所述图像隐特征权重向量分别对应的目标图像特征向量,获取所述目标任务的目标图像;
其中,所述图像隐特征码本包括用于表征目标图像特征向量的所有图像隐特征码字,以及所有所述图像隐特征码字之间的关联关系;所述目标图像隐特征权重向量对应的全部图像隐特征码字的权重不全部相同或全部不相同,且权重之和为1。
可选地,图像解码器420还用于:
基于所述所有的所述图像隐特征权重向量组成的连续向量空间,恢复图像细节信息。
可选地,图像编码器410还用于:
基于所述原始图像,获取所述原始图像的原始图像特征向量;
基于所述原始图像特征向量中的目标原始图像特征向量,对图像隐特征码本中的所有图像隐特征码字进行权重分配,确定所述目标原始图像特征向量对应的原始图像隐特征权重向量;
获取所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量;
基于所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量,获取所述原始图像标记序列。
可选地,图像编码器410还用于:
确定所述目标原始图像隐特征权重向量对应的所有图像隐特征码字中权重最大的图像隐特征码字,作为所述目标原始图像特征向量的图像隐特征码字;
获取所有所述目标原始图像特征向量各自对应的图像隐特征码字;
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,获取所述原始图像标记序列。
可选地,图像编码器410还用于:
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,更新所述图像隐特征码本。
可选地,图6是本发明提供的图像生成装置的结构示意图之三,如图6所示,该图像生成装置包括:
文本图像编码单元610,用于对输入的描述文本和对应的原始图像分别使用文本字节对编码器和动态向量量化图像变分自编码器进行编码,得到文本标记序列和图像标记序列;
生成模型训练单元620,用于拟合图像标记序列的图像单模态概率分布,建立文本与图像的跨模态关联关系,得到自回归生成模型;
文本至图像生成单元630,用于将参考的描述文本标记序列输入至自回归生成模型中,得到递归生成的图像标记序列,将生成的图像标记序列输入至图像解码器,得到图像生成结果。
本发明提供的图像生成装置,通过动态向量量化的变分自编码器的对原始图像进行编码,通过对不同的原始图像提取图像特征,并针对不同的图像特征动态生成连续的图像隐特征权重,则连续的图像特征向量空间可以由图像隐特征码字的加权求和得到;通过调整生成的动态权重,不同的图像隐特征码字之间可以进行信息交互和/或信息互补,从而得到信息更紧密的图像隐特征码本;通过连续权重正则损失函数项,图像小目标和区域边界信息可以得到更好的重构,从而使得文本至图像生成结果更清晰,提升生成图像的视觉质量。
本发明提供的图像生成装置,通过编码器获取目标图像标记序列后,基于图像隐特征码字之间的关联关系,获取连续的图像隐特征权重向量,可以获取与目标图像相对应的连续的图像特征向量空间,从而减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
在此需要说明的是,本发明提供的上述图像生成装置,能够实现上述执行方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图7是本发明提供的电子设备的结构示意图,如图7所示,本发明提供的电子设备,包括处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行上述方法实施例的步骤。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述方法实施例的步骤。
又一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述方法实施例的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (15)
1.一种图像生成方法,其特征在于,包括:
通过目标任务对应的目标编码器,获取目标图像标记序列;
基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;
基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;
其中,所述目标任务包括图像重构任务和/或文本转图像任务。
2.根据权利要求1所述的图像生成方法,其特征在于,在所述目标任务包括所述图像重构任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器;
所述通过目标任务对应的目标编码器,获取目标图像标记序列,包括:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列,将所述原始图像标记序列作为所述目标图像标记序列。
3.根据权利要求1所述的图像生成方法,其特征在于,在所述目标任务包括所述文本转图像任务的情况下,所述目标编码器包括动态向量量化图像变分自编码器和文本字节对编码器;
通过目标任务对应的目标编码器,获取目标图像标记序列,包括:
基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列;
基于所述文本转图像任务的原始文本和描述文本,通过文本字节对编码器,获取与原始文本对应的原始文本标记序列,和与描述文本对应的描述文本标记序列,其中,所述原始文本与所述原始图像一一对应,所述描述文本与所述原始文本不完全相同或完全不相同;
确定所述原始图像标记序列和所述原始文本标记序列之间的第一关联关系;
基于所述描述文本标记序列和所述第一关联关系,获取所述目标图像标记序列。
4.根据权利要求3所述的图像生成方法,其特征在于,所述确定所述原始图像标记序列和所述文本标记序列之间的第一关联关系,包括:
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述第一关联关系。
5.根据权利要求4所述的图像生成方法,其特征在于,所述第一关联关系,包括:图像单模态的概率分布,以及文本和图像的跨模态关联关系。
6.根据权利要求5所述的图像生成方法,其特征在于,所述将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述第一关联关系,包括:
将所述原始图像标记序列输入自回归生成模型,获取所述图像单模态的概率分布;
将所述原始图像标记序列和所述原始文本标记序列输入自回归生成模型,获取所述文本和图像的跨模态关联关系。
7.根据权利要求1-6任一项所述的图像生成方法,其特征在于,所述基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像,包括:
基于所述连续的图像隐特征权重向量中的目标图像隐特征权重向量,对图像隐特征码本中的所有图像隐特征码字进行加权求和,加权求和后的图像隐特征码字用于表征所述目标图像隐特征权重向量对应的目标图像特征向量;
获取所有的所述图像隐特征权重向量分别对应的目标图像特征向量;
基于所述所有的所述图像隐特征权重向量分别对应的目标图像特征向量,获取所述目标任务的目标图像;
其中,所述图像隐特征码本包括用于表征目标图像特征向量的所有图像隐特征码字,以及所有所述图像隐特征码字之间的关联关系;所述目标图像隐特征权重向量对应的全部图像隐特征码字的权重不全部相同或全部不相同,且权重之和为1。
8.根据权利要求7所述的图像生成方法,其特征在于,所述基于所述所有的所述图像隐特征权重向量分别对应的目标图像特征向量,获取所述目标任务的目标图像,还包括:
基于所述所有的所述图像隐特征权重向量组成的连续向量空间,恢复图像细节信息。
9.根据权利要求2-6任一项所述的图像生成方法,其特征在于,所述基于原始图像,通过所述动态向量量化图像变分自编码器,获取原始图像标记序列,包括:
基于所述原始图像,获取所述原始图像的原始图像特征向量;
基于所述原始图像特征向量中的目标原始图像特征向量,对图像隐特征码本中的所有图像隐特征码字进行权重分配,确定所述目标原始图像特征向量对应的原始图像隐特征权重向量;
获取所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量;
基于所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量,获取所述原始图像标记序列。
10.根据权利要求9所述的图像生成方法,其特征在于,所述基于所有的所述原始图像特征向量分别对应的原始图像隐特征权重向量,获取所述原始图像标记序列,包括:
确定所述目标原始图像隐特征权重向量对应的所有图像隐特征码字中权重最大的图像隐特征码字,作为所述目标原始图像特征向量的图像隐特征码字;
获取所有所述目标原始图像特征向量各自对应的图像隐特征码字;
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,获取所述原始图像标记序列。
11.根据权利要求7和8任一项所述的图像生成方法,其特征在于,所述方法还包括:
基于所述所有所述原始图像隐特征权重向量各自对应的图像隐特征码字,更新所述图像隐特征码本。
12.一种图像生成装置,其特征在于,包括:图像编码器和图像解码器;
所述图像编码器用于通过目标任务对应的目标编码器,获取目标图像标记序列;
所述图像解码器用于基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;
其中,所述目标任务包括图像重构任务和/或文本转图像任务。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至11任一项所述图像生成方法的步骤。
14.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述图像生成方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述图像生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210114595.8A CN114638905B (zh) | 2022-01-30 | 2022-01-30 | 图像生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210114595.8A CN114638905B (zh) | 2022-01-30 | 2022-01-30 | 图像生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114638905A true CN114638905A (zh) | 2022-06-17 |
CN114638905B CN114638905B (zh) | 2023-02-21 |
Family
ID=81946581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210114595.8A Active CN114638905B (zh) | 2022-01-30 | 2022-01-30 | 图像生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638905B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117812263A (zh) * | 2024-03-01 | 2024-04-02 | 博云视觉(北京)科技有限公司 | 内存轻量级的多阶段向量乘积量化系统和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370435A1 (en) * | 2018-05-31 | 2019-12-05 | International Business Machines Corporation | Generating synthetic layout patterns by feedforward neural network based variational autoencoders |
CN110866958A (zh) * | 2019-10-28 | 2020-03-06 | 清华大学深圳国际研究生院 | 一种文本到图像的方法 |
CN111243045A (zh) * | 2020-01-10 | 2020-06-05 | 杭州电子科技大学 | 一种基于高斯混合模型先验变分自编码器的图像生成方法 |
CN111881926A (zh) * | 2020-08-24 | 2020-11-03 | Oppo广东移动通信有限公司 | 图像生成、图像生成模型的训练方法、装置、设备及介质 |
CN113255830A (zh) * | 2021-06-21 | 2021-08-13 | 上海交通大学 | 基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 |
-
2022
- 2022-01-30 CN CN202210114595.8A patent/CN114638905B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370435A1 (en) * | 2018-05-31 | 2019-12-05 | International Business Machines Corporation | Generating synthetic layout patterns by feedforward neural network based variational autoencoders |
CN110866958A (zh) * | 2019-10-28 | 2020-03-06 | 清华大学深圳国际研究生院 | 一种文本到图像的方法 |
CN111243045A (zh) * | 2020-01-10 | 2020-06-05 | 杭州电子科技大学 | 一种基于高斯混合模型先验变分自编码器的图像生成方法 |
CN111881926A (zh) * | 2020-08-24 | 2020-11-03 | Oppo广东移动通信有限公司 | 图像生成、图像生成模型的训练方法、装置、设备及介质 |
CN113255830A (zh) * | 2021-06-21 | 2021-08-13 | 上海交通大学 | 基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
SALMAN H. KHAN: "Adversarial Training of Variational Auto-encoders for", 《2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 * |
翟正利: "变分自编码器模型综述", 《计算机工程与应用 》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117812263A (zh) * | 2024-03-01 | 2024-04-02 | 博云视觉(北京)科技有限公司 | 内存轻量级的多阶段向量乘积量化系统和方法 |
CN117812263B (zh) * | 2024-03-01 | 2024-05-07 | 博云视觉(北京)科技有限公司 | 内存轻量级的多阶段向量乘积量化系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114638905B (zh) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
CN111916067A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111625634B (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN111310852B (zh) | 一种图像分类方法及系统 | |
CN107844481B (zh) | 识别文本检错方法及装置 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN114611494B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN112417092A (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
CN111008517A (zh) | 一种基于张量分解技术的神经语言模型的压缩方法 | |
KR20230152741A (ko) | 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습 | |
CN113537456A (zh) | 一种深度特征压缩方法 | |
CN114882873B (zh) | 一种语音识别模型训练方法、装置和可读存储介质 | |
CN114638905B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN112651324A (zh) | 视频帧语义信息的提取方法、装置及计算机设备 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
CN114529917A (zh) | 一种零样本中文单字识别方法、系统、装置及存储介质 | |
CN114598926B (zh) | 一种视频生成方法、装置、电子设备及存储介质 | |
CN115578680A (zh) | 一种视频理解方法 | |
CN115019137A (zh) | 一种多尺度双流注意力视频语言事件预测的方法及装置 | |
CN115408494A (zh) | 一种融合多头注意力对齐的文本匹配方法 | |
CN114912441A (zh) | 文本纠错模型生成方法、纠错方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |