CN110443863B - 文本生成图像的方法、电子设备和存储介质 - Google Patents

文本生成图像的方法、电子设备和存储介质 Download PDF

Info

Publication number
CN110443863B
CN110443863B CN201910668756.6A CN201910668756A CN110443863B CN 110443863 B CN110443863 B CN 110443863B CN 201910668756 A CN201910668756 A CN 201910668756A CN 110443863 B CN110443863 B CN 110443863B
Authority
CN
China
Prior art keywords
vector
feature map
text
condition
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910668756.6A
Other languages
English (en)
Other versions
CN110443863A (zh
Inventor
周翊民
孙菁聪
吴庆甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201910668756.6A priority Critical patent/CN110443863B/zh
Publication of CN110443863A publication Critical patent/CN110443863A/zh
Application granted granted Critical
Publication of CN110443863B publication Critical patent/CN110443863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了文本生成图像的方法、电子设备和存储介质。其中,所述方法包括:对待处理文本进行编码形成文本向量;对文本向量进行条件增强,以至少形成第一条件向量和第二条件向量;基于第一条件向量生成特征图;对特征图和第二条件向量引入注意力机制;基于特征图与第二条件向量生成目标图像。通过上述方式,本申请能够有效保证生成图像的多样性以及与文本语义之间的一致性。

Description

文本生成图像的方法、电子设备和存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及文本生成图像的方法、电子设备和存储介质。
背景技术
文本生成图像是利用描述图像的文字生成照片般真实的图片或是抽象的卡通图片。GAN(生成对抗网络)的出现使得图像生成任务有了长足的进步。一些比较好玩的任务也就应运而生,比如图像修复、图像超清化、人脸合成、素描上色等。GAN是一种博弈算法,算法分为两个模块,生成器和判别器。生成器负责生成合理的样本,判别器负责判断生成的样本合理与否。在训练过程中,生成器的目标是生成出越来越好的样本去使得判别器失效,而判别器则是要提升自己的判断能力使得不被骗。经过生成器与判别器的交替优化训练,可以使得图像的真实度不断提升。
发明内容
本申请主要解决的技术问题是:提供文本生成图像的方法、电子设备和存储介质,能够有效保证生成图像的多样性以及与文本语义之间的一致性。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本生成图像的方法,包括:
对待处理文本进行编码形成文本向量;
对文本向量进行条件增强,以至少形成第一条件向量和第二条件向量;
基于第一条件向量生成特征图;
对特征图和第二条件向量引入注意力机制;
基于特征图与第二条件向量生成目标图像。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括处理器和存储器,处理器耦接存储器,其中,存储器用于存储处理器执行的程序数据;处理器用于执行程序数据以实现上述文本生成图像的方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种存储介质,存储介质用于存储程序数据,程序数据能够被处理器运行,以实现上述文本生成图像的方法。
本申请的有益效果是:
本申请通过对待处理文本进行编码形成文本向量,对文本向量进行条件增强,可以有效地基于文本向量增加辅助的条件向量以丰富图像信息,并且通过条件增强至少形成第一条件向量和第二条件向量,多个条件向量可以用于生成不同分辨率的图像或是用于生成图像的各个阶段以保证生成图像的多样性,本申请还基于第一条件向量生成特征图,并对特征图和第二条件向量引入注意力机制,而后基于特征图与第二条件向量生成目标图像,通过对特征图和第二条件向量引入注意力机制,可以突出特征图和第二条件向量中的主要信息,对这些信息进行加强,有利于保证生成图像与文本语义的一致性。
附图说明
图1是本申请文本生成图像的方法第一实施例的流程示意图;
图2是本申请文本生成图像的方法第二实施例的流程示意图;
图3是本申请文本生成图像的方法第三实施例的流程示意图;
图4是本申请文本生成图像的方法的一流程示意图;
图5是本申请电子设备第一实施例的结构示意图;
图6是本申请电子设备第二实施例的结构示意图;
图7是本申请存储介质实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人经过长期的研究发现:在利用文本生成图像的过程中,由于文本内容信息量较少,采用GAN进行优化训练时生成的图像单一,分辨率较低,且容易发生生成的图像与文本语义不一致的情况,导致生成的图像不真实。并且在GAN多次交替训练的过程中容易不稳定而发生模型崩溃,无法得到预期的图像。为了解决这些问题,本申请提出至少如下实施例。
参阅图1,本申请文本生成图像的方法第一实施例包括:
S101:对待处理文本进行编码形成文本向量。
待处理文本例如包括用于描述图像的文字、语句、数字、数组、某些特征的坐标、列表或其他可以用于描述图像的信息。待处理文本可以是字符串,或者待处理文本也可以是文本类型文件或其他类型文件。在本实施例中,对待处理文本进行编码,例如是通过预设的文本编码程序对待处理文本进行编码以形成文本向量。
S102:对文本向量进行条件增强,以至少形成第一条件向量和第二条件向量。
在本实施例中,可以对文本向量进行条件增强以产生额外的向量。条件增强例如是从独立高斯分布中随机采样抽取潜在的条件向量。通过条件增强可以形成多个条件向量,如此可以有效地基于文本向量增加辅助的条件向量以丰富图像信息,并且多个条件向量可以用于生成不同分辨率的图像或是用于生成图像的各个阶段以保证生成图像的多样性。
在本实施例中,对文本向量进行条件增强,至少形成第一条件向量和第二条件向量。第一条件向量与第二条件向量均可以用于生成特征图像。在本实施例中,第一条件向量与第二条件向量可以不同,从而有效地保证生成图像的多样性。或者,第一条件向量可以用于初步生成低分辨率的图像。第二条件向量可以用于与第一条件向量生成的图像结合以保证生成图像的真实度。
S103:基于第一条件向量生成特征图。
特征图是基于第一条件向量初步生成的图像。在本实施例中,特征图可以是低分辨率的图像,例如分辨率为32*32或64*64的图像。在本实施例中,可以将第一条件向量输入至预设的图像生成程序以生成特征图。例如是将第一条件向量作为生成器的输入,通过生成器生成特征图。在一个具体的应用场景中,例如采用幼鸟数据集(CUB),输入待处理文本为“一只胸前为白色的灰色小鸟”,通过编码形成相应的文本向量,并在条件增强后形成第一条件向量和第二条件向量,将第一条件向量输入至预设的图像生成程序初步生成一只胸前为白色的灰色小鸟的特征图。
S104:对特征图和第二条件向量引入注意力机制。
在本实施例中,注意力机制例如包括两个方面:决定需要关注输入的哪部分以及分配有限的信息处理资源给重要的部分。对特征图引入注意力机制可以凸显出特征图中更关键的图像部分。例如在上述具体的应用场景中,生成的特征图的主要部分为小鸟的部分,则引入注意力机制后,可以突出小鸟的部分,而对于特征图中非小鸟的部分进行弱化,便于在后续的处理中着重关注突出的部分。
本实施例中还对第二条件向量引入注意力机制。如此可以从第二条件向量的众多信息中选择更关键的信息并对这些信息进行加强。例如上述应用场景中可以对表征“胸前”“白色”“灰色”的信息进行加强突出,有利于保证生成图像与文本语义的一致性。
S105:基于特征图与第二条件向量生成目标图像。
在本实施例中,可以将特征图与第二条件向量输入至生成特征图的预设的图像生成程序中以生成目标图像。或者,生成特征图与生成目标图像所采用的预设应用程序不同。例如,生成特征图的步骤中,可以将第一条件向量输入至第一生成器,第一生成器基于第一条件向量生成特征图。在生成目标图像的步骤中,可以将特征图与第二条件向量输入至第二生成器中,第二生成器基于特征图与第二条件向量生成目标图像。
在一些实施方式中,目标图像的分辨率大于特征图的分辨率。例如在上述具体的应用场景中,可以将第一条件向量输入至预设的图像生成程序生成分辨率为64*64的特征图,而后将特征图与第二条件向量输入至另一图像生成程序以生成分辨率为256*256的目标图像。通过预先生成低分辨率的特征图,再结合特征图与第二条件向量,可以实现直接从低分辨率图像生成较高分辨率的图像,既能保证文本信息的完整性与生成图像的多样性,且有利于生成的目标图像与待处理文本语义的一致性,避免信息缺失而导致目标图像产生较大偏差。
本实施例通过对待处理文本进行编码形成文本向量,对文本向量进行条件增强,可以有效地基于文本向量增加辅助的条件向量以丰富图像信息,并且通过条件增强至少形成第一条件向量和第二条件向量,多个条件向量可以用于生成不同分辨率的图像或是用于生成图像的各个阶段以保证生成图像的多样性,本实施例还基于第一条件向量生成特征图,并对特征图和第二条件向量引入注意力机制,而后基于特征图与第二条件向量生成目标图像,通过对特征图和第二条件向量引入注意力机制,可以突出特征图和第二条件向量中的主要信息,对这些信息进行加强,有利于保证生成图像与文本语义的一致性。
在上述实施例中,S101至S105的顺序是本实施例中的描述顺序,并不限制为本实施例的方法在执行过程中的顺序。在能够实现本方法的前提下,某些步骤可以调换顺序或是同时进行。
参阅图2,本申请文本生成图像的方法第二实施例是在本申请文本生成图像的方法第一实施例的基础上进一步阐述,因此本实施例与本申请文本生成图像的方法第一实施例相同的步骤在此不再赘述。本实施例包括:
S201:对待处理文本进行编码形成文本嵌入。
文本嵌入是字符串的实值向量表示。本实施例中可以采用word2vec(一种词嵌入模型)或GloVe(一种词嵌入模型)等方式对待处理文本进行编码形成文本嵌入。
S202:对文本嵌入进行非线性变换处理,形成文本向量。
本实施例中还对文本嵌入进行非线性变换处理。例如是通过预设的规则对文本嵌入进行非线性变换处理以形成文本向量。在一些实施方式中,通过文本嵌入进行非线性转换形成的文本向量是潜在条件向量,可以作为生成器的输入用于生成图像。本实施例中通过对待处理文本进行编码以及非线性变换的预处理,可以形成文本向量,作为程序的输入用于生成图像。
S203:对文本向量进行条件增强,以至少形成第一条件向量和第二条件向量。
本实施例中还对文本向量进行条件增强。可以有效地基于文本向量增加辅助的条件向量以丰富图像信息,避免因待处理文本提供的数据或信息有限,而文本嵌入的潜在空间是高维的,导致非线性变换后潜在数据流的不连续,影响生成图像与文本语义的一致性。
S204:将第一条件向量与随机噪声向量结合,以形成第一特征向量。
在本实施例中,还将第一条件向量与随机噪声向量结合。随机噪声例如是指存在于图像数据中多余的信息。随机噪声向量即为这些信息的向量。随机噪声例如是随机采样的高斯噪声,或者也可以是通过预设程序随机产生的图像噪声。
本实施例中将第一条件向量与随机噪声向量结合,例如是在预设的噪声通道里将第一条件向量与随机噪声向量结合。通过将第一条件向量与随机噪声向量结合,可以增加描述图像的信息,保证生成图像的多样性,结合形成的第一特征向量可以作为预设的图像生成程序的输入,用于生成特征图。
S205:对第一特征向量进行全连接重建以得到第一特征图。
第一特征向量可以经过全连接重建得到第一特征图。全连接用于将所有特征结合起来,例如包括图像的颜色特征、纹理特征、形状特征和空间关系特征等。在本实施例中,例如是将第一特征向量作为生成器的输入,在预设的程序中将第一特征向量所表述的全部特征信息综合起来,初步重建得到第一特征图。第一特征图是基于待处理文本而初步生成的图像。
S206:将第一特征图输入至第一卷积神经网络,以得到第二特征图。
第一卷积神经网络,例如是包括输入层、卷积层、池化层、全连接层和输出层。在一些实施方式中,将第一特征图输入至第一卷积神经网络,例如是通过第一卷积神经网络的输入层接收第一特征图,输入层可以将输入的第一特征图进行标准化处理,有利于提升卷积神经网络的学习效率和表现。而后第一特征图经卷积层进行特征提取与计算,传递至池化层进行特征选择和信息过滤,再经过全连接层将特征综合起来至输出层输出第二特征图。通过将第一特征图输入至第一卷积神经网络,可以在第一特征图的基础上累计更多的特征信息,扩充特征图的内容表征,从而获取到图像内容更加丰富的第二特征图。
在一些实施方式中,S206可以包括:对第一特征图进行多次采样,并通过反卷积输出第二特征图。
采样可以对第一特征图进行特征提取。本实施例通过对第一特征图进行多次的采样,可以有效地捕捉第一特征图中的重要特征,并获得第一特征图的更多信息。而后通过反卷积输出第二特征图像,反卷积可以将单个的输入激励与多个输出激励相连接,对输入图像进行放大。例如,可以采用3*3卷积核输出分辨率为64*64的第二特征图。或者也可以采用1*1卷积核等其他卷积核输出第二特征图。
S207:对第二特征图进行条件增强并引入注意力机制。
在本实施例中,还对第二特征图进行条件增强,如此可以丰富第二特征图的信息。在一些实施方式中,对第二特征图进行条件增强例如是获取第二特征图的数据信息,并基于该数据信息进行条件增强以增加额外的辅助信息,进一步丰富第二特征图的信息。
此外,本实施例中还对第二特征图引入注意力机制以凸显出第二特征图中更关键的图像部分,从而在后续的图像生成过程中可以聚焦第二特征图中关键的图像部分,保证生成图像与文本语义对的一致性。在一些实施方式中,可以先对第二特征图进行条件增强,而后再对条件增强后的第二特征图引入注意力机制。
S208:对第二条件向量引入注意力机制。
S209:将第二条件向量与随机噪声向量结合,以形成第二特征向量。
在本实施例中,还将第二条件向量与随机噪声向量结合。该步骤可以参照步骤S204的描述。例如,在本实施例中,随机噪声可以是通过预设程序随机产生的图像噪声。将随机噪声向量与第二条件向量结合,可以增加更多的图像信息,保证生成图像的多样性。
S210:基于第二特征图与第二特征向量生成第三特征图。
本实施例还将第二特征图与第二特征向量结合以生成第三特征图。在一些实施方式中,例如是获取第二特征图的特征的向量,与第二特征向量进行结合以生成第三特征图。通过将第二特征图与第二特征向量结合,可以丰富特征图的信息,减少或避免特征图的信息缺失,且第二特征向量可以对第二特征图进行特征的加成与累积,进一步保证生成的第三特征图与文本语义的一致性。
在本实施例中,S204~S207所描述的步骤以及S208~S209所描述的步骤不限制为本实施例的执行顺序。在一些实施方式中,S204~S207所描述的步骤以及S208~S209所描述的步骤可以分别独立执行,例如可以采用并行的方式实现这些步骤。或者也可以按序执行,或者是先执行S208~S209,后执行S204~S207。上述步骤在能够实现本方法的前提下,可以变换顺序或同时执行。
S211:将第三特征图输入至第二卷积神经网络,以得到目标图像。
在本实施例中,第二卷积神经网络用于对第三特征图进行计算处理以输出目标图像。第二卷积神经网络例如包括输入层、卷积层和输出层。将第三特征图输入至第二卷积神经网络以得到目标图像例如是,输入层接收第三特征图并进行标准化处理,而后经卷积层计算处理,由输出层输出目标图像。
在一些实施方式中,第二卷积神经网络还可以包括残差网络。S211还可以包括:将第三特征图输入至至少两层残差网络,并通过反卷积输出目标图像。残差网络可以突出微小的变化。在生成目标图像的计算过程中,可能会导致信息缺失,通过残差网络可以将原特征再引入过来,防止信息丢失。
本实施例中第三特征图经至少两层残差网络,可以有效对第三特征图进行优化,并且能够通过增加相当的深度来提高图像的准确率。第三特征图经两层卷积神经网络后再进行反卷积。反卷积可以对输入的图像进行放大,得到分辨率更高的目标图像。例如,可以采用3*3卷积核输出分辨率为256*256的目标图像。
本实施例中将第一条件向量与第二条件向量与随机噪声结合,可以丰富图像的特征,保证生成图像的多样性。通过对特征图进行条件增强并引入注意力机制可以突出图像中的重要部分,保证生成图像与文本语义的一致性,进而保证生成图像的真实度。并且本实施例中还通过至少两层残差网路保证生成图像的信息的完整度,通过反卷积可以从低分辨率图像直接生成高分辨率的图像。
在上述实施例中,S201至S211的顺序是本实施例中的描述顺序,并不限制为本实施例的方法在执行过程中的顺序。在能够实现本方法的前提下,某些步骤可以调换顺序或是同时进行。
参阅图3,本申请文本生成图像的方法第三实施例是在本申请文本生成图像的方法第一实施例的基础上进一步阐述,因此本实施例与本申请文本生成图像的方法第一实施例相同的步骤在此不再赘述。本实施例包括:
S301:对待处理文本进行编码形成文本向量。
S302:对文本向量进行条件增强,以至少形成第一条件向量和第二条件向量。
S303:基于第一条件向量生成特征图。
S304:判别特征图与文本向量是否匹配。
本实施例中对特征图进行判别,例如是通过将特征图输入至预设的判别程序,判别程序获取对应的文本向量对特征图进行匹配。在一些实施方式中,判别程序例如是判别器,可以获取特征图与文本向量进行对抗训练。在一些实施方式中,判别特征图与文本向量是否匹配例如是通过获取特征图中的部分关键信息,与文本向量进行匹配。
在本实施例中,若判别特征图与文本向量不匹配,则可以返回执行S303,重新基于第一条件向量生成特征图。判别特征图与文本向量不匹配例如是判别特征图的特征信息与文本向量不同或是特征的位置信息不准确。在一些实施方式中,在判别特征图与文本向量不匹配时,还可以记录特征图与文本向量不匹配之处,在重新生成特征图时,可以重点关注这些不匹配之处,以提高再次生成特征图的效率并且提高特征图的准确度。在一些实施方式中,在重新生成特征图时可以是基于前次生成的特征图进行修正,比如是对不匹配之处进行生成替换,如此可以有效提高生成特征图的效率。或者重新生成特征图也可以是直接基于第一条件向量重新生成。
在一些实施方式中,可以多次循环生成特征图与判别的步骤,如此可以通过多次生成过程中微小的变化丰富特征图的信息,并能提高生成特征图与文本语义的匹配度,进而保证生成目标图像的准确性,避免因前期特征图误差导致生成的目标图像与文本语义产生较大偏差。
S305:对特征图和第二条件向量引入注意力机制。
S306:基于特征图与第二条件向量生成目标图像。
S307:判别目标图像与文本向量是否匹配。
本实施例还对目标图像进行判别,例如是通过预设的判别程序获取对应的文本向量对目标图像进行匹配。在一些实施方式中,本步骤中所采用的判别程序与S303步骤中所采用的判别程序可以不同;或者,也可以与S303步骤中采用相同的判别程序。判别程序例如是判别器,可以获取目标图像与文本向量进行对抗训练。
在本实施例中,若判别目标图像与文本向量不匹配,则可以返回重新生成目标图像的步骤。在本实施例中,S304与S307可以分别单独执行,或者也可只执行其中之一,且以上描述顺序不限制为S304与S307的执行顺序。在一些实施方式中,可以分别执行S304与S307,例如将特征图输入第一判别器以判别与文本向量是否匹配;将目标图像输入至第二判别器以判别与文本向量是否匹配。
判别器可用于有条件和无条件的图像生成。其中有条件的图像生成是指用判别器来判断生成的图像(特征图或目标图像)与其对应的文本向量是否匹配。而无条件的图像生成是指判别器被训练来区分图像是真实的还是生成的。判别器依据判别结果指导图像生成程序改变其自身的参数来逼近真实图像的数据分布。判别器中包含两类图形的输入:真实图像xi与生成图像si,根据最小化交叉熵损失可以判别生成的图像与真实图像之间的相似度。其中,交叉熵损失的计算公式如下:
Figure BDA0002140975130000111
其中,Di为判别器,Gi为生成器,xi为第i尺度上真实图像的数据分布
Figure BDA0002140975130000112
si为相同尺寸上模型的数据分布pGi
在判别器的指导下,生成器也被联合优化共同逼近多尺度的图像分布
Figure BDA0002140975130000113
其交叉熵损失可以采用以下公式计算:
Figure BDA0002140975130000114
Figure BDA0002140975130000115
在本实施例中,判别器的目标函数包括无条件损失和条件损失。具体公式如下所示:
Figure BDA0002140975130000116
其中,c为条件损失的参数。
本实施例的生成器Gi的交叉熵损失的具体公式如下所示:
Figure BDA0002140975130000117
在本实施例中,可以通过计算交叉熵损失衡量生成图像与真实图像的相似度。交叉熵损失越小,则生成图像与真实图像越相似。
本实施例通过对特征图以及目标图像进行判别,以获知特征图或是目标图像与文本向量是否匹配,并在不匹配时返回重新生成新的特征图或是目标图像,通过生成与判别的对抗训练可以丰富特征图以及目标图像的信息,并能提高生成的特征图和目标图像与文本语义的匹配度,进而保证生成目标图像的准确性。
在上述实施例中,S301至S307的顺序是本实施例中的描述顺序,并不限制为本实施例的方法在执行过程中的顺序。在能够实现本方法的前提下,某些步骤可以调换顺序或是同时进行。本实施例可以与上述本申请文本生成图像的方法第一实施例或第二实施例结合。
参阅图4,在本申请文本生成图像的方法的一个具体的应用场景中,首先将待处理文本进行编码形成文本嵌入,再进行非线性变换形成文本向量。对文本向量进行条件增强,以形成第一条件向量和第二条件向量。第一条件向量与第二条件向量以两个分支进行处理。在第一个分支上,将第一条件向量与随机噪声结合以形成第一特征向量,经过全连接重建形成第一特征图,第一特征图输入至第一卷积神经网络,经过多次采样与反卷积输出第二特征图,将第二特征图进行条件增强并引入注意力机制;在第二个分支上,对第二条件向量引入注意力机制,并与随机噪声结合以形成第二特征向量。而后将第二特征图与第二特征向量联合生成第三特征图。将第三特征图输入至第二卷积神经网络,经两层残差网络,并通过反卷积输出目标图像。在第一分支上,还可以将生成的第二特征图输入至第一判别器以判别与文本向量是否匹配,在不匹配时,可以返回至将第一特征图输入至第一卷积神经网络的步骤,重新进行采样与反卷积输出新的第二特征图。此外还可以将生成的目标图像输入至第二判别器以判别与文本向量是否匹配,在不匹配时,可以返回至将第三特征图输入至第二卷积神经网络的步骤,以重新生成新的目标图像。
本申请通过对文本向量进行条件增强,可以有效地基于文本向量增加辅助的条件向量以丰富图像信息,并且通过条件增强至少形成第一条件向量和第二条件向量,多个条件向量可以用于生成不同分辨率的图像或是用于生成图像的各个阶段以保证生成图像的多样性,本申请还基于第一条件向量生成特征图,并对特征图和第二条件向量引入注意力机制,而后基于特征图与第二条件向量生成目标图像,通过对特征图和第二条件向量引入注意力机制,可以突出特征图和第二条件向量中的主要信息,对这些信息进行加强,有利于保证生成图像与文本语义的一致性。
参阅图5,本申请电子设备第一实施例的结构示意图。本实施例的电子设备50包括处理器51和存储器52,处理器51耦接存储器52。其中,存储器52用于存储处理器51执行的程序数据。处理器51用于执行程序数据以实现上述本申请文本生成图像的方法第一至第三实施例的步骤。
在本实施例中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器51可以由多个成电路芯片共同实现。
本实施例中关于电子设备50的更多功能与作用可以参照上述本申请文本生成图像的方法第一至第三实施例的描述。
参阅图6,本申请电子设备第二实施例的结构示意图。电子设备60包括文本编码模块61、条件增强模块62、第一生成模块63、注意力模块64和第二生成模块65。
其中,文本编码模块61用于对待处理文本进行编码形成文本向量。条件增强模块62用于对文本向量进行条件增强,以至少形成第一条件向量和第二条件向量。第一生成模块63用于基于第一条件向量生成特征图。注意力模块64用于对特征图和第二条件向量引入注意力机制。第二生成模块65用于基于特征图和第二条件向量生成目标图像。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。
另外,本实施例中各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本实施例中关于电子设备60更多模块或者各模块的更多功能可以参照上述本申请文本生成图像的方法第一至第三实施例的描述。
参阅图7,本申请存储介质实施例的结构示意图。存储介质70用于存储程序数据71。程序数据71能够被处理器运行,以实现上述本申请文本生成图像的方法第一至第三实施例的步骤。
本申请文本生成图像的方法第一至第三实施例所涉及的步骤如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质70包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或包括存储介质的电脑等其他装置。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种文本生成图像的方法,其特征在于,包括:
对待处理文本进行编码形成文本向量;
对所述文本向量进行条件增强,以至少形成第一条件向量和第二条件向量;其中,所述第一条件向量与所述第二条件向量不同;
基于所述第一条件向量生成特征图;其中,将所述第一条件向量与随机噪声向量结合,以形成第一特征向量;对所述第一特征向量进行全连接重建以得到第一特征图;将所述第一特征图输入至第一卷积神经网络,以得到第二特征图;
对所述第二特征图和所述第二条件向量引入注意力机制;
基于所述第二特征图与所述第二条件向量生成目标图像;其中,将所述第二条件向量与随机噪声向量结合,以形成第二特征向量;基于所述第二特征图与所述第二特征向量生成第三特征图;将所述第三特征图输入至第二卷积神经网络,以得到目标图像。
2.根据权利要求1所述的方法,其特征在于,
所述对待处理文本进行编码形成文本向量,包括:
对所述待处理文本进行编码形成文本嵌入;
对所述文本嵌入进行非线性变换处理,形成所述文本向量。
3.根据权利要求1所述的方法,其特征在于,
所述将所述第一特征图输入至第一卷积神经网络,以得到第二特征图,包括:
对所述第一特征图进行多次采样,并通过反卷积输出所述第二特征图。
4.根据权利要求1所述的方法,其特征在于,
所述对所述第二特征图和所述第二条件向量引入注意力机制,包括:
对所述第二特征图进行条件增强并引入注意力机制;以及
对所述第二条件向量引入注意力机制。
5.根据权利要求4所述的方法,其特征在于,
所述将所述第三特征图输入至第二卷积神经网络,以得到目标图像,包括:
将所述第三特征图输入至至少两层残差网络,并通过反卷积输出所述目标图像。
6.根据权利要求1所述的方法,其特征在于,
所述基于所述第一条件向量生成特征图之后,还包括:
判别所述特征图与所述文本向量是否匹配;
若不匹配,则返回执行所述基于所述第一条件向量生成特征图;和/或,
所述基于所述特征图与所述第二条件向量生成目标图像之后,还包括:
判别所述目标图像与所述文本向量是否匹配;
若不匹配,则返回执行所述基于所述特征图与所述第二条件向量生成目标图像。
7.一种电子设备,其特征在于,包括处理器和存储器,所述处理器耦接所述存储器,其中,
所述存储器用于存储所述处理器执行的程序数据;
所述处理器用于执行所述程序数据以实现如权利要求1~6任一项所述的方法。
8.一种存储介质,其特征在于,所述存储介质用于存储程序数据,所述程序数据能够被处理器运行,以实现如权利要求1~6任一项所述的方法。
CN201910668756.6A 2019-07-23 2019-07-23 文本生成图像的方法、电子设备和存储介质 Active CN110443863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910668756.6A CN110443863B (zh) 2019-07-23 2019-07-23 文本生成图像的方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910668756.6A CN110443863B (zh) 2019-07-23 2019-07-23 文本生成图像的方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110443863A CN110443863A (zh) 2019-11-12
CN110443863B true CN110443863B (zh) 2023-04-07

Family

ID=68431442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910668756.6A Active CN110443863B (zh) 2019-07-23 2019-07-23 文本生成图像的方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110443863B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021097845A1 (zh) * 2019-11-22 2021-05-27 驭势(上海)汽车科技有限公司 一种仿真场景的图像生成方法、电子设备和存储介质
CN111918071A (zh) * 2020-06-29 2020-11-10 北京大学 数据压缩的方法、装置、设备及存储介质
CN114078172B (zh) * 2020-08-19 2023-04-07 四川大学 基于分辨率递进生成对抗网络的文本生成图像方法
CN112348911B (zh) * 2020-10-28 2023-04-18 山东师范大学 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN112733835B (zh) * 2021-03-31 2021-06-22 杭州科技职业技术学院 基于原图像和动态信息融合的息屏画面生成方法
CN113435578B (zh) * 2021-06-25 2022-04-05 重庆邮电大学 基于互注意力的特征图编码方法、装置及电子设备
CN113448477B (zh) * 2021-08-31 2021-11-23 南昌航空大学 交互式图像编辑方法、装置、可读存储介质及电子设备
WO2023060434A1 (zh) * 2021-10-12 2023-04-20 中国科学院深圳先进技术研究院 一种基于文本的图像编辑方法和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305296B (zh) * 2017-08-30 2021-02-26 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CA3022998A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training
US11003856B2 (en) * 2018-02-22 2021-05-11 Google Llc Processing text using neural networks
CN109740158B (zh) * 2018-12-29 2023-04-07 安徽省泰岳祥升软件有限公司 一种文本语义解析方法及装置

Also Published As

Publication number Publication date
CN110443863A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110443863B (zh) 文本生成图像的方法、电子设备和存储介质
Lin et al. SCN: Switchable context network for semantic segmentation of RGB-D images
CN112734634B (zh) 换脸方法、装置、电子设备和存储介质
JP7491041B2 (ja) 画像コーディング装置、確率モデル生成装置及び画像デコーディング装置
Tian et al. Instance and panoptic segmentation using conditional convolutions
WO2024051445A1 (zh) 图像生成方法以及相关设备
CN108615036A (zh) 一种基于卷积注意力网络的自然场景文本识别方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
US20220101144A1 (en) Training a latent-variable generative model with a noise contrastive prior
CN113657397B (zh) 循环生成网络模型的训练方法、建立字库的方法和装置
CN111598087B (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
CN114222179B (zh) 虚拟形象视频合成方法及设备
KR20210034462A (ko) 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법
US20220335685A1 (en) Method and apparatus for point cloud completion, network training method and apparatus, device, and storage medium
CN113674374A (zh) 基于生成式对抗网络的中文文本生成图像方法及装置
CN117788629B (zh) 一种具有风格个性化的图像生成方法、装置及存储介质
CN117876535A (zh) 一种图像处理方法、装置、设备、介质及程序产品
CN117499711A (zh) 视频生成模型的训练方法、装置、设备及存储介质
Jia et al. Theme-aware aesthetic distribution prediction with full-resolution photographs
CN113962192B (zh) 汉字字体生成模型的生成方法、汉字字体生成方法及装置
WO2022096944A1 (en) Method and apparatus for point cloud completion, network training method and apparatus, device, and storage medium
CN111754401A (zh) 解码器训练方法、高清人脸图像生成方法、装置及计算机设备
CN113840169B (zh) 一种视频处理方法、装置、计算设备和存储介质
CN116309274B (zh) 图像中小目标检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant