CN113254694A - 一种文本转图像方法和装置 - Google Patents
一种文本转图像方法和装置 Download PDFInfo
- Publication number
- CN113254694A CN113254694A CN202110557602.7A CN202110557602A CN113254694A CN 113254694 A CN113254694 A CN 113254694A CN 202110557602 A CN202110557602 A CN 202110557602A CN 113254694 A CN113254694 A CN 113254694A
- Authority
- CN
- China
- Prior art keywords
- image
- level
- text
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Image Processing (AREA)
Abstract
本申请公开一种文本转图像方法和装置,该方法及装置针对一个给定的文本句子,从多层次全面地对其进行了表征,包括句子级别,方面级别,词级别。相应结合句子级别特征、方面级别特征和词级别特征为其合成一张图像,并在图像的细化处理步骤中,同时利用方面级别和词级别特征对初始阶段生成的低像素图像进行细化,从而相比于现有技术的文本转处理方法,本申请进一步引入了方面级别信息对图像局部细节进行精细化处理,并通过从句子级别、词级别和方面级别的多个层级全面地表征与利用文本信息进行图像合成,进一步提升了文本转图像任务的完成质量,可实现为文本描述合成一张看上去更为真实且图文语义更为匹配的图片。
Description
技术领域
本申请属于计算机视觉以及多模态表征领域,尤其涉及一种文本转图像方法和装置。
背景技术
文本转图像(text-to-image)是计算机视觉以及多模态领域中一个特别重要的组成部分和研究领域,其任务是根据给定的文本描述,合成一张看上去真实的图片,并且尽可能保证图文语义匹配。这在很多领域有着广泛的应用,比如计算机辅助设计,少儿趣味教育,艺术生成等。
随着生成对抗网络(Generative Adversarial Network,GAN)的迅速发展,其在文本转图像任务上取得了巨大的成功。其中,在基于生成对抗网络的文图转换中,早期由Reed等人设计了一个简单的GAN用于文图转换,但生成的图片像素较低,只有64*64,为解决该问题,StackGAN被提出来用于生成更大像素的图片,它将图像合成分为两阶段进行,首先根据文本生成一个低像素图片,接下来在低像素图片基础上,重读文本内容,生成更高像素的图片。上述方法虽然取得了一些成功,但仅仅利用了句子级别(sentence-level)的信息,缺乏对文本信息的全面利用,尤其是细粒度信息的利用。为了解决这个问题,进一步提出了AttnGAN,AttnGAN首先利用句子级别信息生成一个粗略的低像素图片,接下来利用细粒度词级别(word-level)信息对生成的图片进行精细化。
然而,发明人经研究发现,基于细粒度词级别信息仍然难以很好的完成图像局部细节的精细化任务,因此,如何更好地合成图片以完成文本转图像任务依然极具挑战性。
发明内容
有鉴于此,本申请提供了一种文本转图像方法和装置,用于通过引入方面级别(aspect-level)信息对图像局部细节进行精细化处理,并通过从句子级别、词级别和方面级别的多个层级全面地表征与利用文本信息进行图像合成,来更好地完成文本转图像任务。
具体技术方案如下:
一种文本转图像方法,包括:
获取待处理的文本句;
确定所述文本句对应的多层级的文本表征信息,所述多层级的文本表征信息包括所述文本句对应的句子级别特征、方面级别特征和词级别特征;
根据所述句子级别特征和一随机向量生成第一图像;
根据所述方面级别特征和所述词级别特征,对所述第一图像进行局部细节的精细化处理,得到第二图像;
其中,所述第二图像的像素高于所述第一图像的像素。
可选的,所述确定所述文本句对应的多层级的文本表征信息,包括:
利用文本编码器提取所述文本句的句子级别特征和词级别特征;
根据所述文本句的句法结构提取所述文本句的方面级别信息,并提取所述方面级别信息对应的方面级别特征。
可选的,所述根据所述文本句的句法结构提取所述文本句的方面级别信息,包括:
对所述文本句中的每个词做词性标注;
根据所述文本句的词性标注信息,利用正则表达式提取所述文本句中蕴含的方面级别信息;
提取所述方面级别信息对应的方面级别特征。
可选的,所述根据所述句子级别特征和一随机向量生成第一图像,包括:
对所述句子级别特征和所述随机向量执行拼接操作,得到拼接结果;
将所述拼接结果通过预定初始图像生成函数包括的一个线性层和多个上采样层的处理,得到初始图像特征;
基于所述初始图像特征转换得到所述第一图像。
可选的,所述根据所述方面级别特征和所述词级别特征,对所述第一图像进行局部细节的精细化处理,得到第二图像,包括:
确定所述文本句中每个词对图像合成的贡献权重;
利用预先以交替的方式对抗训练的生成器与判别器中的生成器,根据所述方面级别特征、所述词级别特征和所述文本句中每个词对图像合成的贡献权重,处理得到精细图像特征;
基于所述精细图像特征转换得到所述第二图像。
可选的,所述利用预先以交替的方式对抗训练的生成器与判别器中的生成器,根据所述方面级别特征、所述词级别特征和所述文本句中每个词对图像合成的贡献权重,处理得到精细图像特征,包括:
利用生成器执行n步精细化处理流程,每一步对应使用一个方面级别特征,所述n为方面级别特征的数目;
其中:
在第一步的精细化处理流程中,生成器根据所述初始图像特征、所述第一步对应的方面级别特征,以及各个词级别特征和所述文本句中每个词对图像合成的贡献权重,计算该第一步对应的生成图像特征;
在非第一步的精细化处理流程中,生成器根据前一步产生的生成图像特征,该非第一步对应的方面级别特征,以及各个词级别特征和所述文本句中每个词对图像合成的贡献权重,计算该非第一步对应的生成图像特征,直至第n步结束时,将第n步产生的生成图像特征作为所述精细图像特征;
所述基于所述精细图像特征转换得到所述第二图像,包括:
利用卷积滤波器将所述精细图像特征转换成图像,得到所述第二图像。
可选的,预先以交替的方式对抗训练生成器与判别器包括:
在对抗训练阶段,在为文本句样本生成对应的第一图像基础上,执行n步精细化处理流程,以生成文本句样本对应的精细图像特征,并基于精细图像特征生成文本句样本对应的第二图像;
在每一步的精细化处理流程中,基于定义的生成器损失函数和判别器损失函数,以交替的方式对抗训练生成器与判别器;
其中,每一步对应使用文本句样本的一个方面级别特征,所述n为文本句样本的方面级别特征的数目。
可选的,所述生成器损失函数包括每一步对应的生成器相应损失函数和生成器总损失函数;所述判别器损失函数包括每一步对应的判别器相应损失函数和判别器总损失函数。
其中,每一步对应的生成器相应损失函数和判别器相应损失函数,包括:
对该步对应的方面级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的词级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的句子级别特征与该步的生成图像的语义对齐方面的约束。
可选的,上述方法在所述根据所述句子级别特征和一随机向量生成第一图像之前,还包括:
利用条件增强方法对所述句子级别特征进行增强,得到增强后的句子级别特征,以使后续根据增强后的句子级别特征和一随机向量生成第一图像。
一种文本转图像装置,包括:
获取模块,用于获取待处理的文本句;
确定模块,用于确定所述文本句对应的多层级的文本表征信息,所述多层级的文本表征信息包括所述文本句对应的句子级别特征、方面级别特征和词级别特征;
生成模块,用于根据所述句子级别特征和一随机向量生成第一图像;
细化处理模块,用于根据所述方面级别特征和所述词级别特征,对所述第一图像进行局部细节的精细化处理,得到第二图像;
其中,所述第二图像的像素高于所述第一图像的像素。
根据以上方案可知,本申请公开的文本转图像方法和装置,针对一个给定的文本句子,从多层次全面地对其进行了表征,包括句子级别,方面级别,词级别。相应结合句子级别特征、方面级别特征和词级别特征为其合成一张图像,并在图像的细化处理步骤中,同时利用方面级别和词级别特征对初始阶段生成的低像素图像(即,第一图像)进行细化,从而相比于现有技术的文本转处理方法,本申请进一步引入了方面级别(aspect-level)信息对图像局部细节进行精细化处理,并通过从句子级别、词级别和方面级别的多个层级全面地表征与利用文本信息进行图像合成,进一步提升了文本转图像任务的完成质量,可实现为文本描述合成一张看上去更为真实且图文语义更为匹配的图片。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例公开的文本转图像方法的流程示意图;
图2是本申请实施例公开的引入方面感知的文本转图像方法的处理框架图;
图3是本申请实施例公开的文本转图像装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人发现,现有技术的一些文本转图像方法,虽然考虑了句子级别和词级别信息的重要性,但是忽略了对方面级别(aspect-level)信息的利用。然而,经发明人的研究分析,方面级别信息对图像合成,尤其是图像局部细节的精细化特别重要,如何利用方面信息来更好地合成图片相应完成文本转图像任务依然极具挑战性。
本申请实施例对方面级别信息进行以下定义:
方面级别信息,是指用来描述一个物体或者场景的某个部分或者特征的短语,而不是一个单词。一个物体或者场景的描述通常包括多个方面,相应常常包括多个方面级别信息。
针对现有技术的上述缺陷,本申请实施例公开一种文本转图像方法和装置,用于通过引入方面级别(aspect-level)信息对图像局部细节进行精细化处理,并通过从句子级别、词级别和方面级别的多个层级全面地表征与利用文本信息进行图像合成,来更好地完成文本转图像任务,使得为文本描述合成一张看上去更为真实且图文语义更为匹配的图片。
参见图1,为本申请实施例提供的文本转图像方法的一种流程示意图,如图1所示,本申请实施例中,文本转图像方法至少包括:
步骤101、获取待处理的文本句。
对于给定的待处理的文本句,其包括l个单词,l≥1,且l为整数,具体可将该文本句表示为:
T={Tj|j=0,1,...,l-1}。
步骤102、确定文本句对应的多层级的文本表征信息,该多层级的文本表征信息包括文本句对应的句子级别特征、方面级别特征和词级别特征。
全面的文本语义表征对文本转图像任务起着至关重要的作用,本申请实施例从多层级对文本语义进行表征,包括句子级别(sentence-level),方面级别(aspect-level)和词级别(word-level),相应提取文本句的句子级别特征、方面级别特征和词级别特征。
具体的,结合参照图2,可采用文本编码器提取文本句的句子级别和词级别特征,文本编码器可以但不限于采用LSTM(Long Short-Term Memory,长短期记忆)网络实现。其中,基于LSTM网络提取的句子级别和词级别特征,可表示如下:
s,W=LSTM(T), (1)
实施中,可直接采用提取的原始句子级别特征,参与后续的文本转图像处理流程,或者,可选的,还可以进一步采用条件增强(Conditioning Augmentation,CA)方法对提取的句子级别特征进行增强(使得句子级别的表征准确度更高),并以增强后的句子级别特征参与后续的文本转图像处理流程,具体可表示如下:
sca=Fca(s) (2)
式(2)中,Fca表示CA函数,sca是增强的句子语义表征,即增强后的句子级别特征。
对于方面级别特征,可根据文本句的句法结构提取文本句的方面级别信息,并进一步提取方面级别信息对应的方面级别特征,以此实现文本句的方面级别特征提取。
具体的,可首先采用NLTK(natural language toolkit,自然语言工具包)等工具对文本句中的每个词做词性标注,然后利用正则表达式提取其中蕴含的方面信息,如形容词名词短语{aspi|i=0,1,...,n-1},可表示如下:
A=LSTM({aspi|i=0,1,...,n-1}) (3)
式(3)中,A表示文本的方面级别语义表征(即,方面级别特征),n表示提取的方面级别特征的个数。
例如,从{the black bird is medium sized and has red eyes}中提取的方面信息为{the black bird,red eyes},然后再采用LSTM来整和提取对应的方面级别特征。
步骤103、根据文本句的句子级别特征和一随机向量生成第一图像。
本申请实施例中,为文本句合成图像的处理过程分两个阶段进行,其中,包括初始阶段和细化阶段。
初始阶段中,利用文本句的句子级别特征和一随机向量生成一低像素的图像,即第一图像。
所采用的随机向量,可以但不限于是从正态分布中随机采样的向量z~N(0,1)。基于文本句的句子级别特征和一随机向量生成的低像素图像(第一图像),具体可表示为:
R0=F0(soa,z) (4)
式(4)中,F0表示初始图像生成函数。
如图2所示,初始图像生成函数F0由一个线性层与多个(如,4个)上采样层组成。具体地,在利用初始图像生成函数F0生成低像素的第一图像时,首先将向量sca与z做拼接操作,然后送入线性层,接下来再逐步经过多个上采样层处理后得到初始图像特征R0,在此基础上,进一步将初始图像特征R0转换为低像素的第一图像。
步骤104、根据文本句的方面级别特征和词级别特征,对第一图像进行局部细节的精细化处理,得到第二图像。
其中,第二图像的像素高于第一图像的像素。
细化阶段中,进一步利用文本句的方面级别特征和词级别特征,对第一图像进行局部细节的精细化处理,得到高像素图像,即第二图像。
细化阶段中,可通过以下处理得到高像素的第二图像:
确定文本句中每个词对图像合成的贡献权重;
利用预先以交替的方式对抗训练的生成器与判别器中的生成器,根据文本句的方面级别特征、词级别特征和文本句中每个词对图像合成的贡献权重,处理得到精细图像特征;
基于得到的精细图像特征转换得到高像素的第二图像。
实施中,可采用注意力机制计算文本中每个词对图像合成的贡献,并具体利用生成器执行n步精细化处理流程,每一步对应使用一个方面级别特征;特别的,各步中使用的方面级别特征顺序输入,互不相同。
其中:
在第一步的精细化处理流程中,生成器根据初始图像特征(上文或图2中的R0)、第一步对应的方面级别特征,以及文本句的各个词级别特征和文本句中每个词对图像合成的贡献权重,计算该第一步对应的生成图像特征;
在非第一步的精细化处理流程中,生成器根据前一步产生的生成图像特征,该非第一步对应的方面级别特征,以及文本句的各个词级别特征和文本句中每个词对图像合成的贡献权重,计算该非第一步对应的生成图像特征,直至第n步结束时,将第n步产生的生成图像特征作为最终图像对应的精细图像特征,并进一步将该精细图像特征转换为高像素的第二图像。
其中,通过融合初始阶段或者前一步生成的图像特征,以及当前步对应的方面级别特征、文本句的词级别特征和文本句中每个词对图像合成的贡献权重信息,来计算当前步的生成图像特征的过程,具体可表示为:
αi,j=softmax((WjU+Ai-1V)Ri-1) (7)
式(5)-(7)中,表示在i-1步生成的图像特征Ri-1的基础上进行细化,而得到的第i步的生成图像的特征。Ni是第i步生成图像的面积(高乘以宽);Fi(·,·)表示第i步对应的生成器,其输出为生成的图像特征;表示通过注意力机制将前一步生成的图像特征、词级别特征、方面级别特征融合后表示的文本特征;和则表示感知层,分别用于将词嵌入表示W与方面嵌入表示A映射到视觉特征的基本公共语义空间;αi,j表示文本句的第j个词对图像合成的贡献权重。
最后使用一个3*3的卷积滤波器将图像特征转换成图片。
由以上方案可知,本申请实施例公开的文本转图像方法,针对一个给定的文本句子,从多层次全面地对其进行了表征,包括句子级别,方面级别,词级别。相应结合句子级别特征、方面级别特征和词级别特征为其合成一张图像,并在图像的细化处理步骤中,同时利用方面级别和词级别特征对初始阶段生成的低像素图像(即,第一图像)进行细化,从而相比于现有技术的文本转处理方法,本申请进一步引入了方面级别(aspect-level)信息对图像局部细节进行精细化处理,并通过从句子级别、词级别和方面级别的多个层级全面地表征与利用文本信息进行图像合成,进一步提升了文本转图像任务的完成质量,可实现为文本描述合成一张看上去更为真实且图文语义更为匹配的图片。
本申请实施例中,预先在训练阶段以交替的方式对抗训练生成器与判别器,以下进一步对对抗训练阶段的相关处理进行说明。
本申请实施例在对抗训练过程中,设计有多层次的匹配损失函数,以更高程度的保证图文语义相匹配。
模型的对抗训练阶段与使用阶段的处理过程类似,区别主要在于,对抗训练阶段基于设计的多层次匹配损失函数,不断优化生成器与判别器的模型参数,直至模型损失符合预期目标时结束。
具体的,在模型的对抗训练阶段中,首先确定文本句样本的多层级文本表征信息,包括句子级别特征、方面级别特征和词级别特征,然后,在初始阶段,根据样本的句子级别特征和一随机向量生成样本对应的低像素图像(即,样本对应的第一图像);在此基础上,进入细化阶段,执行n步精细化处理流程,以生成文本句样本对应的精细图像特征,并基于精细图像特征生成文本句样本对应的高像素图像(即,样本对应的第二图像)。
其中,每一步对应使用文本句样本的一个方面级别特征。每一步均利用处于训练阶段的生成器模型计算当前步的生成图像特征Ri,并使用一个3×3的卷积滤波器将图像特征Ri转换成图片Ii。
并且,在每一步的精细化处理流程中,基于定义的生成器损失函数和判别器损失函数,以交替的方式对抗训练生成器与判别器。生成器损失函数包括每一步对应的生成器相应损失函数和生成器总损失函数,判别器损失函数包括每一步对应的判别器相应损失函数和判别器总损失函数。
其中,每一步对应的生成器相应损失函数和判别器相应损失函数,包括:
对该步对应的方面级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的词级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的句子级别特征与该步的生成图像的语义对齐方面的约束。
也即,在对抗训练过程中,设计多层次的匹配损失函数来保证图文语义相匹配。
本申请实施例中,每一步中的生成器的损失函数表示为:
特别地,区分于其它GAN方法中关于条件损失项的计算,本申请实施例考虑了方面特征与生成图像的语义对齐性,这刚好与模型设计相匹配(每一步引入一个方面级别特征,并生成一幅图片),可展开表示如下:
其中,β1,β2,β3为模型超参,可以在训练中进行调节设置。
另外,进一步引入DAMSM损失函数与CA损失函数,分别表示为LDAMSM和LCA。
生成器的总损失函数可以表示为:
对应地,为了对抗训练,每步的判别器Di的损失函数定义为:
判别器的总损失函数为:
上文的计算式(8)、(11)中,非条件损失函数用来区分相应步中所生成的图像是否为真(即:是生成的图片还是数据集里真实的图片),条件损失函数用来判断相应步中所生成的图像与文本的匹配度,以保证图文语义一致性。
其中,生成器用于在每步中生成对应的图像特征,相应实现在上一步生成的图像特征的基础上,基于当前步对应的一个方面级别特征进行图像的细化,最终通过n个步骤的细化,而实现结合引入的n个方面级别特征对初始阶段生成的低像素图像的精细化处理;判别器用于在对抗训练过程中,在每一步判定生成的图像是否为真实图像(即,是生成的图片还是数据集里真实的图片),基于设置的损失函数,目标是使判别器分不清是生成器生成的图片还是真实的图片,即,让生成的图片朝着看上去像真实图片的方向优化。通过利用判别器来引导生成器的训练,并通过两个模型(生成器、判别器)之间的交替训练不断进行对抗,最终使得生成器模型能够更好的完成文本转图像任务。
本实施例在对抗训练阶段,通过设计上述多层级匹配(具体包括:句子级别表征-图像表征,方面级别表征-图像表征和词级别表征-图像表征匹配对)损失函数,更高程度的确保了文本转图像任务中图文语义的一致性。
对应于上述的文本转图像方法,本申请实施例还公开一种文本转图像装置,参见图3示出的该装置的组成结构,该装置包括:
获取模块301,用于获取待处理的文本句;
确定模块302,用于确定文本句对应的多层级的文本表征信息,该多层级的文本表征信息包括文本句对应的句子级别特征、方面级别特征和词级别特征;
生成模块303,用于根据文本句的句子级别特征和一随机向量生成第一图像;
细化处理模块304,用于根据文本句的方面级别特征和词级别特征,对上述第一图像进行局部细节的精细化处理,得到第二图像;
其中,第二图像的像素高于第一图像的像素。
在本申请实施例的一可选实施方式中,确定模块302,具体用于:
利用文本编码器提取文本句的句子级别特征和词级别特征;
根据文本句的句法结构提取文本句的方面级别信息,并提取该方面级别信息对应的方面级别特征。
在本申请实施例的一可选实施方式中,确定模块302,在根据文本句的句法结构提取文本句的方面级别信息时,具体用于:
对文本句中的每个词做词性标注;
根据文本句的词性标注信息,利用正则表达式提取文本句中蕴含的方面级别信息;
提取上述方面级别信息对应的方面级别特征。
在本申请实施例的一可选实施方式中,生成模块303,具体用于:
对文本句的句子级别特征和随机向量执行拼接操作,得到拼接结果;
将拼接结果通过预定初始图像生成函数包括的一个线性层和多个上采样层的处理,得到初始图像特征;
基于上述初始图像特征转换得到第一图像。
在本申请实施例的一可选实施方式中,细化处理模块304,具体用于:
确定本句中每个词对图像合成的贡献权重;
利用预先以交替的方式对抗训练的生成器与判别器中的生成器,根据文本句的方面级别特征、词级别特征和文本句中每个词对图像合成的贡献权重,处理得到精细图像特征;
基于上述精细图像特征转换得到第二图像。
在本申请实施例的一可选实施方式中,细化处理模块304,在利用生成器根据文本句的方面级别特征、词级别特征和文本句中每个词对图像合成的贡献权重,处理得到精细图像特征时,具体用于:
利用生成器执行n步精细化处理流程,每一步对应使用一个方面级别特征,n为方面级别特征的数目;
其中:
在第一步的精细化处理流程中,生成器根据上述的初始图像特征、第一步对应的方面级别特征,以及文本句的各个词级别特征和文本句中每个词对图像合成的贡献权重,计算该第一步对应的生成图像特征;
在非第一步的精细化处理流程中,生成器根据前一步产生的生成图像特征,该非第一步对应的方面级别特征,以及文本句的各个词级别特征和文本句中每个词对图像合成的贡献权重,计算该非第一步对应的生成图像特征,直至第n步结束时,将第n步产生的生成图像特征作为上述精细图像特征;
细化处理模块304,在基于所述精细图像特征转换得到所述第二图像时,具体用于:
利用卷积滤波器将上述的精细图像特征转换成图像,得到第二图像。
在本申请实施例的一可选实施方式中,上述的文本转图像装置还包括:
训练模块,用于预先以交替的方式对抗训练生成器与判别器。
其中,训练模块以交替的方式对抗训练生成器与判别器的过程包括:
在对抗训练阶段,在为文本句样本生成对应的第一图像基础上,执行n步精细化处理流程,以生成文本句样本对应的精细图像特征,并基于精细图像特征生成文本句样本对应的第二图像;
在每一步的精细化处理流程中,基于定义的生成器损失函数和判别器损失函数,以交替的方式对抗训练生成器与判别器;
其中,每一步对应使用文本句样本的一个方面级别特征,上述n为文本句样本的方面级别特征的数目。
在本申请实施例的一可选实施方式中,生成器损失函数包括每一步对应的生成器相应损失函数和生成器总损失函数;判别器损失函数包括每一步对应的判别器相应损失函数和判别器总损失函数。
其中,每一步对应的生成器相应损失函数和判别器相应损失函数,包括:
对该步对应的方面级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的词级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的句子级别特征与该步的生成图像的语义对齐方面的约束。
在本申请实施例的一可选实施方式中,文本转图像装置还可以包括:
增强模块,用于利用条件增强方法对文本句的句子级别特征进行增强,得到增强后的句子级别特征,以使后续根据增强后的句子级别特征和一随机向量生成第一图像。
对于本申请实施例公开的文本转图像装置而言,由于其与上文方法实施例公开的文本转图像方法相对应,所以描述的比较简单,相关相似之处请参见上文相应方法实施例的说明即可,此处不再详述。
综上所述,本申请公开的文本转图像方法和装置,针对一个给定的文本句子,从多层次全面地对其进行表征,包括句子级别,方面级别,词级别。另外在细化阶段,区别于其它方法,在每个细化步骤中,同时利用方面级别和词级别信息对初始阶段生成的低像素图片进行细化,特别地,各步中使用的方面级别信息顺序输入,互不相同。在对抗训练过程中,设计了多层次的匹配损失函数,包括句子表征-图像表征,词表征-图像表征,方面表征-图像表征匹配对,以此来保证生成的图片和文字语义更加一致,从而更好地完成文本转图像任务,实现为文本描述合成一张看上去更为真实且图文语义更为匹配的图片。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种文本转图像方法,其特征在于,包括:
获取待处理的文本句;
确定所述文本句对应的多层级的文本表征信息,所述多层级的文本表征信息包括所述文本句对应的句子级别特征、方面级别特征和词级别特征;
根据所述句子级别特征和一随机向量生成第一图像;
根据所述方面级别特征和所述词级别特征,对所述第一图像进行局部细节的精细化处理,得到第二图像;
其中,所述第二图像的像素高于所述第一图像的像素。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本句对应的多层级的文本表征信息,包括:
利用文本编码器提取所述文本句的句子级别特征和词级别特征;
根据所述文本句的句法结构提取所述文本句的方面级别信息,并提取所述方面级别信息对应的方面级别特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本句的句法结构提取所述文本句的方面级别信息,包括:
对所述文本句中的每个词做词性标注;
根据所述文本句的词性标注信息,利用正则表达式提取所述文本句中蕴含的方面级别信息;
提取所述方面级别信息对应的方面级别特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述句子级别特征和一随机向量生成第一图像,包括:
对所述句子级别特征和所述随机向量执行拼接操作,得到拼接结果;
将所述拼接结果通过预定初始图像生成函数包括的一个线性层和多个上采样层的处理,得到初始图像特征;
基于所述初始图像特征转换得到所述第一图像。
5.根据权利要求4所述的方法,其特征在于,所述根据所述方面级别特征和所述词级别特征,对所述第一图像进行局部细节的精细化处理,得到第二图像,包括:
确定所述文本句中每个词对图像合成的贡献权重;
利用预先以交替的方式对抗训练的生成器与判别器中的生成器,根据所述方面级别特征、所述词级别特征和所述文本句中每个词对图像合成的贡献权重,处理得到精细图像特征;
基于所述精细图像特征转换得到所述第二图像。
6.根据权利要求5所述的方法,其特征在于,所述利用预先以交替的方式对抗训练的生成器与判别器中的生成器,根据所述方面级别特征、所述词级别特征和所述文本句中每个词对图像合成的贡献权重,处理得到精细图像特征,包括:
利用生成器执行n步精细化处理流程,每一步对应使用一个方面级别特征,所述n为方面级别特征的数目;
其中:
在第一步的精细化处理流程中,生成器根据所述初始图像特征、所述第一步对应的方面级别特征,以及各个词级别特征和所述文本句中每个词对图像合成的贡献权重,计算该第一步对应的生成图像特征;
在非第一步的精细化处理流程中,生成器根据前一步产生的生成图像特征,该非第一步对应的方面级别特征,以及各个词级别特征和所述文本句中每个词对图像合成的贡献权重,计算该非第一步对应的生成图像特征,直至第n步结束时,将第n步产生的生成图像特征作为所述精细图像特征;
所述基于所述精细图像特征转换得到所述第二图像,包括:
利用卷积滤波器将所述精细图像特征转换成图像,得到所述第二图像。
7.根据权利要求4所述的方法,其特征在于,预先以交替的方式对抗训练生成器与判别器包括:
在对抗训练阶段,在为文本句样本生成对应的第一图像基础上,执行n步精细化处理流程,以生成文本句样本对应的精细图像特征,并基于精细图像特征生成文本句样本对应的第二图像;
在每一步的精细化处理流程中,基于定义的生成器损失函数和判别器损失函数,以交替的方式对抗训练生成器与判别器;
其中,每一步对应使用文本句样本的一个方面级别特征,所述n为文本句样本的方面级别特征的数目。
8.根据权利要求7所述的方法,其特征在于,所述生成器损失函数包括每一步对应的生成器相应损失函数和生成器总损失函数;所述判别器损失函数包括每一步对应的判别器相应损失函数和判别器总损失函数;
其中,每一步对应的生成器相应损失函数和判别器相应损失函数,包括:
对该步对应的方面级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的词级别特征与该步的生成图像的语义对齐方面的约束;
对该步对应的句子级别特征与该步的生成图像的语义对齐方面的约束。
9.根据权利要求1-8任一项所述的方法,其特征在于,在所述根据所述句子级别特征和一随机向量生成第一图像之前,还包括:
利用条件增强方法对所述句子级别特征进行增强,得到增强后的句子级别特征,以使后续根据增强后的句子级别特征和一随机向量生成第一图像。
10.一种文本转图像装置,其特征在于,包括:
获取模块,用于获取待处理的文本句;
确定模块,用于确定所述文本句对应的多层级的文本表征信息,所述多层级的文本表征信息包括所述文本句对应的句子级别特征、方面级别特征和词级别特征;
生成模块,用于根据所述句子级别特征和一随机向量生成第一图像;
细化处理模块,用于根据所述方面级别特征和所述词级别特征,对所述第一图像进行局部细节的精细化处理,得到第二图像;
其中,所述第二图像的像素高于所述第一图像的像素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110557602.7A CN113254694B (zh) | 2021-05-21 | 2021-05-21 | 一种文本转图像方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110557602.7A CN113254694B (zh) | 2021-05-21 | 2021-05-21 | 一种文本转图像方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254694A true CN113254694A (zh) | 2021-08-13 |
CN113254694B CN113254694B (zh) | 2022-07-15 |
Family
ID=77183616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110557602.7A Active CN113254694B (zh) | 2021-05-21 | 2021-05-21 | 一种文本转图像方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254694B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114187405A (zh) * | 2021-12-07 | 2022-03-15 | 北京百度网讯科技有限公司 | 确定虚拟形象的方法及装置、设备、介质和产品 |
CN115392216A (zh) * | 2022-10-27 | 2022-11-25 | 科大讯飞股份有限公司 | 一种虚拟形象生成方法、装置、电子设备及存储介质 |
CN115631261A (zh) * | 2022-10-17 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像生成模型的训练方法、图像生成方法和装置 |
CN116402049A (zh) * | 2023-06-06 | 2023-07-07 | 摩尔线程智能科技(北京)有限责任公司 | 修饰文本集和图像增强器生成方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214006A (zh) * | 2018-09-18 | 2019-01-15 | 中国科学技术大学 | 图像增强的层次化语义表示的自然语言推理方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN110287484A (zh) * | 2019-06-11 | 2019-09-27 | 华东师范大学 | 一种基于人脸特征的汉语文本描述人脸图像生成方法 |
CN110555109A (zh) * | 2019-06-28 | 2019-12-10 | 西安理工大学 | 基于个人计算机电商评论的多粒度观点挖掘方法 |
US10650089B1 (en) * | 2012-10-25 | 2020-05-12 | Walker Reading Technologies | Sentence parsing correction system |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN112348911A (zh) * | 2020-10-28 | 2021-02-09 | 山东师范大学 | 基于语义约束的堆叠文本生成细粒度图像方法及系统 |
CN112488111A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112765317A (zh) * | 2021-01-19 | 2021-05-07 | 东南大学 | 一种引入类信息的文本生成图像方法及装置 |
-
2021
- 2021-05-21 CN CN202110557602.7A patent/CN113254694B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650089B1 (en) * | 2012-10-25 | 2020-05-12 | Walker Reading Technologies | Sentence parsing correction system |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109214006A (zh) * | 2018-09-18 | 2019-01-15 | 中国科学技术大学 | 图像增强的层次化语义表示的自然语言推理方法 |
CN110287484A (zh) * | 2019-06-11 | 2019-09-27 | 华东师范大学 | 一种基于人脸特征的汉语文本描述人脸图像生成方法 |
CN110555109A (zh) * | 2019-06-28 | 2019-12-10 | 西安理工大学 | 基于个人计算机电商评论的多粒度观点挖掘方法 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN112348911A (zh) * | 2020-10-28 | 2021-02-09 | 山东师范大学 | 基于语义约束的堆叠文本生成细粒度图像方法及系统 |
CN112488111A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112765317A (zh) * | 2021-01-19 | 2021-05-07 | 东南大学 | 一种引入类信息的文本生成图像方法及装置 |
Non-Patent Citations (2)
Title |
---|
TAO M ET AL.: ""DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis"", 《ARXIV》 * |
何佩林 等: ""基于生成对抗文本的人脸图像翻译"", 《计算技术与自动化》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114187405A (zh) * | 2021-12-07 | 2022-03-15 | 北京百度网讯科技有限公司 | 确定虚拟形象的方法及装置、设备、介质和产品 |
CN115631261A (zh) * | 2022-10-17 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像生成模型的训练方法、图像生成方法和装置 |
CN115392216A (zh) * | 2022-10-27 | 2022-11-25 | 科大讯飞股份有限公司 | 一种虚拟形象生成方法、装置、电子设备及存储介质 |
CN115392216B (zh) * | 2022-10-27 | 2023-03-14 | 科大讯飞股份有限公司 | 一种虚拟形象生成方法、装置、电子设备及存储介质 |
CN116402049A (zh) * | 2023-06-06 | 2023-07-07 | 摩尔线程智能科技(北京)有限责任公司 | 修饰文本集和图像增强器生成方法、装置及电子设备 |
CN116402049B (zh) * | 2023-06-06 | 2023-08-22 | 摩尔线程智能科技(北京)有限责任公司 | 修饰文本集和图像增强器生成方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113254694B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254694B (zh) | 一种文本转图像方法和装置 | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN105989067B (zh) | 从图片生成文本摘要的方法、用户设备及训练服务器 | |
CN113837229B (zh) | 一种知识驱动型的文本到图像生成方法 | |
CN113961736B (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
Yang et al. | Open domain dialogue generation with latent images | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN113362416B (zh) | 基于目标检测的文本生成图像的方法 | |
CN111402365A (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN113140023B (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN115601772A (zh) | 一种基于多模态学习的美学质量评价模型和方法 | |
CN115237255A (zh) | 一种基于眼动和语音的自然图像共指目标定位系统及方法 | |
CN116541520A (zh) | 一种情感分析方法、装置、电子设备及存储介质 | |
CN113781598B (zh) | 图像生成模型的训练方法和设备以及图像生成方法 | |
Tong et al. | ReverseGAN: An intelligent reverse generative adversarial networks system for complex image captioning generation | |
CN116721176B (zh) | 一种基于clip监督的文本到人脸图像生成方法及装置 | |
CN117593400A (zh) | 图像生成方法、模型训练方法及对应装置 | |
CN116958343A (zh) | 面部动画生成方法、装置、设备、介质及程序产品 | |
WO2023154192A1 (en) | Video synthesis via multimodal conditioning | |
CN115982652A (zh) | 一种基于注意力网络的跨模态情感分析方法 | |
CN111566665B (zh) | 在自然语言处理中应用图像编码识别的装置和方法 | |
Kasi et al. | A deep learning based cross model text to image generation using DC-GAN | |
Rohith et al. | Image Generation Based on Text Using BERT And GAN Model | |
Sailaja et al. | Image Caption Generator using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |