CN109543159B

CN109543159B - 一种文本生成图像方法及装置

Info

Publication number: CN109543159B
Application number: CN201811336849.0A
Authority: CN
Inventors: 周德宇; 胡名起; 蒋明敏
Original assignee: Nanjing Depan Information Technology Co ltd
Current assignee: Nanjing Depan Information Technology Co ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2023-03-24
Anticipated expiration: 2038-11-12
Also published as: CN109543159A

Abstract

本发明公开了一种文本生成图像方法及装置，其中，文本生成图像方法包括以下步骤：步骤1，对描述图像的自然语言文本进行编码，得到文本语义嵌入表示；步骤2，将步骤1得到的文本语义嵌入表示与随机噪声进行混合，采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态，输出每步的对象隐编码；步骤3，对步骤2输出的每步对象隐编码进行解码生成步图像，最后融合所有步图像得到生成图像；步骤4，将生成图像和真实图像进行对抗训练。本发明生成器根据对象隐编码，通过多步转码、解码生成图像前景与背景像素集合，并进行融合，生成高质量图像，降低了直接生成图像的训练难度。

Description

一种文本生成图像方法及装置

技术领域

本发明涉及深度学习生成模型技术领域，具体涉及基于文本描述的图像生成方法及装置。

背景技术

从自然语言文本描述生成照片级逼真的图像是一个重要的问题，并具有广泛的应用，例如照片编辑，计算机辅助设计等。

有很多方法可以跨图像模态与文本模态学习生成模型。其中一个研究方向是学习以图像为条件的文本生成模型，称为“图像字幕生成”。该类模型目前较为主流的处理流程是，首先抽取图像特征并使用编码器进行编码，之后利用解码器生成非结构化文本。

最近，生成对抗网络(Generative Adversarial Network，简称GAN)在生成真实图像方面取得了较好的效果。其变体conditional-GAN(简称cGAN)能够根据给定的文本描述作为条件，生成与文本含义相关的图像。然而由于GAN本身训练的不稳定性，从文本描述生成高维逼真图像仍是非常困难的，简单的增加上采样层只会导致训练的不稳定以及生成无意义的图像。

要解决根据文本描述生成对应图像的问题，通常要解决两个子问题：

1、如何学习一个能够捕捉文本描述中的语义以及描述中的视觉细节的文本嵌入表示方法(文本编码器)；

2、如何结合1中的文本语义嵌入表示，通过GAN网络生成一幅逼真的图像(图像生成器)，使人类误认为是真实的。

传统的条件生成对抗网络模型，一般首先从文本语义嵌入(联合随机噪声)解码，之后直接生成高维图像，并通过判别器进行对抗训练。但这种方式一定程度上增加了神经网络的学习难度，并且从文本语义嵌入直接得到图像，将导致图像模糊，同时难以覆盖文本的有效信息，这种缺陷在生成多对象图像(图像中包含多个实体)时会尤为明显。

发明内容

本发明所要解决的技术问题是针对上述现有技术存在的不足，而提供了一种基于条件生成对抗网络和循环神经网络的根据文本描述生成图像的方法，该方法能够解决在文本描述中存在多个实体，并具有较为复杂关系情况下的图像生成问题。

为解决上述技术问题，本发明采用的技术方案为：

一种文本生成图像方法，其特征在于，包括以下步骤：

步骤1，对描述图像的自然语言文本进行编码，得到文本语义嵌入表示；

步骤2，将步骤1得到的文本语义嵌入表示与随机噪声进行混合，采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态，输出每步的对象隐编码；

步骤3，对步骤2输出的每步对象隐编码进行解码生成步图像，最后融合所有步图像得到生成图像；

步骤4，将生成图像和真实图像进行对抗训练。

所述步骤2中，每步输出的对象隐编码在生成过程中，通过注意力机制，在每步对文本语义嵌入表示的不同部分赋予不同的权重。

所述步骤2中，所述循环神经网络转码器采用长短时记忆网络；所述步骤3中，采用反卷积神经网络对步骤2输出的每步对象隐编码进行解码生成步图像。

所述步骤4的对抗训练方法为：对生成图像和真实图像进行下采样处理得到图形隐表示；将经过下采样后得到的图像隐表示和文本语义嵌入表示直接连接，通过全连接神经网络得到输出。

所述下采样处理采用卷积神经网络，输入生成图像与真实图像，以及其对应的文本条件，输出对图像真实程度和与文本匹配程度的评分。

所述步骤1中，对描述图像的自然语言文本进行编码的方法为：

对自然语言文本进行特征提取，得到的长度为d的词序列p＝(w₁，w₂，…，w_d)，其中每个单词w_i采用预训练的词向量进行表示，i＝1～d；

由得到的词向量对自然语言文本进行编码。

所述提取的自然语言文本的特征包括高层语义特征以及文本描述的视觉特征，其中高层语义特征包括实体和关系，视觉特征包括颜色和尺寸。

所述步骤2中，文本语义嵌入表示

和高斯噪声z的混合方式，采用直接连接的方式，即/>

所述步骤3中，融合所有步图像得到生成图像的融合采用像素值取平均或将步图像输入卷积神经网络得到最后的生成图像。

一种文本生成图像装置，其特征在于，包括：

一文本编码器，对输入的描述图像的自然语言文本进行编码，得到文本语义嵌入表示；

一生成器，包括循环神经网络转码器、图像解码器以及图像融合器，所述循环神经网络转码器用于读取文本语义嵌入和转码器上一步的隐态，输出每步的对象隐编码；所述图像解码器对输入的每步对象隐编码进行解码生成步图像；所述图像融合器对所述图像解码器生产的所有步图像进行图像融合得到生成图像；

一判别器，由下采样网络构成，对输入的生成图像和真实图像，在隐层联合文本语义嵌入表示进行对抗训练。

本发明构建了一种基于cGAN和RNN(循环神经网络)的根据文本描述生成图像的模型，采用RNN从文本语义嵌入和上一步隐态生成下一步的对象(图像元素如实体、背景)编码，将逐步生成的对象编码通过上采样层学习得到图像像素集合，最后融合所有图像像素集合得到一幅完整图像作为输出图像通入到判别器进行对抗训练。

与现有相比，本发明具有以下有益效果：

本发明不需要<文本，图像>对以外的额外监督数据，例如带类别标记的图像掩模；循环神经网络转码器可以根据文本和已生成图像自动学习下一步要生成的对象隐编码；生成器根据对象隐编码，通过多步转码、解码生成图像前景与背景像素集合，并进行融合，生成高质量图像，降低了直接生成图像的训练难度；能够捕捉包含多个对象、关系复杂的文本描述中更多的语义信息从而生成内容完整、逻辑合理的高质量图像。

附图说明

图1是本发明公开的基于条件生成对抗网络和循环神经网络的文本生成图像方法的训练流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围。在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于条件生成对抗网络和循环神经网络的文本生成图像方法，如图1所示，包括下列步骤：

步骤1，构建文本编码器，输入自然语言文本序列，输出文本的嵌入表示。自然语言文本序列是通过分词技术得到的长度为d的词序列p＝(w₁，w₂，…，w_d)，其中每个单词采用预训练的词向量进行表示。

如：输入自然语言“绿色的草坪上有孩子在放风筝”，通过分词技术初步得到词序列['绿色','的','草坪','上','有','孩子','在','放风筝']，去掉停用词得到最后的词序列P＝['绿色','草坪','上','孩子','放风筝']，d＝5。不同的输入d不同。

根据最终得到的词序列P，输出文本的嵌入表示。文本的嵌入表示可用隐空间的稠向量表示。

文本编码器的目标是提取自然语言文本中的高层语义特征如实体和关系等，及对视觉特征如颜色尺寸的描述等。文本编码器由双向长短时记忆神经网络(Bi-LSTM)充当，输入文本序列，对所有时刻输出的隐态取时序平均作为最后的文本语义嵌入，即

t为文本序列，h_i是时刻i两个方向连接后的隐态，L是Bi-LSTM长度。这里给出的仅是一种优选方式，根据实际情况也可以采用符合编码目标的其它合适方法进行编码。另外也可以通过对文本编码器进行预训练来加快整个网络的训练速度甚至进一步提高网络性能，但应注意本模型并不依赖于对文本编码器的预训练；

步骤2，构建条件生成对抗网络，生成器由循环神经网络转码器和图像解码器构成，判别器由下采样网络构成。转码器由长短时记忆神经网络(LSTM)充当，输入文本语义嵌入和上一步的隐态，输出每步的对象隐编码，在隐编码生成过程中，通过注意力机制(Attention mechanism)，在每步对文本语义嵌入的不同部分赋予不同的权重。图像解码器可由反卷积神经网络构成，输入对象隐编码，输出生成的图像。判别器的下采样网络可采用卷积神经网络，输入生成的图像与真实的图像，以及其对应的文本条件，输出对图像真实程度和与文本匹配程度的评分。

步骤3，将描述图像的自然语言文本输入到文本编码器，得到文本语义嵌入表示；

步骤4，将文本嵌入表示和高斯噪声混合，输入到生成器，经过逐步转码和解码，生成图像前景与背景像素集合，最后融合前景与背景信息得到生成图像。文本语义嵌入表示

和高斯噪声z的混合方式可以采用直接连接的方式，即/>

融合图像前景与背景像素的方式可以是像素值取平均，也可以将图像的前景与背景像素输入卷积神经网络得到最后生成的图像；

步骤5，将生成图像和真实图像输入到判别器，在隐层联合文本的嵌入表示(条件)进行对抗训练。被输入图像经过下采样后得到的图像隐表示和文本语义嵌入的联合方式采用如步骤4的直接连接，通过全连接神经网络得到判别器输出。

损失函数采用带梯度罚项的Wasserstein loss：

其中，D(x)表示判别器对输入x的评分，p_r表示数据的真实分布，p_g表示生成数据的分布，λ为平衡系数。网络通过反向传播算法进行优化训练。

训练神经网络优选的超参数设置如下：

梯度罚项的平衡系数λ＝10；对抗训练每迭代一次判别器训练5次，生成器训练一次；更新网络的优化器采用Adam，其中beta1＝0.5，beta2＝0.999；学习率LR＝0.0002。

训练本网络时，可在生成器和判别器中加入归一化技术如批归一化(BatchNormalization)和谱归一化(Spectral Normalization)来稳定训练，进一步提高生成质量。

综上所述，本发明公开的基于条件生成对抗网络和循环神经网络的文本生成图像方法，相比于传统的条件生成对抗网络模型，改变了生成器从文本语义嵌入到图像的一步生成方式，利用循环神经网络实现了带注意力的多步图像生成方式。本发明不需要<文本，图像>对以外的额外监督数据，例如带类别标记的图像掩模；循环神经网络转码器可以根据文本和已生成图像自动学习下一步要生成的对象隐编码；生成器根据对象隐编码，通过多步转码、解码生成图像前景与背景像素集合，并进行融合，生成高质量图像，降低了直接生成图像的训练难度；能够捕捉包含多个对象、关系复杂的文本描述中更多的语义信息从而生成内容完整、逻辑合理的高质量图像。

上述实施例仅是本发明的优选实施方式，但本发明的实施方式不受上述实施例的限制，应当指出：对于本技术领域的技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰、替代、组合、简化，这些均为等效的置换方式，也应视为本发明的保护范围。

Claims

1.一种文本生成图像方法，其特征在于，包括以下步骤：

步骤2，将步骤1得到的文本语义嵌入表示与随机噪声进行混合，采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态，输出每步的对象隐编码；在隐编码生成过程中，通过注意力机制，在每步对文本语义嵌入的不同部分赋予不同的权重；

步骤4，将生成图像和真实图像进行对抗训练；

步骤3包括：

将描述图像的自然语言文本输入到文本编码器，得到文本语义嵌入表示；

将文本嵌入表示和高斯噪声混合，输入到生成器，经过逐步转码和解码，生成图像前景与背景像素集合，最后融合前景与背景信息得到生成图像；文本语义嵌入表示

和高斯噪声z的混合方式采用直接连接的方式，即

融合图像前景与背景像素的方式是像素值取平均或将图像的前景与背景像素输入卷积神经网络得到最后生成的图像；图像解码器由反卷积神经网络构成，输入对象隐编码，输出生成的图像；步骤4包括：

将生成图像和真实图像输入到判别器，在隐层联合文本的嵌入表示进行对抗训练；被输入图像经过下采样后得到的图像隐表示和文本语义嵌入的联合方式采用如步骤3的直接连接，通过全连接神经网络得到判别器输出；判别器的下采样网络采用卷积神经网络，输入生成的图像与真实的图像，以及其对应的文本条件，输出对图像真实程度和与文本匹配程度的评分；

损失函数采用带梯度罚项的Wasserstein loss：

其中，D(x)表示判别器对输入x的评分，p_r表示数据的真实分布，p_g表示生成数据的分布，λ为平衡系数。

2.根据权利要求1所述的文本生成图像方法，其特征在于，所述步骤1中，对描述图像的自然语言文本进行编码的方法为：

由得到的词向量对自然语言文本进行编码。

3.根据权利要求1所述的文本生成图像方法，其特征在于，提取的自然语言文本的特征包括高层语义特征以及文本描述的视觉特征，其中高层语义特征包括实体和关系，视觉特征包括颜色和尺寸。

4.一种用于实现权利要求1-3任一所述文本生成图像方法的文本生成图像装置，其特征在于，包括：