CN111339734B

CN111339734B - 一种基于文本生成图像的方法

Info

Publication number: CN111339734B
Application number: CN202010104619.2A
Authority: CN
Inventors: 纪刚; 周粉粉
Original assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Current assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-06-30
Anticipated expiration: 2040-02-20
Also published as: CN111339734A

Abstract

本发明公开了一种基于文本生成图像的方法，包括如下步骤：准备生成器模型和判识器模型的训练数据集；训练生成器模型和判识器模型，并计算生成器模型和判识器模型的损失函数；将生成的图像输入到卷积神经网络CNN中，获得整张图像与其匹配的文本描述的损失函数；将整个训练网络不断迭代N次，直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。本发明所公开的方法适用于对象之间关联性比较强的复杂文本，可以提高生成图像的分辨率，图像精度高，可以拿来直接使用。

Description

一种基于文本生成图像的方法

技术领域

本发明涉及一种基于文本生成图像的方法。

背景技术

目前由文本生成图像的方法主要存在以下弱点：

(1)一种方法是直接将描述图像的文本转换为向量生成图像，虽然生成的图像质量比较好，但当面对复杂文本时，该方法不适用。

(2)存在一种方法将文本中出现的对象关系编码为场景图的形式，虽然可以处理复杂的文本，但是生成的图像分辨率低，无法在实际使用；

(3)还有一种方法是在文本生成图像的过程中，要不断调整文本间词的关系，继而继续对图像进行调整，该过程需要重复操作，耗费大量计算成本。

发明内容

为解决上述技术问题，本发明提供了一种基于文本生成图像的方法，解决由复杂文本生成高质量图像的问题，以满足实际需要。

为达到上述目的，本发明的技术方案如下：

一种基于文本生成图像的方法，包括如下步骤：

步骤一，准备生成器模型和判识器模型的训练数据集；

步骤二，保持判识器模型参数为初始状态，训练生成器模型，生成器模型由并行网络分别根据对象路径和全局路径生成图像，在生成图像的过程中以学习率α_g不断更新生成器模型参数θ_G，并计算生成器模型的损失函数；

步骤三，固定生成器模型参数，训练判识器模型，判识器模型从对象路径和全局路径两个方面并行操作图像提取特征，根据生成器模型生成的图像

以及训练数据集中的样本图像x以学习率α_d不断学习更新判识器模型参数θ_D，进而判断图像的真伪，并计算判识器模型的损失函数；

步骤四，将生成的图像输入到卷积神经网络CNN中，获得整张图像与其匹配的文本描述的损失函数；

步骤五，将整个训练网络不断迭代N次，直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。

上述方案中，为了生成更高分辨率的图像，再增加2个生成器模型和2个判识器模型，在第一生成器模型生成分辨率为64×64大小图像的基础上，重复步骤二和步骤三的操作，交替训练更新生成器模型参数θ_G和判识器模型参数θ_D，第二生成器模型生成分辨率为128×128大小的图像，第三生成器模型生成分辨率为256×256大小的图像。

上述方案中，所述步骤一具体如下：

训练数据集包括图像中对象的标注信息和每张图片的标题

对标题/>

中出现的对象类别用向量σ_i表示，i＝0,1,2,...,n；图像中每一个对象的特征向量，用ρ来表示，ρ初始化时为空向量；生成器模型和判识器模型的参数分别为θ_G和θ_D。

上述方案中，所述步骤二中生成器模型的训练过程如下：

对给定图像的描述标题

经双向长短记忆网络处理，提取文本特征得到文本中所有词的特征矩阵e，e∈R^D×T，e_i表示矩阵第i个词对应的特征向量，D表示词向量的维度，T代表词文本中词的数量；

在双向长短记忆网络的最后一个隐藏层将所有词向量串联起来得到

的标题向量/>

将图像的标题向量/>

标题中的对象类别标签σ_i以及随机的样本噪声向量z进行串联得到向量a，其中z服从正态分布；a经非线性全连接层处理得到σ_i的条件标签l_i。

上述方案中，所述步骤二中根据对象路径生成图像的过程如下：

在空间上将l_i复制为4×4分辨率大小的图像

经过多层卷积和上采样操作后生成/>

大小的图像，并为图像中给定的对象σ_i生成特征；采用空间变换网络将该对象生成的特征转化到ρ中，并定位到对应的边界框位置；重复其他对象的操作，直到标题/>

中出现的其他对象出现在/>

图像中，并对应各自的对象边界位置；

根据全局路径生成图像的过程如下：

全局路径获取各个对象的位置和标签，首先在空间尺度为16×16大小的图像上对各个对象的边界框复制对象的标签，应用卷积操作，根据各个对象的位置和标签获取图像的布局编码特征，将布局编码特征、

和z连接起来，生成在4×4空间分辨率下的图像/>

的全局特征，同样经多个卷积层和上采样操作后得到图像/>

结合

和/>

二者的信息，沿着通道轴的方向将各特征连接起来，同样经过卷积和上采样操作最终生成I^64×64的图像；

生成器模型的损失函数为：

(a)无条件损失，指根据向量z生成图像得到的损失，决定生成图像的真假；

(b)有条件损失，指根据l_i生成图像得到的损失，决定生成图像与标题

的关系；

其中，i＝1,2,3，

表示第i个生成器模型生成的图像分布PG_i，/>

上述方案中，所述步骤三中判识器模型的训练过程如下：

判识器模型从对象路径和全局路径两个方面并行操作图像提取特征；对象路径使用空间变换网络提取对象σ_i所处边界框位置的特征，提取的特征转换为空间分辨率尺寸大小为x/4的图像，x为判识器模型输入的图像尺寸大小，然后沿着通道轴与该对象σ_i表示的具有相同特征维度的向量连接起来，经过多个卷积层操作之后，将提取的各个对象特征添加到边界框位置对应的ρ中；

判识器的全局路径工作在整张图像中，不断对图像降低其空间分辨率，一旦达到同ρ具有相同的维度，沿着通道轴连接两个向量，继续进行降采样，直到达到分辨率4×4的图像大小，模型输出的结果为0，代表输出

为假样本，输出1代表/>

为真样本。

上述方案中，所述步骤三中判识器模型的损失函数由以下部分组成：

(a)无条件损失

(b)条件损失

(c)类标签损失

(d)图像中的对象损失

其中i＝1,2,3，x来自真实的样本分布P_data，

来自生成样本分布PG。

上述方案中，所述步骤四的具体方法如下：

将最后生成的分辨率256×256大小尺寸的图像调整为300×300，输入到卷积神经网络CNN中，CNN中间层提取图像的局部特征矩阵f∈R^M×N；f的每一列表示图像子区域的特征向量，M为局部特征向量的维度，N代表图像被划分为子区域的数量；CNN网络的最后一个平均池化层提取图像的全局特征向量

在平均池化层之后通过增加一个感知层将图像特征转化为文本特征的公共语义空间，用如下公式描述：

其中，

v_i的第i列表示图像第i个子区域的特征向量；/>

表示整张图像的全局向量，D₁表示图像-标题之间的特征空间，N代表图像中子区域的数量；W表示系数矩阵，/>

表示系数矩阵的特征矩阵；

计算

中所有可能的单词对和图像中子区域的相似矩阵：s＝e^Tv，s∈R^T×N，T表示/>

中词的数量，s_i,j表示/>

中第i个词和图像第j个子区域之间的相似关系，对s归一化可得：

c_i是与第i个词相关的图像的子区域的动态表示：

其中，

γ₁是一个决定相关子区域特征关注程度的参数；

第i个词与图像的相关性定义为：

由此可得整张图像Q和

的匹配程度表示为：

其中，γ₂表示最相关词与图像子区域对之间的重要程度，当γ₂→∞，

就接近于/>

对一批图像-文本对

来说，/>

与Q_i匹配的后验概率为：

其中，γ₃为平滑因子；

图像与其匹配的文本描述

的损失函数定义为：

上述方案中，所述步骤四中，

生成器模型的损失函数计算如下：

判识器模型的损失函数计算如下：

其中，λ，λ₁，λ₂，λ₃，λ₄为影响系数；

将整个训练网络不断迭代N次，直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态，此时训练模型中的参数达到最优。

通过上述技术方案，本发明提供的基于文本生成图像的方法具有如下有益效果：

(1)可以根据复杂的文本描述生成图像。

(2)在生成图像的过程中通过添加对象路径和全局路径的操作，得到图像更细粒度的特征，提高了生成图像的质量。

(3)最后根据生成的图像与文本的词联系起来，也提高了最终的图像质量。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于文本生成图像的方法，具体实施方式如下：

步骤一，准备生成器模型和判识器模型的训练数据集；

训练数据集包括图像中对象的标注信息和每张图片的标题

对标题/>

对给定图像的描述标题

的标题向量

将图像的标题向量/>

根据对象路径生成图像的过程如下：

在空间上将l_i复制为4×4分辨率大小的图像

经过多层卷积和上采样操作后生成/>

中出现的其他对象出现在/>

图像中，并对应各自的对象边界位置；

根据全局路径生成图像的过程如下：

和z连接起来，生成在4×4空间分辨率下的图像/>

的全局特征，同样经多个卷积层和上采样操作后得到图像/>

结合

和/>

生成器模型的损失函数为：

的关系；

其中，i＝1,2,3，

表示第i个生成器模型生成的图像分布PG_i，/>

为假样本，输出1代表/>

为真样本。

判识器模型的损失函数由以下部分组成：

(a)无条件损失

(b)条件损失

(c)类标签损失

(d)图像中的对象损失

其中i＝1,2,3，x来自真实的样本分布P_data，

来自生成样本分布PG。

步骤四，为了生成更高分辨率的图像，再增加2个生成器模型和2个判识器模型。随着硬件的计算能力不断提高，可以增加不同的数量。

在第一生成器模型生成分辨率为64×64大小图像的基础上，重复步骤二和步骤三的操作，交替训练更新生成器模型参数θ_G和判识器模型参数θ_D，第二生成器模型生成分辨率为128×128大小的图像，第三生成器模型生成分辨率为256×256大小的图像。

步骤五，将生成的图像输入到卷积神经网络CNN中，获得整张图像与其匹配的文本描述的损失函数。

其中，

v_i的第i列表示图像第i个子区域的特征向量；/>

表示系数矩阵的特征矩阵；

计算

中词的数量，s_i,j表示/>

c_i是与第i个词相关的图像的子区域的动态表示：

其中，

γ₁是一个决定相关子区域特征关注程度的参数；

第i个词与图像的相关性定义为：

由此可得整张图像Q和

的匹配程度表示为：

就接近于/>

对一批图像-文本对

来说，/>

与Q_i匹配的后验概率为：

其中，γ₃为平滑因子；

图像与其匹配的文本描述

的损失函数定义为：

步骤六，将整个训练网络不断迭代N次，直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。

生成器模型的损失函数计算如下：

判识器模型的损失函数计算如下：

其中，λ，λ₁，λ₂，λ₃，λ₄为影响系数；

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于文本生成图像的方法，其特征在于，包括如下步骤：

步骤一，准备生成器模型和判识器模型的训练数据集；

步骤五，将整个训练网络不断迭代N次，直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态；

步骤二中生成器模型的训练过程如下：

对给定图像的描述标题

的标题向量/>

将图像的标题向量/>

标题中的对象类别标签σ_i以及随机的样本噪声向量z进行串联得到向量a，其中z服从正态分布；a经非线性全连接层处理得到对象类别标签σ_i的条件标签l_i；

所述步骤二中，根据对象路径生成图像的过程如下：

在空间上将l_i复制为4×4分辨率大小的图像

经过多层卷积和上采样操作后生成/>

大小的图像，并为图像中给定的对象类别标签σ_i生成特征；采用空间变换网络将该对象生成的特征转化到ρ中，并定位到对应的边界框位置；重复其他对象的操作，直到标题

中出现的其他对象出现在/>

图像中，并对应各自的对象边界位置；

根据全局路径生成图像的过程如下：

全局路径获取各个对象的位置和条件标签l_i，首先在空间尺度为16×16大小的图像上对各个对象的边界框复制对象的条件标签l_i，应用卷积操作，根据各个对象的位置和条件标签l_i获取图像的布局编码特征，将布局编码特征、

和z连接起来，生成在4×4空间分辨率下的图像/>

的全局特征，同样经多个卷积层和上采样操作后得到图像/>

结合

和/>

第i个生成器模型的损失函数为：

的关系；

其中，i＝1,2,3，

表示第i个生成器模型生成的图像分布PG_i，/>

所述步骤三中判识器模型的训练过程如下：

判识器模型从对象路径和全局路径两个方面并行操作图像提取特征；对象路径使用空间变换网络提取对象类别标签σ_i所处边界框位置的特征，提取的特征转换为空间分辨率尺寸大小为x4图像，x为判识器模型输入的图像尺寸大小，然后沿着通道轴与该对象类别标签σ_i表示的具有相同特征维度的向量连接起来，经过多个卷积层操作之后，将提取的各个对象特征添加到边界框位置对应的ρ中；

为假样本，输出1代表/>

为真样本；

所述步骤三中判识器模型的损失函数由以下部分组成：

(a)无条件损失

(b)条件损失

(c)类标签损失

(d)图像中的对象损失

其中i＝1,2,3，x来自真实的样本分布P_data，

来自生成样本分布PG；

所述步骤五中，生成器模型的损失函数计算如下：

判识器模型的损失函数计算如下：

其中，λ，λ₁，λ₂，λ₃，λ₄为影响系数；L^capImg为整张图像与其匹配的文本描述的损失函数；

2.根据权利要求1所述的一种基于文本生成图像的方法，其特征在于，为了生成更高分辨率的图像，再增加2个生成器模型和2个判识器模型，在第一生成器模型生成分辨率为64×64大小图像的基础上，重复步骤二和步骤三的操作，交替训练更新生成器模型参数θ_G和判识器模型参数θ_D，第二生成器模型生成分辨率为128×128大小的图像，第三生成器模型生成分辨率为256×256大小的图像。

3.根据权利要求2所述的一种基于文本生成图像的方法，其特征在于，所述步骤一具体如下：

训练数据集包括图像中对象的标注信息和每张图片的标题