CN116740223A

CN116740223A - 基于文本生成图像的方法

Info

Publication number: CN116740223A
Application number: CN202310464553.1A
Authority: CN
Inventors: 刘丽欣; 韩乃平
Original assignee: Advanced Operating System Innovation Center Tianjin Co ltd
Current assignee: Advanced Operating System Innovation Center Tianjin Co ltd
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-09-12

Abstract

本发明涉及基于文本生成图像的方法，包括如下步骤：训练FLIP模型，得到优化后的文本编码器和图像编码器；训练基于ViT的StableDiffusion模型；基于训练好的ViT的StableDiffusion模型完成文本到图像的转换；在训练FLIP模型时，将图像随机遮挡一部分，将剩余的可见部分输入到图像编码器中进行编码。本发明采用FLIP来训练图像编码器和文本编码器，对输入的图像进行随机遮挡，可以在有限周期内学习到更多的文本‑图像数据对，同时具有更少的内存占用。并且取得了更好的精度与训练时间均衡在精度与训练速度方面具有大幅改善。

Description

基于文本生成图像的方法

技术领域

本发明涉及人工智能技术领域，具体涉及基于文本生成图像的方法。

背景技术

图像生成是人工智能中一个重要的研究领域，现在的图像生成效果已经能够达到以假乱真的地步，但是不能按照要求正确的生成图像。所以研究者们将目光转向了从文本生成图像，它可以从描述图像的文本中生成目标图像。

早期文本生成图像主要结合检索和监督学习，但该方法只能改变特定图像特征，直到人们使用GAN网络第一次实现文本生成图像，这不仅改变了特征，也能根据文本内容为后续发展奠定基础。

计算机视觉的最新进展是由从互联网收集的文本-图像的大型数据集上的缩放模型驱动的。在这个框架内，CLIP已经成为一个成功的图像表示学习者。CLIP嵌入具有许多令人满意的特性：它们对图像分布变化具有鲁棒性，具有令人印象深刻的zero-shot能力，并且经过微调，可以在各种视觉和语言任务上获得最先进的结果。FLIP在CLIP的基础上，将训练图片随机遮挡，用未遮挡的部分进行编码训练，大大提高了训练效率，性能也有所提升。同时，扩散模型推动了图像和视频生成任务的最新进展，为了获得最佳结果，扩散模型利用了一种引导技术，该技术以样本多样性为代价提高了样本保真度。

GAN网络需要同时训练判别器和生成器，比较难平衡，这使得训练不稳定，相比之下扩散模型只需要训练一个模型，模型优化更加容易。GAN网络虽然可以产生高质量图像，但是不能覆盖整个分布，但是扩散模型可以平衡图像生成多样性和逼真度。此外，现有技术训练时，需要大量的文本-图像对，计算量大，对设备的要求高，且训练时间久效率低。

发明内容

为解决已有技术存在的不足，本发明提供了一种基于文本生成图像的方法，包括如下步骤：

步骤S1：训练FLIP模型，得到优化后的文本编码器和图像编码器；

步骤S2：训练基于ViT的StableDiffusion模型；

步骤S3：基于训练好的ViT的StableDiffusion模型完成文本到图像的转换；

其中，步骤S1包括：

步骤S11：获取训练数据集涉及到的文本-图像对，将文本输入到文本编码器中进行编码，将图像随机遮挡一部分，将剩余的可见部分输入到图像编码器中进行编码；

步骤S12：针对图像编码器及文本编码器编码后的结果计算对比损失，利用对比损失优化文本编码器和图像编码器；

步骤S13：重复步骤S11及步骤S12，不断利用对比损失迭代优化文本编码器及图像编码器，得到最终优化好的文本编码器及图像编码器。

其中，步骤S2包括：针对每一个文本-图像对，执行下述操作，直至loss值收敛：

步骤S21：通过图像编码器针对输入的图像-文本对中的图像进行编码获得图像编码x₀；

步骤S22：通过公式1得到一个服从高斯分布的含噪声的图像编码：

公式1中，即t个时刻的α连续相乘，其中，α_t＝(1-β_t)，β_t为随机生成的介于0到1之间的数；

ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；

步骤S23：获取针对公式1中，与图像编码x₀所对应的原始图像相对于的文本，基于文本编码器获得文本编码；

步骤S24：将t时刻的时间步长step t转换为嵌入向量；

步骤S25：将公式1获得的服从高斯分布的含噪声的图像编码x_t、步骤S23中的文本编码以及步骤S24中的时间步长嵌入向量输入到基于ViT的StableDiffffusion模型中，得到t时刻的预测噪声ε₀(x_t，t)；

步骤S26：根据公式2计算t时刻的预测噪声ε₀(x_t，t)与t时刻的原始噪声ε_t之间的loss值；

公式2中，表示的是t时刻的loss值；E_t～[1，T]为t时刻的期望，t～[1，T]表示t时刻介于1-T之间；ε_t为针对公式1中，均值和方差分别为0和1的服从高斯分布的一个高斯噪声中，t时刻的噪声；

步骤S27：基于t时刻的预测噪声ε₀(x_t，t)及t时刻图像编码x_t，通过StableDiffffusion模型，得到t-1时刻的去噪后的图像编码x_t-1；

步骤S28：将t-1时刻的时间步长step t转换为嵌入向量；

步骤S29：将文本编码、t-1时刻的图像编码x_t-1及t-1时刻的时间步长嵌入向量输入到基于ViT的StableDiffffusion模型中，得到t-1时刻的预测噪声ε₀(x_t-1，t-1)；

步骤S30：根据公式2计算t-1时刻的预测噪声ε₀(x_t-1，t-1)与t-1时刻的原始噪声ε_t-1之间的loss值；

步骤S31：重复执行步骤S27至步骤S30，分别顺次得到t-2时刻、t-3时刻、……、0时刻的图像编码x_t-2、x_t-3、……、x₀，再进而分别顺次得到t-2时刻、t-3时刻、……、0时刻所对应的loss值。

其中，步骤S3包括：

步骤S31：将文本输入文本编码器中，得到文本编码；

步骤S32：将时间步长step t转换为嵌入向量；

步骤S33：将系统随机生成的服从高斯分布的噪声Z_t、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffffusion模型中，得到一个t时刻的预测噪声θ(Z_t，t)；

步骤S34：利用训练好的ViT的StableDiffffusion模型，通过公式3，得到t-1时刻的加噪图像编码Z_t-1；；

其中，

步骤S35：重复步骤S31-S34，将t-1时刻的加噪图像编码Z_t-1、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffffusion模型中，得到t-1时刻的预测噪声θ(Z_t-1，t-1)，再基于公式3得到t-2时刻的加噪图像编码Z_t-2；直至得到0时刻的去噪图像编码Z₀；

步骤S36：将0时刻的去噪图像编码Z₀输入图像解码器，得到与文本对应的图像。

本发明采用FLIP来训练图像编码器和文本编码器，对输入的图像进行随机遮挡，可以在有限周期内学习到更多的文本-图像数据对，同时具有更少的内存占用。并且取得了更好的精度与训练时间均衡在精度与训练速度方面具有大幅改善。

附图说明

图1：本发明的图像编码器和文本编码器训练逻辑图。

图2：本发明基于vision transformer模型预测噪声的逻辑图。

图3：本发明基于Stable Diffusion模型进行从文本生成图像的逻辑图。

具体实施方式

为了对本发明的技术方案及有益效果有更进一步的了解，下面结合附图详细说明本发明的技术方案及其产生的有益效果。

本发明提供的基于文本生成图像的方法，一方面针对现有的文本生成图像技术，需要训练大量的文本-图像对，计算量大，训练时间久效率低的问题，对训练的图像进行随机遮挡，仅对未遮挡的部分进行编码训练，大大减少了计算量，提高了训练效率。另一方面，针对已有的stable diffusion模型进行了改进，将其原有的backbone换成了visiontransformer。相比于传统的卷积神经网络，vision transformer通过self-attention机制学习图像中不同部分之间的关系，从而实现了更加准确和细粒度的特征提取。

文本生成图像是根据输入的文本生成图像的过程，首先将文本输入到文本编码器中生成文本编码，然后将文本编码转换为图像编码，最后将图像编码输入到图像解码器中生成图像。

本发明提供的基于文本生成图像的方法，具体实现流程如下：

一、图像编码器和文本编码器的训练

首先，训练FLIP(Fast Language-Image Pre-training，FLIP)。如图1所示，FLIP包括两个模型：文本编码器和图像编码器，其中文本编码器用来提取文本特征，图像编码器用来提取图像的特征。它是一种基于对比学习的多模态模型，与计算机视觉中的一些对比方法不同的是，FLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，通过对比学习，模型能够学习到文本-图像对的匹配关系，图1中，将图像随机遮挡50％，可见部分输入到图像编码器中进行编码，图像编码器用的是Vision Transformer模型，输入大小为224，将图像对应的文本输入到文本编码器中进行编码(文本编码使用的是Non-AutoRegressiveTransformer，采用WordPiece序列化方案，序列长度为32)，得到的文本编码与图像编码计算对比损失，不断迭代优化模型。

二、训练基于ViT的StableDiffusion模型

StableDiffusion模型的训练包括两个过程：正向扩散过程和逆向扩散过程。

1、正向扩散过程

正向扩散过程通过图像编码器针对输入的图像-文本对中的图像进行编码获得图像编码x₀，之后针对加入图像编码x₀高斯噪声，一共有T步，该过程生成一系列包括噪声的图像编码样本x₁，x₂，...，x_T，当T趋于无穷大时，最终的图像编码x_T将完全变成一张包含噪声的图像编码，就像从各向同性高斯分布中采样一样，可以使用一个封闭形式的公式(公式1)在特定的时间步长t直接对有噪声的图像编码进行采样。

公式1中，x₀为针对图像-文本对中获取到的原始图像进行编码获得的原始图像编码；

即t个时刻的α连续相乘，其中，α_t＝(1-β_t)，β_t为随机生成的介于0到1之间的数；

ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；

通过公式1，得到了一个服从高斯分布的含噪声的图像编码。

2、逆向扩散过程

逆向扩散过程中，需要训练一个神经网络来预测噪声，为此，我们将通过FLIP的文本编码器获得文本编码，然后将加噪后的图像编码输入到Stable Diffusion模型中，Stable Diffusion模型中的vision transformer模型将基于输入的图像编码、文本编码以及时间步长预测出这个图像编码中所包含的噪声，进而输出一个预测的噪声。我们将使用vision transformer输出的预测噪声和原始噪声计算loss值。当loss值达到一定的阈值时，我们认为训练已完成，具体包括如下步骤：

(1)获取针对公式1中，与图像编码x₀所对应的原始图像相对应的文本，基于文本编码器获得文本编码；

(2)将时间步长step t转换为嵌入向量；

(3)将公式1获得的服从高斯分布的含噪声的图像编码x_t、步骤(1)中的文本编码以及步骤(2)中的时间步长嵌入向量输入到基于ViT的vision transformer模型中(如图2所示)，得到一个预测的噪声ε₀(x_t，t)(此步骤相当于对图像编码x中所含的噪声进行预测)；

(4)根据公式2计算所预测的噪声ε₀(x_t，t)与原始噪声ε_t之间的loss值；

公式2中，表示的是t时刻的loss值；E_t～[1，T]为t时刻所对应的原始噪声和与预测噪声差的期望，t～[1，T]表示t时刻介于1-T之间；ε_t为针对公式1中，均值和方差分别为0和1的服从高斯分布的一个高斯噪声中，t时刻的噪声。

通过重复执行逆向扩散过程，使Stable Diffusion模型不断得到训练，直至最终的loss值足够小，完成Stable Diffusion模型的训练。

一个具体的实现方式如下：假设有10个文本图像对，时间步长T＝30，循环了7次，那么开始之前会先随机生成30以内随机递减的等差数列，如(21，19，17，15，13，11，9，7)；训练过程：选取一个文本图像对，

1.1：得到文本和加噪之后的图像编码x7，以及时间步长t＝21的编码，输入到vision transformer中，输出预测的噪声，然后通过公式3(下文详述)，得到去噪之后的图像编码x6；

1.2：得到文本和加噪之后的图像编码x6，以及时间步长t＝19的编码，输入到vision transformer中，输出预测的噪声，然后通过公式3，得到去噪之后的图像编码x5；

1.3：得到文本和加噪之后的图像编码x5，以及时间步长t＝17的编码，输入到vision transformer中，输出预测的噪声，然后通过公式3，得到去噪之后的图像编码x4；

1.4：得到文本和加噪之后的图像编码x4，以及时间步长t＝15的编码，输入到vision transformer中，输出预测的噪声，然后通过公式3，得到去噪之后的图像编码x3；

1.5：得到文本和加噪之后的图像编码x3，以及时间步长t＝13的编码，输入到vision transformer中，输出预测的噪声，然后通过公式3，得到去噪之后的图像编码x2；

1.6：得到文本和加噪之后的图像编码x2，以及时间步长t＝11的编码，输入到vision transformer中，输出预测的噪声，然后通过公式3，得到去噪之后的图像编码x1；

1.7：得到文本和加噪之后的图像编码x1，以及时间步长t＝11的编码，输入到vision transformer中，输出预测的噪声，然后通过公式3，得到去噪之后的图像编码x0；

在每一步骤中，得到预测噪声后，将预测噪声与该时间步长所对应的加噪之后的图像编码x7、x6、x5、x4、x3、x2、x1所对应的原始噪音ε7、ε6、ε5、ε4、ε3、ε2、ε1进行比对，以比对结果优化vision transformer模型。

(1.1-1.7执行完以后，一个文本-图像对训练完成，再从步骤1开始，重新选取下一个文本图像对，执行步骤1.1-1.7，一直循环，直到10个文本-图像对全部执行一遍，至此，一个epoch训练结束)。

也就是说，图2仅显示了1.1-1.7步骤中，输出预测噪声之前的那部分逻辑，因为在本步骤中主要是训练vision transformer模型预测噪声的能力(只是在预测噪声过程中，需要借助整个StableDiffusion模型得到上一个时间步长中得到的去噪的图像编码)。

三、基于训练好的ViT的StableDiffusion模型完成文本到图像的转换

包括如下步骤：

1、将文本输入文本编码器中，得到文本编码；

2、将时间步长step t转换为嵌入向量；

3、如图2所示，将系统随机生成的服从高斯分布的加噪图像编码Z_t、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中，得到t时刻的预测噪声θ(Z_t，t)；

4、利用训练好的ViT的StableDiffusion模型，通过公式3(如图3)，得到t-1时刻的加噪图像编码Z_t-1；

其中，

5、重复步骤3-4，将t-1时刻的加噪图像编码Z_t-1、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中，得到t-1时刻的预测噪声θ(Z_t-1，t-1)，再基于公式3得到t-2时刻的加噪图像编码Z_t-2；依次递进，直至得到0时刻的去噪图像编码Z₀。

将0时刻的去噪图像编码Z₀输入图像解码器，得到与文本对应的图像。

本发明采用FLIP来训练图像编码器和文本编码器，对输入的图像进行随机遮挡，可以在有限周期内学习到更多的文本-图像数据对，同时具有更少的内存占用。并且取得了更好的精度与训练时间均衡在精度与训练速度方面具有大幅改善。针对stable diffusion模型进行了改进，将其原有的backbone换成了vision transformer。相比于传统的卷积神经网络，vision transformer通过self-attention机制学习图像中不同部分之间的关系，从而实现了更加准确和细粒度的特征提取。

虽然本发明已利用上述较佳实施例进行说明，然其并非用以限定本发明的保护范围，任何本领域技术人员在不脱离本发明的精神和范围之内，相对上述实施例进行各种变动与修改仍属本发明所保护的范围，因此本发明的保护范围以权利要求书所界定的为准。

Claims

1.基于文本生成图像的方法，其特征在于，包括如下步骤：

步骤S2：训练基于ViT的StableDiffusion模型；

其中，步骤S1包括：

2.如权利要求1所述的基于文本生成图像的方法，其特征在于，步骤S2包括：针对每一个文本-图像对，执行下述操作，直至loss值收敛：

ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；

步骤S24：将t时刻的时间步长step t转换为嵌入向量；

步骤S25：将公式1获得的服从高斯分布的含噪声的图像编码x_t、步骤S23中的文本编码以及步骤S24中的时间步长嵌入向量输入到基于ViT的StableDiffusion模型中，得到t时刻的预测噪声ε₀(x_t,t)；

步骤S26：根据公式2计算t时刻的预测噪声ε₀(x_t,t)与t时刻的原始噪声ε_t之间的loss值；

公式2中，表示的是t时刻的loss值；E_t～[1,为t时刻的期望，t～[1,T]表示t时刻介于1-T之间；ε_t为针对公式1中，均值和方差分别为0和1的服从高斯分布的一个高斯噪声中，t时刻的噪声；

步骤S27：基于t时刻的预测噪声ε₀(x_t,t)及t时刻图像编码x_t,通过StableDiffusion模型，得到t-1时刻的去噪后的图像编码x_t-1；

步骤S28：将t-1时刻的时间步长step t转换为嵌入向量；

步骤S29：将文本编码、t-1时刻的图像编码x_t-1及t-1时刻的时间步长嵌入向量输入到基于ViT的StableDiffusion模型中，得到t-1时刻的预测噪声ε₀(x_t-1,t-1)；

步骤S30：根据公式2计算t-1时刻的预测噪声ε₀(x_t-1,t-1)与t-1时刻的原始噪声ε_t-1之间的loss值；

3.如权利要求2所述的基于文本生成图像的方法，其特征在于，步骤S3包括：

步骤S31：将文本输入文本编码器中，得到文本编码；

步骤S32：将时间步长step t转换为嵌入向量；

步骤S33：将系统随机生成的服从高斯分布的噪声Z_t、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中，得到一个t时刻的预测噪声θ(Z_t,t)；

步骤S34：利用训练好的ViT的StableDiffusion模型，通过公式3，得到t-1时刻的加噪图像编码Z_t-1；；

其中，

步骤S35：重复步骤S31-S34，将t-1时刻的加噪图像编码Z_t-1、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中，得到t-1时刻的预测噪声θ(Z_t-1,t-1)，再基于公式3得到t-2时刻的加噪图像编码Z_t-2；直至得到0时刻的去噪图像编码Z₀；