CN117152304A

CN117152304A - 一种基于改进的stable diffusion的文本生成图像的方法

Info

Publication number: CN117152304A
Application number: CN202311115276.XA
Authority: CN
Inventors: 王杰; 姜明新; 杜强; 黄俊闻; 项靖; 洪远
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-01

Abstract

本发明提供一种基于改进的stable diffusion的文本生成图像的方法，包括以下步骤：步骤1：将图像从像素空间映射到潜在空间，学习图像的隐式表达；步骤2：使用CLIP文本编码器将提示词描述编码成一个768维的文本向量：τθ(y)；步骤3：在潜在空间对潜在空间向量Z进行扩散；步骤4：将扩散后的潜在向量ZT作为输入，得到特征图步骤5：将特征图与用户提供的空间条件输入到Box模块中输出特征图步骤6：生成Z，并将Z通过解码器进行解码得到图像X1；步骤7：将图像X1放入到级联的DiffuseGAE模块中输出为图像X。通过改进的U‑net网络并在图像生成之后再级联DiffuseGAE模型，来更好地捕捉图像的语义和结构信息，实现更具有多样性和可控性的图像生成并提高生成图像的质量。

Description

一种基于改进的stable diffusion的文本生成图像的方法

技术领域

本发明涉及简单有效的文本生成图像的方法，具体为一种基于改进的stablediffusion的文本生成图像的方法。

背景技术

随着深度学习的快速发展，文本生成图像的任务受到越来越多的关注。这项任务旨在通过给定的文本描述生成与描述相符合的图像。然而，由于文本和图像之间的语义差异和多样性，以及图像生成的复杂性，实现高质量、多样化的文本生成图像仍然是一项具有挑战性的任务。

在传统的文本生成图像方法中，通常采用基于条件的生成对抗网络(ConditionalGenerative Adversarial Network)[1]，简称CGAN)或变分自编码tux上能够生成与文本描述相符合的图像，但由于它们对图像和文本之间的复杂关系建模能力有限，生成的图像可能存在模糊、不清晰的问题，且缺乏多样性[2]。

为了克服传统方法的局限性，研究人员引入了扩散模型(Diffusion Models)来实现文本生成图像的任务[3]。扩散模型是一种基于概率的生成模型，它通过逆向扩散过程，从现有图像开始逐步模拟出随机噪声，最终生成符合条件的图像。这种逆向扩散过程使得扩散模型能够更好地建模图像和文本之间的复杂关系，从而实现更准确、清晰且多样化的图像生成。

扩散模型的核心思想是通过对随机噪声的不断扩散和反扩散过程，逐渐将噪声转化为符合条件的图像。在生成图像的过程中，扩散模型引入了条件来指导图像生成，即以文本描述为条件，从而确保生成的图像与给定文本描述相匹配。

与传统的生成模型相比，扩散模型具有以下优势：首先，扩散模型能够更好地建模图像和文本之间的复杂关系，使得生成的图像更加清晰和准确；其次，扩散模型引入了逆向扩散过程，增加了图像生成的多样性，生成的图像更具有变化性和多样性；最后，扩散模型在训练过程中使用逐步的噪声转化过程，可以有效地避免模式坍塌和模式崩溃等问题。

尽管扩散模型通过渐进式增强分辨率的方式来逐步细化图像[4]，但在生成图像的过程中可能仍然无法捕捉到全局的上下文信息。由于扩散模型的生成过程是基于文本描述的，模型可能会过度关注局部细节而忽略全局的语义信息，导致生成的图像与预期的场景不太符合。

[1]M.Mirza,S.Osindero,Conditional generative adversarial nets,arXiv:1411.1784(2014).

[2]J.Agnese,J.Herrera,H.Tao,X.Zhu,A survey and taxonomy ofadversarial neural networks for text-to-image synthesis,WileyInterdisciplinary Reviews:Data Mining and Knowledge Discovery(2020).

[3]Yogesh Balaji,Seungjun Nah,Xun Huang,Arash Vahdat,Jiaming Song,Karsten Kreis,Miika Aittala,Timo Aila,Samuli Laine,Bryan Catanzaro,etal.ediffi:Text-to-image

diffusion models with an ensemble of expert denoisers.arXiv preprintarXiv:2211.01324,2022.2,3

[4]Robin Rombach,Andreas Blattmann,Dominik Lorenz,Patrick Esser,andBjorn Ommer.High-resolution image synthesis with latent diffusion models.InCVPR,pages 10684

10695,2022.2,3,7

现有的技术方案中，自Robin Rombach提出用stable diffusion进行文本生成图像，到后期Robin Rombach提出Stable Diffusion XL，是对stable diffuson原先的U-Net，VAE，CLIP Text Encoder三大件都做了改进，并增加一个单独的基于Latent的Refiner模型，来提升图像的精细化程度。

对于SDXL，虽然改进U-net网络，加了BasicTransformer Blocks，是由SelfAttention，Cross Attention和FeedForward三个组件构成，并且使用了循环残差模式，虽然增强了模型的学习和表达能力，但对于具有多样性和可控性的图像生成没有改进；在最后级联一个单独的基于Latent的Refiner模型用来提升图像的精细化程度，但这个模型是最基础的扩散模型，对于提升精细化程度作用比较小。

发明内容

本发明提出一种基于改进的stable diffusion的文本生成图像的方法，在stablediffusion进行文本生成图像中，通过改进的U-net网络并在图像生成之后再级联DiffuseGAE模型，来更好地捕捉图像的语义和结构信息，实现更具有多样性和可控性的图像生成并提高生成图像的质量。

本发明所采用的技术方案是：一种基于改进的stable diffusion的文本生成图像的方法，包括以下步骤：

步骤1：使用提前训练好的AutoEncoder自编码器将图像从像素空间映射到潜在空间，学习图像的隐式表达，此时图像的大小将从[B,C,W,H]转换为[B,Z,H/8,W/8]，其中Z为潜在表示向量。

步骤2：使用CLIP文本编码器将提示词描述编码成一个768维的文本向量：τθ(y)。

步骤3：在潜在空间对潜在空间向量Z进行扩散，得到一系列扩散后的潜在空间向量Z,Z1,...,ZT。

步骤4：将扩散后的潜在向量ZT作为输入，文本信息和用户提供的空间条件可以包括目标对象的边界框或者其他空间信息作为条件，进入DBU-net网络。将扩散后的潜在向量ZT作为输入，经过卷积操作得到特征图F，维度为[B,C,H/8,W/8]，经过3个ResCrossAttentionDownBlocks，每个块中包含time embedding structure、自注意力模块(Self Attention)、双交叉注意力模块(Dual Ccross-Attention)和边框约束(Box)。每个块的输出为经过多次下采样后的特征图，维度为[B,C,H/(82^i),W/(82^i)]，其中i为块的索引(从0开始)。ResCrossAttentionDownBlocks的具体操作如下，首先将时间步长信息转换为特定维度的向量，并将该向量与特征图相加得到F_time，然后对F_time进行注意力计算，公式如下：

线性变换:

Q＝Linear(F_time)

K＝Linear(F_time)

V＝Linear(F_time)

相似度得分矩阵:

其中，S_{i,j}表示位置(i,j)与所有其他位置的相似度得分。

注意力权重加权融合：

将得到的注意力特征图F_{selfattention}与文本向量进行一个双交叉注意力(DCA)计算。首先通过卷积将文本向量扩展为与注意力特征图相同的维度，然后一起进行通道交叉注意力(CCA)操作，具体是，对注意力图F_{selfattention}进行层归一化(LN)操作，将将文本向量与注意力特征图沿通道维度进行拼接，得到一个新的张量T_c，其中c表示拼接的通道维度，将注意力特征图F_{selfattention}作为Query，而T_c作为Key和Value，利用深度可分离卷积对注意力特征图F_{selfattention}进行自注意力计算，公式如下：

Q_i＝DConv1D_Qi(F_{selfattention})K＝DConv1D_K(T_c)V＝DConv1D_V(T_c)

得到Q_i，K，V分别为注意力特征图的Query，T_c的Key，T_c的Value。计算通道注意力矩阵S，并对其进行Softmax归一化，公式如下：

其中，C_c是通道维度。从而CCA表示如下:

CCA(Q_i,K,V)＝SV^T

交叉注意的输出是values的加权和，权重由queries和key之间的相似性决定。最后使用深度可分离卷积对交叉注意的输出进行处理，并将其T输入SCA模块。

给定CCA模块处理后的输出T，沿通道维度进行层归一化并和处理好的文本向量拼接得到利用拼接后的/>作为Query和Key，而将T作为Value。对Queriy，Key，Value上使用1×1深度可分离卷积进行投影。

V＝DConv1D_V(T)

然后SCA可表示为：

其中，d_k是注意力头的维度。然后使用深度可分离卷积对DCA的输出进行处理得到最终DCA的输出。然后对DCA的输出进行层归一化和GeLU处理。

步骤5：将经过双交叉注意力和DCA处理后的特征图与用户提供的空间条件(例如目标对象的边界框)输入到Box模块中。在Box模块中，首先，将空间条件转换为二进制空间掩码Mi和1-Mi，其中Mi表示目标对象的位置，1-Mi表示除目标对象以外的其他位置，然后，我们引入三种空间约束：内部框约束、外部框约束和角点约束。利用内部框的二值掩码1-Mi对DCA的输出特征图T进行加权融合，得到加权和T1。具体操作为将1-Mi与T相乘，得到屏蔽了内部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合，权重由注意力权重矩阵A决定。加权融合公式为：

利用外部框的二值掩码Mi对DCA的输出特征图T进行加权融合，得到加权和T2。具体操作为将Mi与T相乘，得到屏蔽了外部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合，权重由注意力权重矩阵A决定。加权融合公式为：

利用角点约束，具体操作为在水平和垂直方向上对DCA的输出特征图T进行投影，得到两个投影张量Tx和Ty。然后计算目标对象与投影之间的误差，利用均匀采样得到一组误差项，记为L3和L4。最后，将L3和L4加权求和，得到角点约束的输出LCC。

将T1、T2和LCC加权求和，得到最终的DCA输出特征图加权求和公式为：其中，α1、α2和α3是超参数，用于控制不同约束的重要程度

步骤6：通过U-net网络的解码器部分，生成潜在向量ZT-1，继续循环执行上面的步骤，直到生成Z，并将Z通过解码器进行解码得到图像X1

步骤7：将图像X1放入到级联的DiffuseGAE模块中，DiffuseGAE模块如图5所示。具体操作是，X1经过Encoder得到初始的潜在代码zesm，这个初始的潜伏代码zsem被传递给GAE(Group-supervised AutoEncoder)进行进一步的特征解耦和控制。GAE的结构包括一个Encoder部分和一个Decoder部分。Encoder将zsem作为输入，并通过一系列MLP块和Bottleneck块提取特征。这些特征被解耦成多个属性，Decoder将解耦后的特征重组为新的潜在代码zdis，zdis作为条件扩散模型的条件，对X1加噪完的图像XT进行图像生成，最后输出为图像X。

与现有技术相比，本发明通过双交叉注意力，增强了模型的表达能力，能够更好地捕捉图像的语义和结构信息；引入了文本信息和用户提供的空间条件作为输入，这样可以实现更具有多样性和可控性的图像合成，用户可以通过调整文本提示或空间条件来控制生成图像的内容和风格；最后级联DiffuseGAE模型，可以生成更逼真、高质量的图像。

附图说明

图1是本发明的系统框图；

图2是DBU-net结构；

图3是ResDualBoxDownBlocks；

图4是ResDualBoxUpBlocks；

图5是DiffuseGAE系统架构图。

具体实施方式

如图1-5所示，一种基于改进的stable diffusion的文本生成图像的方法，包括如下步骤：

步骤4：将扩散后的潜在向量ZT作为输入，文本信息和用户提供的空间条件可以包括目标对象的边界框或者其他空间信息作为条件，进入DBU-net网络，如图2所示。将扩散后的潜在向量ZT作为输入，经过卷积操作得到特征图F，维度为[B,C,H/8,W/8]，经过3个ResCrossAttentionDownBlocks，如图3所示，每个块中包含time embedding structure、自注意力模块(Self Attention)、双交叉注意力模块(Dual Ccross-Attention)和边框约束(Box)。每个块的输出为经过多次下采样后的特征图，维度为[B,C,H/(82^i),W/(82^i)]，其中i为块的索引(从0开始)。ResCrossAttentionDownBlocks的具体操作如下，首先将时间步长信息转换为特定维度的向量，并将该向量与特征图相加得到F_time，然后对F_time进行注意力计算，公式如下：

线性变换:

Q＝Linear(F_time)

K＝Linear(F_time)

V＝Linear(F_time)

相似度得分矩阵:

其中，S_{i,j}表示位置(i,j)与所有其他位置的相似度得分。

注意力权重加权融合：

Q_i＝DConv1D_Qi(F_{selfattention}) K＝DConv1D_K(T_c) V＝DConv1D_V(T_c)

其中，C_c是通道维度。从而CCA表示如下:

CCA(Q_i,K,V)＝SV^T

V＝DConv1D_V(T)

然后SCA可表示为：

Claims

1.一种基于改进的stablediffusion的文本生成图像的方法，包括以下步骤：

步骤1：使用训练好的AutoEncoder自编码器将图像从像素空间映射到潜在空间，学习图像的隐式表达，图像的大小将从[B,C,W,H]转换为[B,Z,H/8,W/8]，其中Z为潜在表示向量；

步骤2：使用CLIP文本编码器将提示词描述编码成一个768维的文本向量：τθ(y)；

步骤3：在潜在空间对潜在空间向量Z进行扩散，得到一系列扩散后的潜在空间向量Z,Z1,...,ZT；

步骤4：将扩散后的潜在向量ZT作为输入，文本信息和用户提供的空间条件进入DBU-net网络，将扩散后的潜在向量ZT作为输入，经过卷积操作得到特征图F，维度为[B,C,H/8,W/8]，经过3个ResCrossAttentionDownBlocks得到特征图

步骤5：将特征图与用户提供的空间条件输入到Box模块中输出特征图/>

步骤6：通过U-net网络的解码器部分，生成潜在向量ZT-1，继续循环执行上面的步骤，直到生成Z，并将Z通过解码器进行解码得到图像X1；

步骤7：将图像X1放入到级联的DiffuseGAE模块中，X1经过Encoder得到初始的潜在代码zesm，zsem被传递给GAE进行进一步的特征解耦和控制，GAE的结构包括一个Encoder部分和一个Decoder部分，Encoder将zsem作为输入，并通过MLP块和Bottleneck块提取特征，Decoder将解耦后的特征重组为新的潜在代码zdis，zdis作为条件扩散模型的条件，对X1加噪完的图像XT进行图像生成，最后输出为图像X。

2.如权利要求1所述的基于改进的stablediffusion的文本生成图像的方法，其特征在于，每个ResCrossAttentionDownBlocks中包括time embedding structure、自注意力模块、双交叉注意力模块和边框约束，每个块的输出为经过多次下采样后的特征图，维度为[B,C,H/(82^i),W/(82^i)]，其中i为块的索引。

3.如权利要求2所述的基于改进的stablediffusion的文本生成图像的方法，其特征在于，ResCrossAttentionDownBlocks的操作如下，首先将时间步长信息转换为特定维度的向量，并将该向量与特征图相加得到F_time，然后对F_time进行注意力计算，公式如下：

线性变换:

Q＝Linear(F_time)

K＝Linear(F_time)

V＝Linear(F_time)

相似度得分矩阵:

其中，S_{i,j}表示位置(i,j)与所有其他位置的相似度得分，

注意力权重加权融合：

将得到的注意力特征图F_{selfattention}与文本向量进行一个双交叉注意力(DCA)计算，首先通过卷积将文本向量扩展为与注意力特征图相同的维度，然后一起进行通道交叉注意力(CCA)操作，具体是，对注意力图F_{selfattention}进行层归一化(LN)操作，将将文本向量与注意力特征图沿通道维度进行拼接，得到一个新的张量T_c，其中c表示拼接的通道维度，将注意力特征图F_{selfattention}作为Query，而T_c作为Key和Value，利用深度可分离卷积对注意力特征图F_{selfattention}进行自注意力计算，公式如下：

K＝DConv1D_K(T_c) V＝DConv1D_V(T_c)

得到Q_i，K，V分别为注意力特征图的Query，T_c的Key，T_c的Value，计算通道注意力矩阵S，并对其进行Softmax归一化，公式如下：

其中，C_c是通道维度，从而CCA表示如下:

CCA(Q_i,K,V)＝SV^T

交叉注意的输出是values的加权和，权重由queries和key之间的相似性决定。最后使用深度可分离卷积对交叉注意的输出进行处理，并将其T输入SCA模块，

给定CCA模块处理后的输出T，沿通道维度进行层归一化并和处理好的文本向量拼接得到利用拼接后的/>作为Query和Key，而将T作为Value。对Queriy，Key，Value上使用1×1深度可分离卷积进行投影，

V＝DConv1D_V(T)

然后SCA可表示为：

其中，d_k是注意力头的维度，然后使用深度可分离卷积对DCA的输出进行处理得到最终DCA的输出。然后对DCA的输出进行层归一化和GeLU处理。

4.如权利要求3所述的基于改进的stable diffusion的文本生成图像的方法，其特征在于，在Box模块中，首先，将空间条件转换为二进制空间掩码Mi和1-Mi，其中Mi表示目标对象的位置，1-Mi表示除目标对象以外的其他位置，然后，引入三种空间约束进行加权融合，三种空间约束为内部框约束、外部框约束和角点约束。

5.如权利要求4所述的基于改进的stable diffusion的文本生成图像的方法，其特征在于，利用内部框的二值掩码1-Mi对DCA的输出特征图T进行加权融合，得到加权和T1，具体操作为将1-Mi与T相乘，得到屏蔽了内部框区域的特征图，然后对屏蔽后的特征图进行加权融合，权重由注意力权重矩阵A决定，加权融合公式为：

利用外部框的二值掩码Mi对DCA的输出特征图T进行加权融合，得到加权和T2，具体操作为将Mi与T相乘，得到屏蔽了外部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合，权重由注意力权重矩阵A决定。加权融合公式为：

利用角点约束，具体操作为在水平和垂直方向上对DCA的输出特征图T进行投影，得到两个投影张量Tx和Ty，然后计算目标对象与投影之间的误差，利用均匀采样得到一组误差项，记为L3和L4。最后，将L3和L4加权求和，得到角点约束的输出LCC，

将T1、T2和LCC加权求和，得到最终的DCA输出特征图加权求和公式为：/> 其中，α1、α2和α3是超参数，用于控制不同约束的重要程度。