CN117152304A - 一种基于改进的stable diffusion的文本生成图像的方法 - Google Patents
一种基于改进的stable diffusion的文本生成图像的方法 Download PDFInfo
- Publication number
- CN117152304A CN117152304A CN202311115276.XA CN202311115276A CN117152304A CN 117152304 A CN117152304 A CN 117152304A CN 202311115276 A CN202311115276 A CN 202311115276A CN 117152304 A CN117152304 A CN 117152304A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- text
- output
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于改进的stable diffusion的文本生成图像的方法,包括以下步骤:步骤1:将图像从像素空间映射到潜在空间,学习图像的隐式表达;步骤2:使用CLIP文本编码器将提示词描述编码成一个768维的文本向量:τθ(y);步骤3:在潜在空间对潜在空间向量Z进行扩散;步骤4:将扩散后的潜在向量ZT作为输入,得到特征图步骤5:将特征图与用户提供的空间条件输入到Box模块中输出特征图步骤6:生成Z,并将Z通过解码器进行解码得到图像X1;步骤7:将图像X1放入到级联的DiffuseGAE模块中输出为图像X。通过改进的U‑net网络并在图像生成之后再级联DiffuseGAE模型,来更好地捕捉图像的语义和结构信息,实现更具有多样性和可控性的图像生成并提高生成图像的质量。
Description
技术领域
本发明涉及简单有效的文本生成图像的方法,具体为一种基于改进的stablediffusion的文本生成图像的方法。
背景技术
随着深度学习的快速发展,文本生成图像的任务受到越来越多的关注。这项任务旨在通过给定的文本描述生成与描述相符合的图像。然而,由于文本和图像之间的语义差异和多样性,以及图像生成的复杂性,实现高质量、多样化的文本生成图像仍然是一项具有挑战性的任务。
在传统的文本生成图像方法中,通常采用基于条件的生成对抗网络(ConditionalGenerative Adversarial Network)[1],简称CGAN)或变分自编码tux上能够生成与文本描述相符合的图像,但由于它们对图像和文本之间的复杂关系建模能力有限,生成的图像可能存在模糊、不清晰的问题,且缺乏多样性[2]。
为了克服传统方法的局限性,研究人员引入了扩散模型(Diffusion Models)来实现文本生成图像的任务[3]。扩散模型是一种基于概率的生成模型,它通过逆向扩散过程,从现有图像开始逐步模拟出随机噪声,最终生成符合条件的图像。这种逆向扩散过程使得扩散模型能够更好地建模图像和文本之间的复杂关系,从而实现更准确、清晰且多样化的图像生成。
扩散模型的核心思想是通过对随机噪声的不断扩散和反扩散过程,逐渐将噪声转化为符合条件的图像。在生成图像的过程中,扩散模型引入了条件来指导图像生成,即以文本描述为条件,从而确保生成的图像与给定文本描述相匹配。
与传统的生成模型相比,扩散模型具有以下优势:首先,扩散模型能够更好地建模图像和文本之间的复杂关系,使得生成的图像更加清晰和准确;其次,扩散模型引入了逆向扩散过程,增加了图像生成的多样性,生成的图像更具有变化性和多样性;最后,扩散模型在训练过程中使用逐步的噪声转化过程,可以有效地避免模式坍塌和模式崩溃等问题。
尽管扩散模型通过渐进式增强分辨率的方式来逐步细化图像[4],但在生成图像的过程中可能仍然无法捕捉到全局的上下文信息。由于扩散模型的生成过程是基于文本描述的,模型可能会过度关注局部细节而忽略全局的语义信息,导致生成的图像与预期的场景不太符合。
[1]M.Mirza,S.Osindero,Conditional generative adversarial nets,arXiv:1411.1784(2014).
[2]J.Agnese,J.Herrera,H.Tao,X.Zhu,A survey and taxonomy ofadversarial neural networks for text-to-image synthesis,WileyInterdisciplinary Reviews:Data Mining and Knowledge Discovery(2020).
[3]Yogesh Balaji,Seungjun Nah,Xun Huang,Arash Vahdat,Jiaming Song,Karsten Kreis,Miika Aittala,Timo Aila,Samuli Laine,Bryan Catanzaro,etal.ediffi:Text-to-image
diffusion models with an ensemble of expert denoisers.arXiv preprintarXiv:2211.01324,2022.2,3
[4]Robin Rombach,Andreas Blattmann,Dominik Lorenz,Patrick Esser,andBjorn Ommer.High-resolution image synthesis with latent diffusion models.InCVPR,pages 10684
10695,2022.2,3,7
现有的技术方案中,自Robin Rombach提出用stable diffusion进行文本生成图像,到后期Robin Rombach提出Stable Diffusion XL,是对stable diffuson原先的U-Net,VAE,CLIP Text Encoder三大件都做了改进,并增加一个单独的基于Latent的Refiner模型,来提升图像的精细化程度。
对于SDXL,虽然改进U-net网络,加了BasicTransformer Blocks,是由SelfAttention,Cross Attention和FeedForward三个组件构成,并且使用了循环残差模式,虽然增强了模型的学习和表达能力,但对于具有多样性和可控性的图像生成没有改进;在最后级联一个单独的基于Latent的Refiner模型用来提升图像的精细化程度,但这个模型是最基础的扩散模型,对于提升精细化程度作用比较小。
发明内容
本发明提出一种基于改进的stable diffusion的文本生成图像的方法,在stablediffusion进行文本生成图像中,通过改进的U-net网络并在图像生成之后再级联DiffuseGAE模型,来更好地捕捉图像的语义和结构信息,实现更具有多样性和可控性的图像生成并提高生成图像的质量。
本发明所采用的技术方案是:一种基于改进的stable diffusion的文本生成图像的方法,包括以下步骤:
步骤1:使用提前训练好的AutoEncoder自编码器将图像从像素空间映射到潜在空间,学习图像的隐式表达,此时图像的大小将从[B,C,W,H]转换为[B,Z,H/8,W/8],其中Z为潜在表示向量。
步骤2:使用CLIP文本编码器将提示词描述编码成一个768维的文本向量:τθ(y)。
步骤3:在潜在空间对潜在空间向量Z进行扩散,得到一系列扩散后的潜在空间向量Z,Z1,...,ZT。
步骤4:将扩散后的潜在向量ZT作为输入,文本信息和用户提供的空间条件可以包括目标对象的边界框或者其他空间信息作为条件,进入DBU-net网络。将扩散后的潜在向量ZT作为输入,经过卷积操作得到特征图F,维度为[B,C,H/8,W/8],经过3个ResCrossAttentionDownBlocks,每个块中包含time embedding structure、自注意力模块(Self Attention)、双交叉注意力模块(Dual Ccross-Attention)和边框约束(Box)。每个块的输出为经过多次下采样后的特征图,维度为[B,C,H/(82^i),W/(82^i)],其中i为块的索引(从0开始)。ResCrossAttentionDownBlocks的具体操作如下,首先将时间步长信息转换为特定维度的向量,并将该向量与特征图相加得到Ftime,然后对Ftime进行注意力计算,公式如下:
线性变换:
Q=Linear(Ftime)
K=Linear(Ftime)
V=Linear(Ftime)
相似度得分矩阵:
其中,S_{i,j}表示位置(i,j)与所有其他位置的相似度得分。
注意力权重加权融合:
将得到的注意力特征图Fselfattention与文本向量进行一个双交叉注意力(DCA)计算。首先通过卷积将文本向量扩展为与注意力特征图相同的维度,然后一起进行通道交叉注意力(CCA)操作,具体是,对注意力图Fselfattention进行层归一化(LN)操作,将将文本向量与注意力特征图沿通道维度进行拼接,得到一个新的张量Tc,其中c表示拼接的通道维度,将注意力特征图Fselfattention作为Query,而Tc作为Key和Value,利用深度可分离卷积对注意力特征图Fselfattention进行自注意力计算,公式如下:
Qi=DConv1DQi(Fselfattention)K=DConv1DK(Tc)V=DConv1DV(Tc)
得到Qi,K,V分别为注意力特征图的Query,Tc的Key,Tc的Value。计算通道注意力矩阵S,并对其进行Softmax归一化,公式如下:
其中,Cc是通道维度。从而CCA表示如下:
CCA(Qi,K,V)=SVT
交叉注意的输出是values的加权和,权重由queries和key之间的相似性决定。最后使用深度可分离卷积对交叉注意的输出进行处理,并将其T输入SCA模块。
给定CCA模块处理后的输出T,沿通道维度进行层归一化并和处理好的文本向量拼接得到利用拼接后的/>作为Query和Key,而将T作为Value。对Queriy,Key,Value上使用1×1深度可分离卷积进行投影。
V=DConv1DV(T)
然后SCA可表示为:
其中,dk是注意力头的维度。然后使用深度可分离卷积对DCA的输出进行处理得到最终DCA的输出。然后对DCA的输出进行层归一化和GeLU处理。
步骤5:将经过双交叉注意力和DCA处理后的特征图与用户提供的空间条件(例如目标对象的边界框)输入到Box模块中。在Box模块中,首先,将空间条件转换为二进制空间掩码Mi和1-Mi,其中Mi表示目标对象的位置,1-Mi表示除目标对象以外的其他位置,然后,我们引入三种空间约束:内部框约束、外部框约束和角点约束。利用内部框的二值掩码1-Mi对DCA的输出特征图T进行加权融合,得到加权和T1。具体操作为将1-Mi与T相乘,得到屏蔽了内部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合,权重由注意力权重矩阵A决定。加权融合公式为:
利用外部框的二值掩码Mi对DCA的输出特征图T进行加权融合,得到加权和T2。具体操作为将Mi与T相乘,得到屏蔽了外部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合,权重由注意力权重矩阵A决定。加权融合公式为:
利用角点约束,具体操作为在水平和垂直方向上对DCA的输出特征图T进行投影,得到两个投影张量Tx和Ty。然后计算目标对象与投影之间的误差,利用均匀采样得到一组误差项,记为L3和L4。最后,将L3和L4加权求和,得到角点约束的输出LCC。
将T1、T2和LCC加权求和,得到最终的DCA输出特征图加权求和公式为: 其中,α1、α2和α3是超参数,用于控制不同约束的重要程度
步骤6:通过U-net网络的解码器部分,生成潜在向量ZT-1,继续循环执行上面的步骤,直到生成Z,并将Z通过解码器进行解码得到图像X1
步骤7:将图像X1放入到级联的DiffuseGAE模块中,DiffuseGAE模块如图5所示。具体操作是,X1经过Encoder得到初始的潜在代码zesm,这个初始的潜伏代码zsem被传递给GAE(Group-supervised AutoEncoder)进行进一步的特征解耦和控制。GAE的结构包括一个Encoder部分和一个Decoder部分。Encoder将zsem作为输入,并通过一系列MLP块和Bottleneck块提取特征。这些特征被解耦成多个属性,Decoder将解耦后的特征重组为新的潜在代码zdis,zdis作为条件扩散模型的条件,对X1加噪完的图像XT进行图像生成,最后输出为图像X。
与现有技术相比,本发明通过双交叉注意力,增强了模型的表达能力,能够更好地捕捉图像的语义和结构信息;引入了文本信息和用户提供的空间条件作为输入,这样可以实现更具有多样性和可控性的图像合成,用户可以通过调整文本提示或空间条件来控制生成图像的内容和风格;最后级联DiffuseGAE模型,可以生成更逼真、高质量的图像。
附图说明
图1是本发明的系统框图;
图2是DBU-net结构;
图3是ResDualBoxDownBlocks;
图4是ResDualBoxUpBlocks;
图5是DiffuseGAE系统架构图。
具体实施方式
如图1-5所示,一种基于改进的stable diffusion的文本生成图像的方法,包括如下步骤:
步骤1:使用提前训练好的AutoEncoder自编码器将图像从像素空间映射到潜在空间,学习图像的隐式表达,此时图像的大小将从[B,C,W,H]转换为[B,Z,H/8,W/8],其中Z为潜在表示向量。
步骤2:使用CLIP文本编码器将提示词描述编码成一个768维的文本向量:τθ(y)。
步骤3:在潜在空间对潜在空间向量Z进行扩散,得到一系列扩散后的潜在空间向量Z,Z1,...,ZT。
步骤4:将扩散后的潜在向量ZT作为输入,文本信息和用户提供的空间条件可以包括目标对象的边界框或者其他空间信息作为条件,进入DBU-net网络,如图2所示。将扩散后的潜在向量ZT作为输入,经过卷积操作得到特征图F,维度为[B,C,H/8,W/8],经过3个ResCrossAttentionDownBlocks,如图3所示,每个块中包含time embedding structure、自注意力模块(Self Attention)、双交叉注意力模块(Dual Ccross-Attention)和边框约束(Box)。每个块的输出为经过多次下采样后的特征图,维度为[B,C,H/(82^i),W/(82^i)],其中i为块的索引(从0开始)。ResCrossAttentionDownBlocks的具体操作如下,首先将时间步长信息转换为特定维度的向量,并将该向量与特征图相加得到Ftime,然后对Ftime进行注意力计算,公式如下:
线性变换:
Q=Linear(Ftime)
K=Linear(Ftime)
V=Linear(Ftime)
相似度得分矩阵:
其中,S_{i,j}表示位置(i,j)与所有其他位置的相似度得分。
注意力权重加权融合:
将得到的注意力特征图Fselfattention与文本向量进行一个双交叉注意力(DCA)计算。首先通过卷积将文本向量扩展为与注意力特征图相同的维度,然后一起进行通道交叉注意力(CCA)操作,具体是,对注意力图Fselfattention进行层归一化(LN)操作,将将文本向量与注意力特征图沿通道维度进行拼接,得到一个新的张量Tc,其中c表示拼接的通道维度,将注意力特征图Fselfattention作为Query,而Tc作为Key和Value,利用深度可分离卷积对注意力特征图Fselfattention进行自注意力计算,公式如下:
Qi=DConv1DQi(Fselfattention) K=DConv1DK(Tc) V=DConv1DV(Tc)
得到Qi,K,V分别为注意力特征图的Query,Tc的Key,Tc的Value。计算通道注意力矩阵S,并对其进行Softmax归一化,公式如下:
其中,Cc是通道维度。从而CCA表示如下:
CCA(Qi,K,V)=SVT
交叉注意的输出是values的加权和,权重由queries和key之间的相似性决定。最后使用深度可分离卷积对交叉注意的输出进行处理,并将其T输入SCA模块。
给定CCA模块处理后的输出T,沿通道维度进行层归一化并和处理好的文本向量拼接得到利用拼接后的/>作为Query和Key,而将T作为Value。对Queriy,Key,Value上使用1×1深度可分离卷积进行投影。
V=DConv1DV(T)
然后SCA可表示为:
其中,dk是注意力头的维度。然后使用深度可分离卷积对DCA的输出进行处理得到最终DCA的输出。然后对DCA的输出进行层归一化和GeLU处理。
步骤5:将经过双交叉注意力和DCA处理后的特征图与用户提供的空间条件(例如目标对象的边界框)输入到Box模块中。在Box模块中,首先,将空间条件转换为二进制空间掩码Mi和1-Mi,其中Mi表示目标对象的位置,1-Mi表示除目标对象以外的其他位置,然后,我们引入三种空间约束:内部框约束、外部框约束和角点约束。利用内部框的二值掩码1-Mi对DCA的输出特征图T进行加权融合,得到加权和T1。具体操作为将1-Mi与T相乘,得到屏蔽了内部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合,权重由注意力权重矩阵A决定。加权融合公式为:
利用外部框的二值掩码Mi对DCA的输出特征图T进行加权融合,得到加权和T2。具体操作为将Mi与T相乘,得到屏蔽了外部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合,权重由注意力权重矩阵A决定。加权融合公式为:
利用角点约束,具体操作为在水平和垂直方向上对DCA的输出特征图T进行投影,得到两个投影张量Tx和Ty。然后计算目标对象与投影之间的误差,利用均匀采样得到一组误差项,记为L3和L4。最后,将L3和L4加权求和,得到角点约束的输出LCC。
将T1、T2和LCC加权求和,得到最终的DCA输出特征图加权求和公式为: 其中,α1、α2和α3是超参数,用于控制不同约束的重要程度
步骤6:通过U-net网络的解码器部分,生成潜在向量ZT-1,继续循环执行上面的步骤,直到生成Z,并将Z通过解码器进行解码得到图像X1
步骤7:将图像X1放入到级联的DiffuseGAE模块中,DiffuseGAE模块如图5所示。具体操作是,X1经过Encoder得到初始的潜在代码zesm,这个初始的潜伏代码zsem被传递给GAE(Group-supervised AutoEncoder)进行进一步的特征解耦和控制。GAE的结构包括一个Encoder部分和一个Decoder部分。Encoder将zsem作为输入,并通过一系列MLP块和Bottleneck块提取特征。这些特征被解耦成多个属性,Decoder将解耦后的特征重组为新的潜在代码zdis,zdis作为条件扩散模型的条件,对X1加噪完的图像XT进行图像生成,最后输出为图像X。
Claims (5)
1.一种基于改进的stablediffusion的文本生成图像的方法,包括以下步骤:
步骤1:使用训练好的AutoEncoder自编码器将图像从像素空间映射到潜在空间,学习图像的隐式表达,图像的大小将从[B,C,W,H]转换为[B,Z,H/8,W/8],其中Z为潜在表示向量;
步骤2:使用CLIP文本编码器将提示词描述编码成一个768维的文本向量:τθ(y);
步骤3:在潜在空间对潜在空间向量Z进行扩散,得到一系列扩散后的潜在空间向量Z,Z1,...,ZT;
步骤4:将扩散后的潜在向量ZT作为输入,文本信息和用户提供的空间条件进入DBU-net网络,将扩散后的潜在向量ZT作为输入,经过卷积操作得到特征图F,维度为[B,C,H/8,W/8],经过3个ResCrossAttentionDownBlocks得到特征图
步骤5:将特征图与用户提供的空间条件输入到Box模块中输出特征图/>
步骤6:通过U-net网络的解码器部分,生成潜在向量ZT-1,继续循环执行上面的步骤,直到生成Z,并将Z通过解码器进行解码得到图像X1;
步骤7:将图像X1放入到级联的DiffuseGAE模块中,X1经过Encoder得到初始的潜在代码zesm,zsem被传递给GAE进行进一步的特征解耦和控制,GAE的结构包括一个Encoder部分和一个Decoder部分,Encoder将zsem作为输入,并通过MLP块和Bottleneck块提取特征,Decoder将解耦后的特征重组为新的潜在代码zdis,zdis作为条件扩散模型的条件,对X1加噪完的图像XT进行图像生成,最后输出为图像X。
2.如权利要求1所述的基于改进的stablediffusion的文本生成图像的方法,其特征在于,每个ResCrossAttentionDownBlocks中包括time embedding structure、自注意力模块、双交叉注意力模块和边框约束,每个块的输出为经过多次下采样后的特征图,维度为[B,C,H/(82^i),W/(82^i)],其中i为块的索引。
3.如权利要求2所述的基于改进的stablediffusion的文本生成图像的方法,其特征在于,ResCrossAttentionDownBlocks的操作如下,首先将时间步长信息转换为特定维度的向量,并将该向量与特征图相加得到Ftime,然后对Ftime进行注意力计算,公式如下:
线性变换:
Q=Linear(Ftime)
K=Linear(Ftime)
V=Linear(Ftime)
相似度得分矩阵:
其中,S_{i,j}表示位置(i,j)与所有其他位置的相似度得分,
注意力权重加权融合:
将得到的注意力特征图Fselfattention与文本向量进行一个双交叉注意力(DCA)计算,首先通过卷积将文本向量扩展为与注意力特征图相同的维度,然后一起进行通道交叉注意力(CCA)操作,具体是,对注意力图Fselfattention进行层归一化(LN)操作,将将文本向量与注意力特征图沿通道维度进行拼接,得到一个新的张量Tc,其中c表示拼接的通道维度,将注意力特征图Fselfattention作为Query,而Tc作为Key和Value,利用深度可分离卷积对注意力特征图Fselfattention进行自注意力计算,公式如下:
K=DConv1DK(Tc) V=DConv1DV(Tc)
得到Qi,K,V分别为注意力特征图的Query,Tc的Key,Tc的Value,计算通道注意力矩阵S,并对其进行Softmax归一化,公式如下:
其中,Cc是通道维度,从而CCA表示如下:
CCA(Qi,K,V)=SVT
交叉注意的输出是values的加权和,权重由queries和key之间的相似性决定。最后使用深度可分离卷积对交叉注意的输出进行处理,并将其T输入SCA模块,
给定CCA模块处理后的输出T,沿通道维度进行层归一化并和处理好的文本向量拼接得到利用拼接后的/>作为Query和Key,而将T作为Value。对Queriy,Key,Value上使用1×1深度可分离卷积进行投影,
V=DConv1DV(T)
然后SCA可表示为:
其中,dk是注意力头的维度,然后使用深度可分离卷积对DCA的输出进行处理得到最终DCA的输出。然后对DCA的输出进行层归一化和GeLU处理。
4.如权利要求3所述的基于改进的stable diffusion的文本生成图像的方法,其特征在于,在Box模块中,首先,将空间条件转换为二进制空间掩码Mi和1-Mi,其中Mi表示目标对象的位置,1-Mi表示除目标对象以外的其他位置,然后,引入三种空间约束进行加权融合,三种空间约束为内部框约束、外部框约束和角点约束。
5.如权利要求4所述的基于改进的stable diffusion的文本生成图像的方法,其特征在于,利用内部框的二值掩码1-Mi对DCA的输出特征图T进行加权融合,得到加权和T1,具体操作为将1-Mi与T相乘,得到屏蔽了内部框区域的特征图,然后对屏蔽后的特征图进行加权融合,权重由注意力权重矩阵A决定,加权融合公式为:
利用外部框的二值掩码Mi对DCA的输出特征图T进行加权融合,得到加权和T2,具体操作为将Mi与T相乘,得到屏蔽了外部框区域的特征图。然后对这个屏蔽后的特征图进行加权融合,权重由注意力权重矩阵A决定。加权融合公式为:
利用角点约束,具体操作为在水平和垂直方向上对DCA的输出特征图T进行投影,得到两个投影张量Tx和Ty,然后计算目标对象与投影之间的误差,利用均匀采样得到一组误差项,记为L3和L4。最后,将L3和L4加权求和,得到角点约束的输出LCC,
将T1、T2和LCC加权求和,得到最终的DCA输出特征图加权求和公式为:/> 其中,α1、α2和α3是超参数,用于控制不同约束的重要程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311115276.XA CN117152304A (zh) | 2023-08-31 | 2023-08-31 | 一种基于改进的stable diffusion的文本生成图像的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311115276.XA CN117152304A (zh) | 2023-08-31 | 2023-08-31 | 一种基于改进的stable diffusion的文本生成图像的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117152304A true CN117152304A (zh) | 2023-12-01 |
Family
ID=88903998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311115276.XA Pending CN117152304A (zh) | 2023-08-31 | 2023-08-31 | 一种基于改进的stable diffusion的文本生成图像的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152304A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593595A (zh) * | 2024-01-18 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 基于人工智能的样本增广方法、装置及电子设备 |
CN117934657A (zh) * | 2024-03-21 | 2024-04-26 | 华南理工大学 | 一种基于文图生成模型的语言跟踪图像编辑方法 |
-
2023
- 2023-08-31 CN CN202311115276.XA patent/CN117152304A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593595A (zh) * | 2024-01-18 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 基于人工智能的样本增广方法、装置及电子设备 |
CN117593595B (zh) * | 2024-01-18 | 2024-04-23 | 腾讯科技(深圳)有限公司 | 基于人工智能的样本增广方法、装置及电子设备 |
CN117934657A (zh) * | 2024-03-21 | 2024-04-26 | 华南理工大学 | 一种基于文图生成模型的语言跟踪图像编辑方法 |
CN117934657B (zh) * | 2024-03-21 | 2024-06-04 | 华南理工大学 | 一种基于文图生成模型的语言跟踪图像编辑方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Nüwa: Visual synthesis pre-training for neural visual world creation | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
Zhou et al. | A comprehensive survey on pretrained foundation models: A history from bert to chatgpt | |
CN117152304A (zh) | 一种基于改进的stable diffusion的文本生成图像的方法 | |
Lin et al. | Nextvlad: An efficient neural network to aggregate frame-level features for large-scale video classification | |
Li et al. | Exploring global and local linguistic representations for text-to-image synthesis | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
Bai et al. | Boosting convolutional image captioning with semantic content and visual relationship | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助系统 | |
CN114372414A (zh) | 多模态模型构建方法、装置和计算机设备 | |
CN115222998B (zh) | 一种图像分类方法 | |
Ye et al. | Audio-driven stylized gesture generation with flow-based model | |
Yu et al. | Visual tuning | |
CN115018941A (zh) | 一种基于改进版文本解析器的文本至图像生成算法 | |
Chen et al. | Coupled multimodal emotional feature analysis based on broad-deep fusion networks in human–robot interaction | |
CN114676332A (zh) | 一种面向开发者的网络api推荐方法 | |
Peng et al. | Show and tell in the loop: Cross-modal circular correlation learning | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN113095431A (zh) | 一种基于注意力机制的图像描述方法、系统及装置 | |
Ma et al. | Reconstruction of generative adversarial networks in cross modal image generation with canonical polyadic decomposition | |
CN110163339A (zh) | 神经网络中网络表示生成、编码方法和装置 | |
Xiang et al. | Research on Handicraft Design Based on Artificial Intelligence Technology in Complex Environments | |
CN113486180A (zh) | 一种基于关系层级交互的远程监督关系抽取方法及系统 | |
Ma et al. | CPGAN: An Efficient Architecture Designing for Text‐to‐Image Generative Adversarial Networks Based on Canonical Polyadic Decomposition | |
Cheng et al. | Practice of a New Model Fusion Structure in Short Video Recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |