CN116740223A - 基于文本生成图像的方法 - Google Patents
基于文本生成图像的方法 Download PDFInfo
- Publication number
- CN116740223A CN116740223A CN202310464553.1A CN202310464553A CN116740223A CN 116740223 A CN116740223 A CN 116740223A CN 202310464553 A CN202310464553 A CN 202310464553A CN 116740223 A CN116740223 A CN 116740223A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- time
- noise
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000009792 diffusion process Methods 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Processing (AREA)
Abstract
本发明涉及基于文本生成图像的方法,包括如下步骤:训练FLIP模型,得到优化后的文本编码器和图像编码器;训练基于ViT的StableDiffusion模型;基于训练好的ViT的StableDiffusion模型完成文本到图像的转换;在训练FLIP模型时,将图像随机遮挡一部分,将剩余的可见部分输入到图像编码器中进行编码。本发明采用FLIP来训练图像编码器和文本编码器,对输入的图像进行随机遮挡,可以在有限周期内学习到更多的文本‑图像数据对,同时具有更少的内存占用。并且取得了更好的精度与训练时间均衡在精度与训练速度方面具有大幅改善。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及基于文本生成图像的方法。
背景技术
图像生成是人工智能中一个重要的研究领域,现在的图像生成效果已经能够达到以假乱真的地步,但是不能按照要求正确的生成图像。所以研究者们将目光转向了从文本生成图像,它可以从描述图像的文本中生成目标图像。
早期文本生成图像主要结合检索和监督学习,但该方法只能改变特定图像特征,直到人们使用GAN网络第一次实现文本生成图像,这不仅改变了特征,也能根据文本内容为后续发展奠定基础。
计算机视觉的最新进展是由从互联网收集的文本-图像的大型数据集上的缩放模型驱动的。在这个框架内,CLIP已经成为一个成功的图像表示学习者。CLIP嵌入具有许多令人满意的特性:它们对图像分布变化具有鲁棒性,具有令人印象深刻的zero-shot能力,并且经过微调,可以在各种视觉和语言任务上获得最先进的结果。FLIP在CLIP的基础上,将训练图片随机遮挡,用未遮挡的部分进行编码训练,大大提高了训练效率,性能也有所提升。同时,扩散模型推动了图像和视频生成任务的最新进展,为了获得最佳结果,扩散模型利用了一种引导技术,该技术以样本多样性为代价提高了样本保真度。
GAN网络需要同时训练判别器和生成器,比较难平衡,这使得训练不稳定,相比之下扩散模型只需要训练一个模型,模型优化更加容易。GAN网络虽然可以产生高质量图像,但是不能覆盖整个分布,但是扩散模型可以平衡图像生成多样性和逼真度。此外,现有技术训练时,需要大量的文本-图像对,计算量大,对设备的要求高,且训练时间久效率低。
发明内容
为解决已有技术存在的不足,本发明提供了一种基于文本生成图像的方法,包括如下步骤:
步骤S1:训练FLIP模型,得到优化后的文本编码器和图像编码器;
步骤S2:训练基于ViT的StableDiffusion模型;
步骤S3:基于训练好的ViT的StableDiffusion模型完成文本到图像的转换;
其中,步骤S1包括:
步骤S11:获取训练数据集涉及到的文本-图像对,将文本输入到文本编码器中进行编码,将图像随机遮挡一部分,将剩余的可见部分输入到图像编码器中进行编码;
步骤S12:针对图像编码器及文本编码器编码后的结果计算对比损失,利用对比损失优化文本编码器和图像编码器;
步骤S13:重复步骤S11及步骤S12,不断利用对比损失迭代优化文本编码器及图像编码器,得到最终优化好的文本编码器及图像编码器。
其中,步骤S2包括:针对每一个文本-图像对,执行下述操作,直至loss值收敛:
步骤S21:通过图像编码器针对输入的图像-文本对中的图像进行编码获得图像编码x0;
步骤S22:通过公式1得到一个服从高斯分布的含噪声的图像编码:
公式1中,即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数;
ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;
步骤S23:获取针对公式1中,与图像编码x0所对应的原始图像相对于的文本,基于文本编码器获得文本编码;
步骤S24:将t时刻的时间步长step t转换为嵌入向量;
步骤S25:将公式1获得的服从高斯分布的含噪声的图像编码xt、步骤S23中的文本编码以及步骤S24中的时间步长嵌入向量输入到基于ViT的StableDiffffusion模型中,得到t时刻的预测噪声ε0(xt,t);
步骤S26:根据公式2计算t时刻的预测噪声ε0(xt,t)与t时刻的原始噪声εt之间的loss值;
公式2中,表示的是t时刻的loss值;Et~[1,T]为t时刻的期望,t~[1,T]表示t时刻介于1-T之间;εt为针对公式1中,均值和方差分别为0和1的服从高斯分布的一个高斯噪声中,t时刻的噪声;
步骤S27:基于t时刻的预测噪声ε0(xt,t)及t时刻图像编码xt,通过StableDiffffusion模型,得到t-1时刻的去噪后的图像编码xt-1;
步骤S28:将t-1时刻的时间步长step t转换为嵌入向量;
步骤S29:将文本编码、t-1时刻的图像编码xt-1及t-1时刻的时间步长嵌入向量输入到基于ViT的StableDiffffusion模型中,得到t-1时刻的预测噪声ε0(xt-1,t-1);
步骤S30:根据公式2计算t-1时刻的预测噪声ε0(xt-1,t-1)与t-1时刻的原始噪声εt-1之间的loss值;
步骤S31:重复执行步骤S27至步骤S30,分别顺次得到t-2时刻、t-3时刻、……、0时刻的图像编码xt-2、xt-3、……、x0,再进而分别顺次得到t-2时刻、t-3时刻、……、0时刻所对应的loss值。
其中,步骤S3包括:
步骤S31:将文本输入文本编码器中,得到文本编码;
步骤S32:将时间步长step t转换为嵌入向量;
步骤S33:将系统随机生成的服从高斯分布的噪声Zt、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffffusion模型中,得到一个t时刻的预测噪声θ(Zt,t);
步骤S34:利用训练好的ViT的StableDiffffusion模型,通过公式3,得到t-1时刻的加噪图像编码Zt-1;;
其中,
步骤S35:重复步骤S31-S34,将t-1时刻的加噪图像编码Zt-1、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffffusion模型中,得到t-1时刻的预测噪声θ(Zt-1,t-1),再基于公式3得到t-2时刻的加噪图像编码Zt-2;直至得到0时刻的去噪图像编码Z0;
步骤S36:将0时刻的去噪图像编码Z0输入图像解码器,得到与文本对应的图像。
本发明采用FLIP来训练图像编码器和文本编码器,对输入的图像进行随机遮挡,可以在有限周期内学习到更多的文本-图像数据对,同时具有更少的内存占用。并且取得了更好的精度与训练时间均衡在精度与训练速度方面具有大幅改善。
附图说明
图1:本发明的图像编码器和文本编码器训练逻辑图。
图2:本发明基于vision transformer模型预测噪声的逻辑图。
图3:本发明基于Stable Diffusion模型进行从文本生成图像的逻辑图。
具体实施方式
为了对本发明的技术方案及有益效果有更进一步的了解,下面结合附图详细说明本发明的技术方案及其产生的有益效果。
本发明提供的基于文本生成图像的方法,一方面针对现有的文本生成图像技术,需要训练大量的文本-图像对,计算量大,训练时间久效率低的问题,对训练的图像进行随机遮挡,仅对未遮挡的部分进行编码训练,大大减少了计算量,提高了训练效率。另一方面,针对已有的stable diffusion模型进行了改进,将其原有的backbone换成了visiontransformer。相比于传统的卷积神经网络,vision transformer通过self-attention机制学习图像中不同部分之间的关系,从而实现了更加准确和细粒度的特征提取。
文本生成图像是根据输入的文本生成图像的过程,首先将文本输入到文本编码器中生成文本编码,然后将文本编码转换为图像编码,最后将图像编码输入到图像解码器中生成图像。
本发明提供的基于文本生成图像的方法,具体实现流程如下:
一、图像编码器和文本编码器的训练
首先,训练FLIP(Fast Language-Image Pre-training,FLIP)。如图1所示,FLIP包括两个模型:文本编码器和图像编码器,其中文本编码器用来提取文本特征,图像编码器用来提取图像的特征。它是一种基于对比学习的多模态模型,与计算机视觉中的一些对比方法不同的是,FLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,通过对比学习,模型能够学习到文本-图像对的匹配关系,图1中,将图像随机遮挡50%,可见部分输入到图像编码器中进行编码,图像编码器用的是Vision Transformer模型,输入大小为224,将图像对应的文本输入到文本编码器中进行编码(文本编码使用的是Non-AutoRegressiveTransformer,采用WordPiece序列化方案,序列长度为32),得到的文本编码与图像编码计算对比损失,不断迭代优化模型。
二、训练基于ViT的StableDiffusion模型
StableDiffusion模型的训练包括两个过程:正向扩散过程和逆向扩散过程。
1、正向扩散过程
正向扩散过程通过图像编码器针对输入的图像-文本对中的图像进行编码获得图像编码x0,之后针对加入图像编码x0高斯噪声,一共有T步,该过程生成一系列包括噪声的图像编码样本x1,x2,...,xT,当T趋于无穷大时,最终的图像编码xT将完全变成一张包含噪声的图像编码,就像从各向同性高斯分布中采样一样,可以使用一个封闭形式的公式(公式1)在特定的时间步长t直接对有噪声的图像编码进行采样。
公式1中,x0为针对图像-文本对中获取到的原始图像进行编码获得的原始图像编码;
即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数;
ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;
通过公式1,得到了一个服从高斯分布的含噪声的图像编码。
2、逆向扩散过程
逆向扩散过程中,需要训练一个神经网络来预测噪声,为此,我们将通过FLIP的文本编码器获得文本编码,然后将加噪后的图像编码输入到Stable Diffusion模型中,Stable Diffusion模型中的vision transformer模型将基于输入的图像编码、文本编码以及时间步长预测出这个图像编码中所包含的噪声,进而输出一个预测的噪声。我们将使用vision transformer输出的预测噪声和原始噪声计算loss值。当loss值达到一定的阈值时,我们认为训练已完成,具体包括如下步骤:
(1)获取针对公式1中,与图像编码x0所对应的原始图像相对应的文本,基于文本编码器获得文本编码;
(2)将时间步长step t转换为嵌入向量;
(3)将公式1获得的服从高斯分布的含噪声的图像编码xt、步骤(1)中的文本编码以及步骤(2)中的时间步长嵌入向量输入到基于ViT的vision transformer模型中(如图2所示),得到一个预测的噪声ε0(xt,t)(此步骤相当于对图像编码x中所含的噪声进行预测);
(4)根据公式2计算所预测的噪声ε0(xt,t)与原始噪声εt之间的loss值;
公式2中,表示的是t时刻的loss值;Et~[1,T]为t时刻所对应的原始噪声和与预测噪声差的期望,t~[1,T]表示t时刻介于1-T之间;εt为针对公式1中,均值和方差分别为0和1的服从高斯分布的一个高斯噪声中,t时刻的噪声。
通过重复执行逆向扩散过程,使Stable Diffusion模型不断得到训练,直至最终的loss值足够小,完成Stable Diffusion模型的训练。
一个具体的实现方式如下:假设有10个文本图像对,时间步长T=30,循环了7次,那么开始之前会先随机生成30以内随机递减的等差数列,如(21,19,17,15,13,11,9,7);训练过程:选取一个文本图像对,
1.1:得到文本和加噪之后的图像编码x7,以及时间步长t=21的编码,输入到vision transformer中,输出预测的噪声,然后通过公式3(下文详述),得到去噪之后的图像编码x6;
1.2:得到文本和加噪之后的图像编码x6,以及时间步长t=19的编码,输入到vision transformer中,输出预测的噪声,然后通过公式3,得到去噪之后的图像编码x5;
1.3:得到文本和加噪之后的图像编码x5,以及时间步长t=17的编码,输入到vision transformer中,输出预测的噪声,然后通过公式3,得到去噪之后的图像编码x4;
1.4:得到文本和加噪之后的图像编码x4,以及时间步长t=15的编码,输入到vision transformer中,输出预测的噪声,然后通过公式3,得到去噪之后的图像编码x3;
1.5:得到文本和加噪之后的图像编码x3,以及时间步长t=13的编码,输入到vision transformer中,输出预测的噪声,然后通过公式3,得到去噪之后的图像编码x2;
1.6:得到文本和加噪之后的图像编码x2,以及时间步长t=11的编码,输入到vision transformer中,输出预测的噪声,然后通过公式3,得到去噪之后的图像编码x1;
1.7:得到文本和加噪之后的图像编码x1,以及时间步长t=11的编码,输入到vision transformer中,输出预测的噪声,然后通过公式3,得到去噪之后的图像编码x0;
在每一步骤中,得到预测噪声后,将预测噪声与该时间步长所对应的加噪之后的图像编码x7、x6、x5、x4、x3、x2、x1所对应的原始噪音ε7、ε6、ε5、ε4、ε3、ε2、ε1进行比对,以比对结果优化vision transformer模型。
(1.1-1.7执行完以后,一个文本-图像对训练完成,再从步骤1开始,重新选取下一个文本图像对,执行步骤1.1-1.7,一直循环,直到10个文本-图像对全部执行一遍,至此,一个epoch训练结束)。
也就是说,图2仅显示了1.1-1.7步骤中,输出预测噪声之前的那部分逻辑,因为在本步骤中主要是训练vision transformer模型预测噪声的能力(只是在预测噪声过程中,需要借助整个StableDiffusion模型得到上一个时间步长中得到的去噪的图像编码)。
三、基于训练好的ViT的StableDiffusion模型完成文本到图像的转换
包括如下步骤:
1、将文本输入文本编码器中,得到文本编码;
2、将时间步长step t转换为嵌入向量;
3、如图2所示,将系统随机生成的服从高斯分布的加噪图像编码Zt、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中,得到t时刻的预测噪声θ(Zt,t);
4、利用训练好的ViT的StableDiffusion模型,通过公式3(如图3),得到t-1时刻的加噪图像编码Zt-1;
其中,
5、重复步骤3-4,将t-1时刻的加噪图像编码Zt-1、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中,得到t-1时刻的预测噪声θ(Zt-1,t-1),再基于公式3得到t-2时刻的加噪图像编码Zt-2;依次递进,直至得到0时刻的去噪图像编码Z0。
将0时刻的去噪图像编码Z0输入图像解码器,得到与文本对应的图像。
本发明采用FLIP来训练图像编码器和文本编码器,对输入的图像进行随机遮挡,可以在有限周期内学习到更多的文本-图像数据对,同时具有更少的内存占用。并且取得了更好的精度与训练时间均衡在精度与训练速度方面具有大幅改善。针对stable diffusion模型进行了改进,将其原有的backbone换成了vision transformer。相比于传统的卷积神经网络,vision transformer通过self-attention机制学习图像中不同部分之间的关系,从而实现了更加准确和细粒度的特征提取。
虽然本发明已利用上述较佳实施例进行说明,然其并非用以限定本发明的保护范围,任何本领域技术人员在不脱离本发明的精神和范围之内,相对上述实施例进行各种变动与修改仍属本发明所保护的范围,因此本发明的保护范围以权利要求书所界定的为准。
Claims (3)
1.基于文本生成图像的方法,其特征在于,包括如下步骤:
步骤S1:训练FLIP模型,得到优化后的文本编码器和图像编码器;
步骤S2:训练基于ViT的StableDiffusion模型;
步骤S3:基于训练好的ViT的StableDiffusion模型完成文本到图像的转换;
其中,步骤S1包括:
步骤S11:获取训练数据集涉及到的文本-图像对,将文本输入到文本编码器中进行编码,将图像随机遮挡一部分,将剩余的可见部分输入到图像编码器中进行编码;
步骤S12:针对图像编码器及文本编码器编码后的结果计算对比损失,利用对比损失优化文本编码器和图像编码器;
步骤S13:重复步骤S11及步骤S12,不断利用对比损失迭代优化文本编码器及图像编码器,得到最终优化好的文本编码器及图像编码器。
2.如权利要求1所述的基于文本生成图像的方法,其特征在于,步骤S2包括:针对每一个文本-图像对,执行下述操作,直至loss值收敛:
步骤S21:通过图像编码器针对输入的图像-文本对中的图像进行编码获得图像编码x0;
步骤S22:通过公式1得到一个服从高斯分布的含噪声的图像编码:
公式1中,即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数;
ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;
步骤S23:获取针对公式1中,与图像编码x0所对应的原始图像相对于的文本,基于文本编码器获得文本编码;
步骤S24:将t时刻的时间步长step t转换为嵌入向量;
步骤S25:将公式1获得的服从高斯分布的含噪声的图像编码xt、步骤S23中的文本编码以及步骤S24中的时间步长嵌入向量输入到基于ViT的StableDiffusion模型中,得到t时刻的预测噪声ε0(xt,t);
步骤S26:根据公式2计算t时刻的预测噪声ε0(xt,t)与t时刻的原始噪声εt之间的loss值;
公式2中,表示的是t时刻的loss值;Et~[1,为t时刻的期望,t~[1,T]表示t时刻介于1-T之间;εt为针对公式1中,均值和方差分别为0和1的服从高斯分布的一个高斯噪声中,t时刻的噪声;
步骤S27:基于t时刻的预测噪声ε0(xt,t)及t时刻图像编码xt,通过StableDiffusion模型,得到t-1时刻的去噪后的图像编码xt-1;
步骤S28:将t-1时刻的时间步长step t转换为嵌入向量;
步骤S29:将文本编码、t-1时刻的图像编码xt-1及t-1时刻的时间步长嵌入向量输入到基于ViT的StableDiffusion模型中,得到t-1时刻的预测噪声ε0(xt-1,t-1);
步骤S30:根据公式2计算t-1时刻的预测噪声ε0(xt-1,t-1)与t-1时刻的原始噪声εt-1之间的loss值;
步骤S31:重复执行步骤S27至步骤S30,分别顺次得到t-2时刻、t-3时刻、……、0时刻的图像编码xt-2、xt-3、……、x0,再进而分别顺次得到t-2时刻、t-3时刻、……、0时刻所对应的loss值。
3.如权利要求2所述的基于文本生成图像的方法,其特征在于,步骤S3包括:
步骤S31:将文本输入文本编码器中,得到文本编码;
步骤S32:将时间步长step t转换为嵌入向量;
步骤S33:将系统随机生成的服从高斯分布的噪声Zt、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中,得到一个t时刻的预测噪声θ(Zt,t);
步骤S34:利用训练好的ViT的StableDiffusion模型,通过公式3,得到t-1时刻的加噪图像编码Zt-1;;
其中,
步骤S35:重复步骤S31-S34,将t-1时刻的加噪图像编码Zt-1、文本编码以及时间步长嵌入向量输入到训练好的基于ViT的StableDiffusion模型中,得到t-1时刻的预测噪声θ(Zt-1,t-1),再基于公式3得到t-2时刻的加噪图像编码Zt-2;直至得到0时刻的去噪图像编码Z0;
步骤S36:将0时刻的去噪图像编码Z0输入图像解码器,得到与文本对应的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464553.1A CN116740223A (zh) | 2023-04-26 | 2023-04-26 | 基于文本生成图像的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464553.1A CN116740223A (zh) | 2023-04-26 | 2023-04-26 | 基于文本生成图像的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740223A true CN116740223A (zh) | 2023-09-12 |
Family
ID=87900071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310464553.1A Pending CN116740223A (zh) | 2023-04-26 | 2023-04-26 | 基于文本生成图像的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740223A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095083A (zh) * | 2023-10-17 | 2023-11-21 | 华南理工大学 | 一种文本-图像生成方法、系统、装置和存储介质 |
CN117236201A (zh) * | 2023-11-16 | 2023-12-15 | 南京信息工程大学 | 一种基于Diffusion和ViT的降尺度方法 |
CN117351173A (zh) * | 2023-12-06 | 2024-01-05 | 北京飞渡科技股份有限公司 | 一种基于文本驱动的三维建筑参数化建模方法及装置 |
-
2023
- 2023-04-26 CN CN202310464553.1A patent/CN116740223A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095083A (zh) * | 2023-10-17 | 2023-11-21 | 华南理工大学 | 一种文本-图像生成方法、系统、装置和存储介质 |
CN117095083B (zh) * | 2023-10-17 | 2024-03-15 | 华南理工大学 | 一种文本-图像生成方法、系统、装置和存储介质 |
CN117236201A (zh) * | 2023-11-16 | 2023-12-15 | 南京信息工程大学 | 一种基于Diffusion和ViT的降尺度方法 |
CN117236201B (zh) * | 2023-11-16 | 2024-02-23 | 南京信息工程大学 | 一种基于Diffusion和ViT的降尺度方法 |
CN117351173A (zh) * | 2023-12-06 | 2024-01-05 | 北京飞渡科技股份有限公司 | 一种基于文本驱动的三维建筑参数化建模方法及装置 |
CN117351173B (zh) * | 2023-12-06 | 2024-03-19 | 北京飞渡科技股份有限公司 | 一种基于文本驱动的三维建筑参数化建模方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116740223A (zh) | 基于文本生成图像的方法 | |
CN109492202B (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN112789625A (zh) | 承诺信息速率变分自编码器 | |
CN113313644B (zh) | 一种基于残差双注意力网络的水下图像增强方法 | |
CN116681584A (zh) | 一种多级扩散图像超分辨算法 | |
CN113140023B (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN116392812A (zh) | 动作生成方法及虚拟人物动画生成方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN107463928A (zh) | 基于ocr和双向lstm的文字序列纠错算法、系统及其设备 | |
CN112232485B (zh) | 漫画风格图像转换模型的训练方法、图像生成方法及装置 | |
CN117521672A (zh) | 一种基于扩散模型的长文本生成连续图片的方法 | |
CN116309890A (zh) | 模型生成方法、风格化图像生成方法、装置及电子设备 | |
CN117561549A (zh) | 利用生成神经网络的序列生成图像 | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
CN111489305A (zh) | 基于强化学习的图像增强方法 | |
US11908180B1 (en) | Generating videos using sequences of generative neural networks | |
CN117291232A (zh) | 一种基于扩散模型的图像生成方法与装置 | |
CN116958192A (zh) | 一种基于扩散模型的事件相机图像重建方法 | |
CN113496460A (zh) | 一种基于特征调整的神经风格迁移方法及系统 | |
CN116630448A (zh) | 基于窗口注意力的神经数据依赖变换的图像压缩方法 | |
CN116402719A (zh) | 一种基于潜在扩散模型的人盲脸图像恢复系统及其方法 | |
CN115601257A (zh) | 一种基于局部特征和非局部特征的图像去模糊方法 | |
CN113949880B (zh) | 一种极低码率人机协同图像编码训练方法及编解码方法 | |
CN115270917A (zh) | 一种两阶段处理多模态服装图像生成方法 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |