CN116863034B - 一种提升扩散模型图片生成效果的方法 - Google Patents
一种提升扩散模型图片生成效果的方法 Download PDFInfo
- Publication number
- CN116863034B CN116863034B CN202310850135.6A CN202310850135A CN116863034B CN 116863034 B CN116863034 B CN 116863034B CN 202310850135 A CN202310850135 A CN 202310850135A CN 116863034 B CN116863034 B CN 116863034B
- Authority
- CN
- China
- Prior art keywords
- text
- diffusion
- encoder
- model
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000000694 effects Effects 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种提升扩散模型图片生成效果的方法,涉及计算机技术领域,包括:给定预训练的文本编码器并输入文字描述;将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文本编码的编码文本向量;基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子,在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,最终提升扩散模型生成效果。
Description
技术领域
本发明涉及计算机技术领域,涉及一种提升扩散模型图片生成效果的方法。
背景技术
扩散模型已经成为图像合成的一种强大技术手段,在各种应用中取得了最先进的性能。其中,文本到图像的扩散模型引起了极大的关注,并在需求上出现激增。
传统上,扩散模型一直遵循典型的深度学习方法,即在预定大小的图像上进行训练和测试,通常可以获得高质量的结果。然而,它们仍然会在面对新的合成分辨率时表现出一系列视觉缺陷和多样化的缺陷,如:在训练中使用512*512像素的图片,而在测试中使用224*224像素的图片。然而,现实世界中经常需要生成具有不同尺寸和纵横比的图像,这就需要能够在最小的视觉保真度损失范围内处理这种多样性的模型。在生成大型模型时,这种需求变得更为迫切。随着模型尺寸的不断增大,相关的培训成本也会大幅上升,从而给业务人员和创业公司带来挑战。
因此,需要探讨一种方法,以便充分利用针对固定尺寸无需训练的提升方法。
发明内容
针对上述问题,本发明提供了一种提升扩散模型图片生成效果的方法,在无需训练的情况下,提升固定尺寸图片的生成效果。
为实现上述目的,本发明提供了一种提升扩散模型图片生成效果的方法,包括:给定预训练的文本编码器并输入文字描述;
将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;
根据所述文字描述及所述新的文本编码器得到文本编码,利用扩散模型获得所述文本编码的编码文本向量;
基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片。
作为本发明的进一步改进,将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,包括:
预训练好的文本编码器Gω0,其中,ω0是文本编码器中的自注意力机制的尺度因子,公式表示为:
式中,d表示文本向量的编码维度;
将尺度因子ω0替换为稳定尺度因子ω1,ω1公式表示为:
式中,N表示编码器当前处理的视觉像素长度;T表示编码器训练时处理的视觉像素长度。
作为本发明的进一步改进,根据所述文字描述及所述新的文本编码器得到文本编码,包括:
向所述新的文本编码器Gω1输入文字描述E;
所述新的文本编码器输出文本编码Gω1(E)。
作为本发明的进一步改进,利用扩散模型获得所述文本编码的编码文本向量;包括:
将新的文本编码器输出的文本编码Gω1(E)输入扩散模型,扩散模型经扩散处理后得到所述编码文本向量
作为本发明的进一步改进,所述扩散模型对所述文本编码的处理过程包括:
步骤一:从所述文本编码的初始状态E0到终止状态EN不断加噪声,过程表示为:
式中,q表示正向分布,β表示超参数,I表示单位矩阵,N表示扩散的次数,En-1表示扩散n-1次后的文本编码状态;E1:N表示过程中所有状态的联合;步骤二:从终止状态EN继续加噪声,经过逆向分布p,生成初始状态E0,过程公式表示为:
p(En-1|En)=Ν(En-1;μ(En,n),σ(En,n))
式中,p表示逆向分布;μ表示分布均值;σ表示分布标准差;n表示扩散次数;N表示多维高斯分布;En-1表示扩散n-1次后的文本编码状态;En表示扩散n次后的文本编码状态。
作为本发明的进一步改进,基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片;公式表示为:
式中,
表示解码模型,/>表示解码模型的参数,无需训练;
表示编码文本向量;
I表示生成的图像。
与现有技术相比,本发明的有益效果为:
本发明使用稳定尺度因子提升扩散模型生成效果,可以在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,减少使用者的后续工作。
通过本发明的方法,在插画和广告宣传设计稿中,可以先通过需求文本,生成高质量的图片稿件,方便插画师和广告设计从业人员进行微调。我们的稳定缩放因子,因为无需训练,能有效地提高文本生成图像的质量,更加降本增效。
附图说明
图1为本发明一种实施例公开的提升扩散模型图片生成效果的方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供的一种提升扩散模型图片生成效果的方法,包括步骤:
S1、给定预训练的文本编码器并输入文字描述;
其中,
预训练文本编码器表示为Gω0,ω0是文本编码器中的自注意力机制的尺度因子。
S2、将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;
其中,
预训练好的文本编码器Gω0,ω0公式表示为:
式中,d表示文本向量的编码维度;
将尺度因子ω0替换为稳定尺度因子ω1,ω1公式表示为:
式中,N表示编码器当前处理的视觉像素长度;T表示编码器训练时处理的视觉像素长度。
得到新的文本编码器Gω1。
S3、根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文本编码的编码文本向量;
其中,
向新的文本编码器Gω1输入文字描述E;
新的文本编码器输出文本编码Gω1(E)。
进一步的,
利用扩散模型获得文本编码的编码文本向量;包括:
将新的文本编码器输出的文本编码Gω1(E)输入扩散模型,扩散模型经扩散处理后得到编码文本向量
即:将扩散模型的整个过程记作P,根据扩散模型P,输入文本E,根据新的文本编码器得到的文本编码Gω1(E),输出编码文本向量
更进一步的,
扩散模型对文本编码的处理过程包括两步骤:
步骤一:从文本编码的初始状态E0到终止状态EN不断加噪声,过程表示为:
式中,q表示正向分布,β表示超参数,I表示单位矩阵,N表示扩散的次数,En-1表示扩散n-1次后的文本编码状态;E1:N表示过程中所有状态的联合;
步骤二:从终止状态EN继续加噪声,经过逆向分布p,生成初始状态E0,过程公式表示为:
p(En-1|En)=Ν(En-1;μ(En,n),σ(En,n))
式中,p表示逆向分布;μ表示分布均值;σ表示分布标准差;n表示扩散次数;N表示多维高斯分布;En-1表示扩散n-1次后的文本编码状态;En表示扩散n次后的文本编码状态。
扩散模型的优势是在保持E0的性质不变时,满足文本到图像的自然生成,同时加入了随机性,满足自然图像的生成多样性。
S4、基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。
其中,公式表示为:
式中,
表示解码模型,/>表示解码模型的参数,无需训练;
表示编码文本向量;
I表示生成的图像。
实施例:
例如在图像去噪的应用中,假设我们有一张噪声较严重的图像,我们可以使用稳定尺度因子替身扩散模型的除噪声效果。又如,图像超分辨率,给定一张低分辨率的图像,我们可以使用稳定尺度因子扩散模型来进行图像超分辨率,从而得到一张更清晰的高分辨率图像。使用者不需要重新训练模型,就能达到比原始模型更好的应用效果,为使用者降本增效。
本发明的优点:
本发明使用稳定尺度因子提升扩散模型生成效果,可以在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,减少使用者的后续工作。
通过本发明的方法,在插画和广告宣传设计稿中,可以先通过需求文本,生成高质量的图片稿件,方便插画师和广告设计从业人员进行微调。我们的稳定缩放因子,因为无需训练,能有效地提高文本生成图像的质量,更加降本增效。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种提升扩散模型图片生成效果的方法,其特征在于,包括:
给定预训练的文本编码器并输入文字描述;
将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;
根据所述文字描述及所述新的文本编码器得到文本编码,利用扩散模型获得所述文本编码的编码文本向量;
基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片;
所述将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,包括:
预训练好的文本编码器Gω0,其中,ω0是文本编码器中的自注意力机制的尺度因子,公式表示为:
式中,d表示文本向量的编码维度;
将尺度因子ω0替换为稳定尺度因子ω1,ω1公式表示为:
式中,N表示编码器当前处理的视觉像素长度;T表示编码器训练时处理的视觉像素长度。
2.根据权利要求1所述的提升扩散模型图片生成效果的方法,其特征在于:根据所述文字描述及所述新的文本编码器得到文本编码,包括:
向所述新的文本编码器Gω1输入文字描述E;
所述新的文本编码器输出文本编码Gω1(E)。
3.根据权利要求2所述的提升扩散模型图片生成效果的方法,其特征在于:利用扩散模型获得所述文本编码的编码文本向量;包括:
将新的文本编码器输出的文本编码Gω1(E)输入扩散模型,扩散模型经扩散处理后得到所述编码文本向量
4.根据权利要求1或3所述的提升扩散模型图片生成效果的方法,其特征在于:所述扩散模型对所述文本编码的处理过程包括:
步骤一:从所述文本编码的初始状态E0到终止状态EN不断加噪声,过程表示为:
式中,q表示正向分布,β表示超参数,I表示单位矩阵,N表示扩散的次数,En-1表示扩散n-1次后的文本编码状态;E1:N表示过程中所有状态的联合;
步骤二:从终止状态EN继续加噪声,经过逆向分布p,生成初始状态E0,过程公式表示为:
p(En-1|En)=N(En-1;μ(En,n),σ(En,n))
式中,p表示逆向分布;μ表示分布均值;σ表示分布标准差;n表示扩散次数;N表示多维高斯分布;En-1表示扩散n-1次后的文本编码状态;En表示扩散n次后的文本编码状态。
5.根据权利要求4所述的提升扩散模型图片生成效果的方法,其特征在于:基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片;公式表示为:
式中,
表示解码模型,/>表示解码模型的参数,无需训练;
表示编码文本向量;
I表示生成的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310850135.6A CN116863034B (zh) | 2023-07-11 | 2023-07-11 | 一种提升扩散模型图片生成效果的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310850135.6A CN116863034B (zh) | 2023-07-11 | 2023-07-11 | 一种提升扩散模型图片生成效果的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116863034A CN116863034A (zh) | 2023-10-10 |
CN116863034B true CN116863034B (zh) | 2024-05-14 |
Family
ID=88223079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310850135.6A Active CN116863034B (zh) | 2023-07-11 | 2023-07-11 | 一种提升扩散模型图片生成效果的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863034B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
KR102428725B1 (ko) * | 2022-02-15 | 2022-08-04 | 주식회사 에어스메디컬 | 영상 개선 방법 및 이를 수행하는 컴퓨터 프로그램 |
CN115482302A (zh) * | 2021-05-31 | 2022-12-16 | 四川大学 | 一种基于交叉注意力编码的从文本生成图像方法 |
CN116188632A (zh) * | 2023-04-24 | 2023-05-30 | 之江实验室 | 一种图像的生成方法、装置、存储介质及电子设备 |
-
2023
- 2023-07-11 CN CN202310850135.6A patent/CN116863034B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
CN115482302A (zh) * | 2021-05-31 | 2022-12-16 | 四川大学 | 一种基于交叉注意力编码的从文本生成图像方法 |
KR102428725B1 (ko) * | 2022-02-15 | 2022-08-04 | 주식회사 에어스메디컬 | 영상 개선 방법 및 이를 수행하는 컴퓨터 프로그램 |
CN116188632A (zh) * | 2023-04-24 | 2023-05-30 | 之江实验室 | 一种图像的生成方法、装置、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
A Closer Look at Parameter-Efficient Tuning in Diffusion Models;Chendong Xiang;arXiv;全文 * |
High-Resolution Image Synthesis with Latent Diffusion Models;Robin Rombach;arxiv;全文 * |
基于多空间混合注意力的图像描述生成方法;林贤早;刘俊;田胜;徐小康;姜涛;;计算机应用(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116863034A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10834425B2 (en) | Image compression/decompression method and device, and image processing system | |
US8743963B2 (en) | Image/video quality enhancement and super-resolution using sparse transformations | |
Yin et al. | Reversible data hiding in JPEG images with multi-objective optimization | |
CN101874409B (zh) | 处理输入图像以减少压缩相关伪影 | |
US7474805B2 (en) | Efficient scaling in transform domain | |
Li et al. | Learning a single model with a wide range of quality factors for JPEG image artifacts removal | |
Cheng et al. | Performance comparison of convolutional autoencoders, generative adversarial networks and super-resolution for image compression | |
WO2023143101A1 (zh) | 一种面部视频编码方法、解码方法及装置 | |
CN116863034B (zh) | 一种提升扩散模型图片生成效果的方法 | |
Guo et al. | CBANet: Toward Complexity and Bitrate Adaptive Deep Image Compression Using a Single Network | |
US20040114812A1 (en) | Image scaling in the compressed domain | |
CN111986121B (zh) | 基于Framelet l0范数约束的模糊图像非盲复原方法 | |
CN115866253B (zh) | 一种基于自调制的通道间变换方法、装置、终端及介质 | |
Kekre et al. | Image Reconstruction using Fast Inverse Half tone and Huffman Coding Technique | |
Alarcon-Aquino et al. | Lossy image compression using discrete wavelet transform and thresholding techniques | |
Qin et al. | Print-Camera Resistant Image Watermarking with Deep Noise Simulation and Constrained Learning | |
Zhu et al. | Palette-based compound image compression in HEVC by exploiting non-local spatial correlation | |
Rajesh et al. | T2CI-GAN: Text to Compressed Image generation using Generative Adversarial Network | |
CN115941950A (zh) | 编码方法、解码方法、编码设备以及解码设备 | |
Zhang et al. | Pixel-Stega: Generative image steganography based on autoregressive models | |
Karkada Ashok et al. | Autoencoders with variable sized latent vector for image compression | |
Cruz et al. | Halftone Pattern: A New Steganographic Approach. | |
Jia et al. | Deep convolutional network based image quality enhancement for low bit rate image compression | |
CN115358954B (zh) | 一种注意力引导的特征压缩方法 | |
Chen et al. | Fast Image Artistic Style Learning Using Twin-Codebook Vector Quantization. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |