CN116863034B - 一种提升扩散模型图片生成效果的方法 - Google Patents

一种提升扩散模型图片生成效果的方法 Download PDF

Info

Publication number
CN116863034B
CN116863034B CN202310850135.6A CN202310850135A CN116863034B CN 116863034 B CN116863034 B CN 116863034B CN 202310850135 A CN202310850135 A CN 202310850135A CN 116863034 B CN116863034 B CN 116863034B
Authority
CN
China
Prior art keywords
text
diffusion
encoder
model
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310850135.6A
Other languages
English (en)
Other versions
CN116863034A (zh
Inventor
金致宇
沈旭立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayuan Computing Technology Shanghai Co ltd
Original Assignee
Huayuan Computing Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayuan Computing Technology Shanghai Co ltd filed Critical Huayuan Computing Technology Shanghai Co ltd
Priority to CN202310850135.6A priority Critical patent/CN116863034B/zh
Publication of CN116863034A publication Critical patent/CN116863034A/zh
Application granted granted Critical
Publication of CN116863034B publication Critical patent/CN116863034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种提升扩散模型图片生成效果的方法,涉及计算机技术领域,包括:给定预训练的文本编码器并输入文字描述;将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文本编码的编码文本向量;基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子,在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,最终提升扩散模型生成效果。

Description

一种提升扩散模型图片生成效果的方法
技术领域
本发明涉及计算机技术领域,涉及一种提升扩散模型图片生成效果的方法。
背景技术
扩散模型已经成为图像合成的一种强大技术手段,在各种应用中取得了最先进的性能。其中,文本到图像的扩散模型引起了极大的关注,并在需求上出现激增。
传统上,扩散模型一直遵循典型的深度学习方法,即在预定大小的图像上进行训练和测试,通常可以获得高质量的结果。然而,它们仍然会在面对新的合成分辨率时表现出一系列视觉缺陷和多样化的缺陷,如:在训练中使用512*512像素的图片,而在测试中使用224*224像素的图片。然而,现实世界中经常需要生成具有不同尺寸和纵横比的图像,这就需要能够在最小的视觉保真度损失范围内处理这种多样性的模型。在生成大型模型时,这种需求变得更为迫切。随着模型尺寸的不断增大,相关的培训成本也会大幅上升,从而给业务人员和创业公司带来挑战。
因此,需要探讨一种方法,以便充分利用针对固定尺寸无需训练的提升方法。
发明内容
针对上述问题,本发明提供了一种提升扩散模型图片生成效果的方法,在无需训练的情况下,提升固定尺寸图片的生成效果。
为实现上述目的,本发明提供了一种提升扩散模型图片生成效果的方法,包括:给定预训练的文本编码器并输入文字描述;
将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;
根据所述文字描述及所述新的文本编码器得到文本编码,利用扩散模型获得所述文本编码的编码文本向量;
基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片。
作为本发明的进一步改进,将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,包括:
预训练好的文本编码器Gω0,其中,ω0是文本编码器中的自注意力机制的尺度因子,公式表示为:
式中,d表示文本向量的编码维度;
将尺度因子ω0替换为稳定尺度因子ω1,ω1公式表示为:
式中,N表示编码器当前处理的视觉像素长度;T表示编码器训练时处理的视觉像素长度。
作为本发明的进一步改进,根据所述文字描述及所述新的文本编码器得到文本编码,包括:
向所述新的文本编码器Gω1输入文字描述E;
所述新的文本编码器输出文本编码Gω1(E)。
作为本发明的进一步改进,利用扩散模型获得所述文本编码的编码文本向量;包括:
将新的文本编码器输出的文本编码Gω1(E)输入扩散模型,扩散模型经扩散处理后得到所述编码文本向量
作为本发明的进一步改进,所述扩散模型对所述文本编码的处理过程包括:
步骤一:从所述文本编码的初始状态E0到终止状态EN不断加噪声,过程表示为:
式中,q表示正向分布,β表示超参数,I表示单位矩阵,N表示扩散的次数,En-1表示扩散n-1次后的文本编码状态;E1:N表示过程中所有状态的联合;步骤二:从终止状态EN继续加噪声,经过逆向分布p,生成初始状态E0,过程公式表示为:
p(En-1|En)=Ν(En-1;μ(En,n),σ(En,n))
式中,p表示逆向分布;μ表示分布均值;σ表示分布标准差;n表示扩散次数;N表示多维高斯分布;En-1表示扩散n-1次后的文本编码状态;En表示扩散n次后的文本编码状态。
作为本发明的进一步改进,基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片;公式表示为:
式中,
表示解码模型,/>表示解码模型的参数,无需训练;
表示编码文本向量;
I表示生成的图像。
与现有技术相比,本发明的有益效果为:
本发明使用稳定尺度因子提升扩散模型生成效果,可以在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,减少使用者的后续工作。
通过本发明的方法,在插画和广告宣传设计稿中,可以先通过需求文本,生成高质量的图片稿件,方便插画师和广告设计从业人员进行微调。我们的稳定缩放因子,因为无需训练,能有效地提高文本生成图像的质量,更加降本增效。
附图说明
图1为本发明一种实施例公开的提升扩散模型图片生成效果的方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供的一种提升扩散模型图片生成效果的方法,包括步骤:
S1、给定预训练的文本编码器并输入文字描述;
其中,
预训练文本编码器表示为Gω0,ω0是文本编码器中的自注意力机制的尺度因子。
S2、将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;
其中,
预训练好的文本编码器Gω0,ω0公式表示为:
式中,d表示文本向量的编码维度;
将尺度因子ω0替换为稳定尺度因子ω1,ω1公式表示为:
式中,N表示编码器当前处理的视觉像素长度;T表示编码器训练时处理的视觉像素长度。
得到新的文本编码器Gω1
S3、根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文本编码的编码文本向量;
其中,
向新的文本编码器Gω1输入文字描述E;
新的文本编码器输出文本编码Gω1(E)。
进一步的,
利用扩散模型获得文本编码的编码文本向量;包括:
将新的文本编码器输出的文本编码Gω1(E)输入扩散模型,扩散模型经扩散处理后得到编码文本向量
即:将扩散模型的整个过程记作P,根据扩散模型P,输入文本E,根据新的文本编码器得到的文本编码Gω1(E),输出编码文本向量
更进一步的,
扩散模型对文本编码的处理过程包括两步骤:
步骤一:从文本编码的初始状态E0到终止状态EN不断加噪声,过程表示为:
式中,q表示正向分布,β表示超参数,I表示单位矩阵,N表示扩散的次数,En-1表示扩散n-1次后的文本编码状态;E1:N表示过程中所有状态的联合;
步骤二:从终止状态EN继续加噪声,经过逆向分布p,生成初始状态E0,过程公式表示为:
p(En-1|En)=Ν(En-1;μ(En,n),σ(En,n))
式中,p表示逆向分布;μ表示分布均值;σ表示分布标准差;n表示扩散次数;N表示多维高斯分布;En-1表示扩散n-1次后的文本编码状态;En表示扩散n次后的文本编码状态。
扩散模型的优势是在保持E0的性质不变时,满足文本到图像的自然生成,同时加入了随机性,满足自然图像的生成多样性。
S4、基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。
其中,公式表示为:
式中,
表示解码模型,/>表示解码模型的参数,无需训练;
表示编码文本向量;
I表示生成的图像。
实施例:
例如在图像去噪的应用中,假设我们有一张噪声较严重的图像,我们可以使用稳定尺度因子替身扩散模型的除噪声效果。又如,图像超分辨率,给定一张低分辨率的图像,我们可以使用稳定尺度因子扩散模型来进行图像超分辨率,从而得到一张更清晰的高分辨率图像。使用者不需要重新训练模型,就能达到比原始模型更好的应用效果,为使用者降本增效。
本发明的优点:
本发明使用稳定尺度因子提升扩散模型生成效果,可以在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,减少使用者的后续工作。
通过本发明的方法,在插画和广告宣传设计稿中,可以先通过需求文本,生成高质量的图片稿件,方便插画师和广告设计从业人员进行微调。我们的稳定缩放因子,因为无需训练,能有效地提高文本生成图像的质量,更加降本增效。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种提升扩散模型图片生成效果的方法,其特征在于,包括:
给定预训练的文本编码器并输入文字描述;
将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;
根据所述文字描述及所述新的文本编码器得到文本编码,利用扩散模型获得所述文本编码的编码文本向量;
基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片;
所述将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,包括:
预训练好的文本编码器Gω0,其中,ω0是文本编码器中的自注意力机制的尺度因子,公式表示为:
式中,d表示文本向量的编码维度;
将尺度因子ω0替换为稳定尺度因子ω1,ω1公式表示为:
式中,N表示编码器当前处理的视觉像素长度;T表示编码器训练时处理的视觉像素长度。
2.根据权利要求1所述的提升扩散模型图片生成效果的方法,其特征在于:根据所述文字描述及所述新的文本编码器得到文本编码,包括:
向所述新的文本编码器Gω1输入文字描述E;
所述新的文本编码器输出文本编码Gω1(E)。
3.根据权利要求2所述的提升扩散模型图片生成效果的方法,其特征在于:利用扩散模型获得所述文本编码的编码文本向量;包括:
将新的文本编码器输出的文本编码Gω1(E)输入扩散模型,扩散模型经扩散处理后得到所述编码文本向量
4.根据权利要求1或3所述的提升扩散模型图片生成效果的方法,其特征在于:所述扩散模型对所述文本编码的处理过程包括:
步骤一:从所述文本编码的初始状态E0到终止状态EN不断加噪声,过程表示为:
式中,q表示正向分布,β表示超参数,I表示单位矩阵,N表示扩散的次数,En-1表示扩散n-1次后的文本编码状态;E1:N表示过程中所有状态的联合;
步骤二:从终止状态EN继续加噪声,经过逆向分布p,生成初始状态E0,过程公式表示为:
p(En-1|En)=N(En-1;μ(En,n),σ(En,n))
式中,p表示逆向分布;μ表示分布均值;σ表示分布标准差;n表示扩散次数;N表示多维高斯分布;En-1表示扩散n-1次后的文本编码状态;En表示扩散n次后的文本编码状态。
5.根据权利要求4所述的提升扩散模型图片生成效果的方法,其特征在于:基于所述编码文本向量,通过解码模型得到输入的所述文字描述的生成图片;公式表示为:
式中,
表示解码模型,/>表示解码模型的参数,无需训练;
表示编码文本向量;
I表示生成的图像。
CN202310850135.6A 2023-07-11 2023-07-11 一种提升扩散模型图片生成效果的方法 Active CN116863034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310850135.6A CN116863034B (zh) 2023-07-11 2023-07-11 一种提升扩散模型图片生成效果的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310850135.6A CN116863034B (zh) 2023-07-11 2023-07-11 一种提升扩散模型图片生成效果的方法

Publications (2)

Publication Number Publication Date
CN116863034A CN116863034A (zh) 2023-10-10
CN116863034B true CN116863034B (zh) 2024-05-14

Family

ID=88223079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310850135.6A Active CN116863034B (zh) 2023-07-11 2023-07-11 一种提升扩散模型图片生成效果的方法

Country Status (1)

Country Link
CN (1) CN116863034B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402365A (zh) * 2020-03-17 2020-07-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
KR102428725B1 (ko) * 2022-02-15 2022-08-04 주식회사 에어스메디컬 영상 개선 방법 및 이를 수행하는 컴퓨터 프로그램
CN115482302A (zh) * 2021-05-31 2022-12-16 四川大学 一种基于交叉注意力编码的从文本生成图像方法
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402365A (zh) * 2020-03-17 2020-07-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN115482302A (zh) * 2021-05-31 2022-12-16 四川大学 一种基于交叉注意力编码的从文本生成图像方法
KR102428725B1 (ko) * 2022-02-15 2022-08-04 주식회사 에어스메디컬 영상 개선 방법 및 이를 수행하는 컴퓨터 프로그램
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Closer Look at Parameter-Efficient Tuning in Diffusion Models;Chendong Xiang;arXiv;全文 *
High-Resolution Image Synthesis with Latent Diffusion Models;Robin Rombach;arxiv;全文 *
基于多空间混合注意力的图像描述生成方法;林贤早;刘俊;田胜;徐小康;姜涛;;计算机应用(04);全文 *

Also Published As

Publication number Publication date
CN116863034A (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
US10834425B2 (en) Image compression/decompression method and device, and image processing system
US8743963B2 (en) Image/video quality enhancement and super-resolution using sparse transformations
Yin et al. Reversible data hiding in JPEG images with multi-objective optimization
CN101874409B (zh) 处理输入图像以减少压缩相关伪影
US7474805B2 (en) Efficient scaling in transform domain
Li et al. Learning a single model with a wide range of quality factors for JPEG image artifacts removal
Cheng et al. Performance comparison of convolutional autoencoders, generative adversarial networks and super-resolution for image compression
WO2023143101A1 (zh) 一种面部视频编码方法、解码方法及装置
CN116863034B (zh) 一种提升扩散模型图片生成效果的方法
Guo et al. CBANet: Toward Complexity and Bitrate Adaptive Deep Image Compression Using a Single Network
US20040114812A1 (en) Image scaling in the compressed domain
CN111986121B (zh) 基于Framelet l0范数约束的模糊图像非盲复原方法
CN115866253B (zh) 一种基于自调制的通道间变换方法、装置、终端及介质
Kekre et al. Image Reconstruction using Fast Inverse Half tone and Huffman Coding Technique
Alarcon-Aquino et al. Lossy image compression using discrete wavelet transform and thresholding techniques
Qin et al. Print-Camera Resistant Image Watermarking with Deep Noise Simulation and Constrained Learning
Zhu et al. Palette-based compound image compression in HEVC by exploiting non-local spatial correlation
Rajesh et al. T2CI-GAN: Text to Compressed Image generation using Generative Adversarial Network
CN115941950A (zh) 编码方法、解码方法、编码设备以及解码设备
Zhang et al. Pixel-Stega: Generative image steganography based on autoregressive models
Karkada Ashok et al. Autoencoders with variable sized latent vector for image compression
Cruz et al. Halftone Pattern: A New Steganographic Approach.
Jia et al. Deep convolutional network based image quality enhancement for low bit rate image compression
CN115358954B (zh) 一种注意力引导的特征压缩方法
Chen et al. Fast Image Artistic Style Learning Using Twin-Codebook Vector Quantization.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant