CN116863034B

CN116863034B - 一种提升扩散模型图片生成效果的方法

Info

Publication number: CN116863034B
Application number: CN202310850135.6A
Authority: CN
Inventors: 金致宇; 沈旭立
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2024-05-14
Anticipated expiration: 2043-07-11
Also published as: CN116863034A

Abstract

本发明提供一种提升扩散模型图片生成效果的方法，涉及计算机技术领域，包括：给定预训练的文本编码器并输入文字描述；将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，得到新的文本编码器；根据文字描述及新的文本编码器得到文本编码，利用扩散模型获得文本编码的编码文本向量；基于编码文本向量，通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子，在文本生成图像领域中自适应地调节尺度因子，从而实现自然的高保真的生成图片，最终提升扩散模型生成效果。

Description

一种提升扩散模型图片生成效果的方法

技术领域

本发明涉及计算机技术领域，涉及一种提升扩散模型图片生成效果的方法。

背景技术

扩散模型已经成为图像合成的一种强大技术手段，在各种应用中取得了最先进的性能。其中，文本到图像的扩散模型引起了极大的关注，并在需求上出现激增。

传统上，扩散模型一直遵循典型的深度学习方法，即在预定大小的图像上进行训练和测试，通常可以获得高质量的结果。然而，它们仍然会在面对新的合成分辨率时表现出一系列视觉缺陷和多样化的缺陷，如：在训练中使用512*512像素的图片，而在测试中使用224*224像素的图片。然而，现实世界中经常需要生成具有不同尺寸和纵横比的图像，这就需要能够在最小的视觉保真度损失范围内处理这种多样性的模型。在生成大型模型时，这种需求变得更为迫切。随着模型尺寸的不断增大，相关的培训成本也会大幅上升，从而给业务人员和创业公司带来挑战。

因此，需要探讨一种方法，以便充分利用针对固定尺寸无需训练的提升方法。

发明内容

针对上述问题，本发明提供了一种提升扩散模型图片生成效果的方法，在无需训练的情况下，提升固定尺寸图片的生成效果。

为实现上述目的，本发明提供了一种提升扩散模型图片生成效果的方法，包括：给定预训练的文本编码器并输入文字描述；

将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，得到新的文本编码器；

根据所述文字描述及所述新的文本编码器得到文本编码，利用扩散模型获得所述文本编码的编码文本向量；

基于所述编码文本向量，通过解码模型得到输入的所述文字描述的生成图片。

作为本发明的进一步改进，将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，包括：

预训练好的文本编码器G_ω0，其中，ω0是文本编码器中的自注意力机制的尺度因子，公式表示为：

式中，d表示文本向量的编码维度；

将尺度因子ω0替换为稳定尺度因子ω1，ω1公式表示为：

式中，N表示编码器当前处理的视觉像素长度；T表示编码器训练时处理的视觉像素长度。

作为本发明的进一步改进，根据所述文字描述及所述新的文本编码器得到文本编码，包括：

向所述新的文本编码器G_ω1输入文字描述E；

所述新的文本编码器输出文本编码G_ω1(E)。

作为本发明的进一步改进，利用扩散模型获得所述文本编码的编码文本向量；包括：

将新的文本编码器输出的文本编码G_ω1(E)输入扩散模型，扩散模型经扩散处理后得到所述编码文本向量

作为本发明的进一步改进，所述扩散模型对所述文本编码的处理过程包括：

步骤一：从所述文本编码的初始状态E₀到终止状态E_N不断加噪声，过程表示为：

式中，q表示正向分布，β表示超参数，I表示单位矩阵，N表示扩散的次数，E_n-1表示扩散n-1次后的文本编码状态；E_1:N表示过程中所有状态的联合；步骤二：从终止状态E_N继续加噪声，经过逆向分布p，生成初始状态E₀，过程公式表示为：

p(E_n-1|E_n)＝Ν(E_n-1；μ(E_n,n),σ(E_n,n))

式中，p表示逆向分布；μ表示分布均值；σ表示分布标准差；n表示扩散次数；N表示多维高斯分布；E_n-1表示扩散n-1次后的文本编码状态；E_n表示扩散n次后的文本编码状态。

作为本发明的进一步改进，基于所述编码文本向量，通过解码模型得到输入的所述文字描述的生成图片；公式表示为：

式中，

表示解码模型，/>表示解码模型的参数，无需训练；

表示编码文本向量；

I表示生成的图像。

与现有技术相比，本发明的有益效果为：

本发明使用稳定尺度因子提升扩散模型生成效果，可以在文本生成图像领域中自适应地调节尺度因子，从而实现自然的高保真的生成图片，减少使用者的后续工作。

通过本发明的方法，在插画和广告宣传设计稿中，可以先通过需求文本，生成高质量的图片稿件，方便插画师和广告设计从业人员进行微调。我们的稳定缩放因子，因为无需训练，能有效地提高文本生成图像的质量，更加降本增效。

附图说明

图1为本发明一种实施例公开的提升扩散模型图片生成效果的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供的一种提升扩散模型图片生成效果的方法，包括步骤：

S1、给定预训练的文本编码器并输入文字描述；

其中，

预训练文本编码器表示为G_ω0，ω0是文本编码器中的自注意力机制的尺度因子。

S2、将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，得到新的文本编码器；

其中，

预训练好的文本编码器G_ω0，ω0公式表示为：

式中，d表示文本向量的编码维度；

将尺度因子ω0替换为稳定尺度因子ω1，ω1公式表示为：

得到新的文本编码器G_ω1。

S3、根据文字描述及新的文本编码器得到文本编码，利用扩散模型获得文本编码的编码文本向量；

其中，

向新的文本编码器G_ω1输入文字描述E；

新的文本编码器输出文本编码G_ω1(E)。

进一步的，

利用扩散模型获得文本编码的编码文本向量；包括：

将新的文本编码器输出的文本编码G_ω1(E)输入扩散模型，扩散模型经扩散处理后得到编码文本向量

即：将扩散模型的整个过程记作P，根据扩散模型P，输入文本E，根据新的文本编码器得到的文本编码G_ω1(E)，输出编码文本向量

更进一步的，

扩散模型对文本编码的处理过程包括两步骤：

步骤一：从文本编码的初始状态E₀到终止状态E_N不断加噪声，过程表示为：

式中，q表示正向分布，β表示超参数，I表示单位矩阵，N表示扩散的次数，E_n-1表示扩散n-1次后的文本编码状态；E_1:N表示过程中所有状态的联合；

步骤二：从终止状态E_N继续加噪声，经过逆向分布p，生成初始状态E₀，过程公式表示为：

p(E_n-1|E_n)＝Ν(E_n-1；μ(E_n,n),σ(E_n,n))

扩散模型的优势是在保持E₀的性质不变时，满足文本到图像的自然生成，同时加入了随机性，满足自然图像的生成多样性。

S4、基于编码文本向量，通过解码模型得到输入的文字描述的生成图片。

其中，公式表示为：

式中，

表示解码模型，/>表示解码模型的参数，无需训练；

表示编码文本向量；

I表示生成的图像。

实施例：

例如在图像去噪的应用中，假设我们有一张噪声较严重的图像，我们可以使用稳定尺度因子替身扩散模型的除噪声效果。又如，图像超分辨率，给定一张低分辨率的图像，我们可以使用稳定尺度因子扩散模型来进行图像超分辨率，从而得到一张更清晰的高分辨率图像。使用者不需要重新训练模型，就能达到比原始模型更好的应用效果，为使用者降本增效。

本发明的优点：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提升扩散模型图片生成效果的方法，其特征在于，包括：

给定预训练的文本编码器并输入文字描述；

基于所述编码文本向量，通过解码模型得到输入的所述文字描述的生成图片；

所述将所述文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，包括：

式中，d表示文本向量的编码维度；

将尺度因子ω0替换为稳定尺度因子ω1，ω1公式表示为：

2.根据权利要求1所述的提升扩散模型图片生成效果的方法，其特征在于：根据所述文字描述及所述新的文本编码器得到文本编码，包括：

向所述新的文本编码器G_ω1输入文字描述E；

所述新的文本编码器输出文本编码G_ω1(E)。

3.根据权利要求2所述的提升扩散模型图片生成效果的方法，其特征在于：利用扩散模型获得所述文本编码的编码文本向量；包括：

4.根据权利要求1或3所述的提升扩散模型图片生成效果的方法，其特征在于：所述扩散模型对所述文本编码的处理过程包括：

式中，q表示正向分布，β表示超参数，I表示单位矩阵，N表示扩散的次数，E_n-1表示扩散n-1次后的文本编码状态；E_1：N表示过程中所有状态的联合；

p(E_n-1|E_n)＝N(E_n-1；μ(E_n，n)，σ(E_n，n))

5.根据权利要求4所述的提升扩散模型图片生成效果的方法，其特征在于：基于所述编码文本向量，通过解码模型得到输入的所述文字描述的生成图片；公式表示为：

式中，

表示解码模型，/>表示解码模型的参数，无需训练；

表示编码文本向量；

I表示生成的图像。