CN116701692A

CN116701692A - 一种图像生成方法、装置、设备及介质

Info

Publication number: CN116701692A
Application number: CN202310974784.7A
Authority: CN
Inventors: 黄伟; 朱克峰; 李兵兵; 戴钰桀; 王彦伟; 李仁刚
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-09-05
Anticipated expiration: 2043-08-04
Also published as: CN116701692B

Abstract

本发明公开了一种图像生成方法、装置、设备及介质，应用于图像生成技术领域，包括：将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果；第一输入数据包括第一噪声和第一文本信息；基于相邻两次迭代的输出结果计算散度，得到散度序列；对所述散度序列进行分组以得到散度组，并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段；基于第二输入数据以及参数量化后的目标扩散模型生成图像；所述第二输入数据包括第二噪声和第二文本信息。能够解决模型推理速度慢的问题，提升模型推理速度，进而提升图像的生成效率。

Description

一种图像生成方法、装置、设备及介质

技术领域

本发明涉及图像生成技术领域，特别涉及一种图像生成方法、装置、设备及介质。

背景技术

目前，利用扩散模型并基于文本信息生成图像已经成为一种常见的图像生成方式，在利用扩散模型生成图像的方案中，需要利用文本编码器把人类输入的文字串转换成机器能理解的数字信息，也即计算机能理解的某种数学表示，作为后续图片生成器的一个控制输入，进而生成图像，在整个过程中运算量是较大，同时扩散模型的采样速度比较慢，影响了模型推理速度，导致图像的生成效率较低。

发明内容

有鉴于此，本发明的目的在于提供一种图像生成方法、装置、设备及介质，能够提升模型推理速度，进而提升图像的生成效率。其具体方案如下：

第一方面，本发明公开了一种图像生成方法，包括：

将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果；所述第一输入数据包括第一噪声和第一文本信息；

基于相邻两次迭代的输出结果计算散度，得到散度序列；

对所述散度序列进行分组以得到散度组，并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段；

基于第二输入数据以及参数量化后的目标扩散模型生成图像；所述第二输入数据包括第二噪声和第二文本信息。

可选的，所述基于相邻两次迭代的输出结果计算散度，包括：

基于散度系数以及相邻两次迭代的输出结果计算散度；其中，所述散度系数随着迭代次数的演进而降低。

可选的，所述基于散度系数以及相邻两次迭代的输出结果计算散度，包括：

基于迭代次数和自然指数确定散度系数；

基于散度系数以及相邻两次迭代的输出结果计算散度。

基于预设散度计算公式以及相邻两次迭代的输出结果计算散度；预设散度计算公式为：

；

其中，DL表示散度，t表示当前的迭代次数，P（x）表示上一次迭代的输出结果，Q（x）表示t次迭代的输出结果，1/e^t表示t次迭代的散度系数。

可选的，对所述散度序列进行分组以得到散度组，包括：

基于自然裂点法确定所述散度序列的自然裂点；

基于所述自然裂点对所述散度序列进行分组以得到散度组。

可选的，所述依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化，包括：

基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化。

可选的，所述对所述散度序列进行分组以得到散度组，包括：

对所述散度序列进行分组，得到三个散度组；

其中，第一散度组包括T至N次迭代对应的散度，第二散度组包括N-1到M次迭代对应的散度，第三散度组包括M-1至1次迭代的散度，其中，T大于N大于M。

可选的，所述基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化，包括：

基于第一量化策略对第一散度组对应的推理阶段中的目标扩散模型进行参数量化；

基于第二量化策略对第二散度组对应的推理阶段中的目标扩散模型进行参数量化；

基于第三量化策略对第三散度组对应的推理阶段中的目标扩散模型进行参数量化。

可选的，所述第一量化策略、所述第二量化策略以及所述第三量化策略对应的精度依次递增。

可选的，所述第一量化策略将模型参数量化为4至8比特表示指数、0至4比特表示小数的数据。

可选的，所述第二量化策略将模型参数量化为8比特表示指数、4至7比特表示小数的数据。

可选的，所述第三量化策略将模型参数量化为8比特表示指数、7至23比特表示小数的数据。

可选的，在所述将第一输入数据输入至目标扩散模型进行推理之前，还包括：

生成均匀分布的噪声，得到第一噪声；

获取第一文本信息，并将所述第一文本信息和所述第一噪声确定为第一输入数据。

可选的，将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果，包括：

将第一输入数据多次输入至目标扩散模型进行推理，并在每次推理过程中获取每次迭代的输出结果。

可选的，所述基于相邻两次迭代的输出结果计算散度，得到散度序列，包括：

计算多次推理过程中每次迭代的输出结果均值；

基于相邻两次迭代的输出结果均值计算散度，得到散度序列。

可选的，目标扩散模型进行预推理的过程，包括：

对所述第一噪声编码以得到查询矩阵，对所述第一文本信息编码以得到键矩阵和值矩阵；

基于预设多头注意力机制以及所述查询矩阵、所述键矩阵、所述值矩阵确定注意力，

基于所述注意力以及U型网络模型进行去噪，得到潜变量，作为本次迭代的输出结果。

可选的，目标扩散模型中注意力计算公式为：

；

其中，A表示注意力，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，δ表示离散余弦相似函数，h表示头数量，D表示张量的总维数，T表示转置。

可选的，h为D的1/2。

可选的，目标扩散模型为稳定扩散模型。

第二方面，本发明公开了一种图像生成装置，包括：

推理模块，用于将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果；所述第一输入数据包括第一噪声和第一文本信息；

散度计算模块，用于基于相邻两次迭代的输出结果计算散度，得到散度序列；

散度分组模块，用于对所述散度序列进行分组以得到散度组；

参数量化模块，用于依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段；

图像生成模块，用于基于第二输入数据以及参数量化后的目标扩散模型生成图像；所述第二输入数据包括第二噪声和第二文本信息。

第三方面，本发明公开了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现前述的图像生成方法。

第四方面，本发明公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的图像生成方法。

可见，本发明先将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果，所述第一输入数据包括第一噪声和第一文本信息，之后基于相邻两次迭代的输出结果计算散度，得到散度序列，对所述散度序列进行分组以得到散度组，并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段，最后基于第二输入数据以及参数量化后的目标扩散模型生成图像，所述第二输入数据包括第二噪声和第二文本信息。也即，本发明在利用扩散模型生成图像之前，先利用扩散模型进行预推理，得到每次迭代的输出结果，计算散度得到散度序列，基于对散度序列的分组实现了对模型推理过程按照迭代次数划分推理阶段，然后基于依次对不同推理阶段的模型参数进行量化，基于参数量化后的目标扩散模型生成图像。

本发明的有益效果在于，针对迭代次数对扩散模型的模型参数进行分阶段量化，减少数据量和计算量，能够提升模型推理速度，进而提升图像的生成效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种图像生成方法示意图；

图2为本发明实施例提供的一种扩散模型预推理示意图；

图3为本发明实施例提供的一种散度序列分组示意图；

图4为本发明实施例提供的一种张量模型示意图；

图5为本发明实施例提供的键矩阵和值矩阵的张量模型示意图；

图6为本发明实施例提供的一种标准的多头自注意力计算示意图；

图7为本发明实施例提供的另一种多头注意力计算示意图；

图8为本发明实施例提供的一种扩散模型推理示意图；

图9为本发明实施例提供的一种图像生成装置结构示意图；

图10为本发明实施例提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，利用扩散模型并基于文本信息生成图像已经成为一种常见的图像生成方式，在利用扩散模型生成图像的方案中，需要利用文本编码器把人类输入的文字串转换成机器能理解的数字信息，也即计算机能理解的某种数学表示，作为后续图片生成器的一个控制输入，进而生成图像，在整个过程中运算量是较大，同时扩散模型的采样速度比较慢，影响了模型推理速度，导致图像的生成效率较低。为此，本发明提供了一种图像生成方案，能够提升模型推理速度，进而提升图像的生成效率。

参见图1所示，本发明实施例公开了一种图像生成方法，包括：

步骤S11：将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果；所述第一输入数据包括第一噪声和第一文本信息。

在具体的实施方式中，本发明实施例可以先生成均匀分布的噪声，得到第一噪声；获取第一文本信息，并将所述第一文本信息和所述第一噪声确定为第一输入数据。其中第一文本信息可以为任意文本信息，以第一文本信息作为约束，进行推理。第一噪声为随机生成的图像数据。

并且，在具体的实施方式中，目标扩散模型进行推理的过程，包括：对所述第一噪声编码以得到查询矩阵，对所述第一文本信息编码以得到键矩阵和值矩阵；基于预设多头注意力机制以及所述查询矩阵、所述键矩阵、所述值矩阵确定注意力，基于所述注意力以及U型网络模型进行去噪，得到潜变量，作为本次迭代的输出结果。其中，本次迭代为T次迭代，推理过程为从T次迭代开始至1次迭代的去噪过程，得到T次迭代的输出结果后，将T次迭代的输出结果和第一文本信息作为输入进行T-1次迭代，得到T-1次迭代的输出结果，以此类推，得到T次迭代至1次迭代的输出结果。

步骤S12：基于相邻两次迭代的输出结果计算散度，得到散度序列。

可以理解的是，本发明实施例中，可以基于T次迭代以及T-1次迭代的输出结果计算散度，同理基于T-1次迭代以及T-2次迭代的输出结果计算散度，这样，得到多个散度，构成一个散度序列。

并且，在具体的实施方式中，可以基于散度系数以及相邻两次迭代的输出结果计算散度；其中，所述散度系数随着迭代次数的演进而降低。可以理解的是，散度系数为为了计算散度，而添加的随迭代次数变化而改变的系数，通过该系数，可以避免散度突变，造成图像抖动。

在一种具体的实施方式中，可以基于迭代次数和自然指数确定散度系数；基于散度系数以及相邻两次迭代的输出结果计算散度。

进一步的，可以基于预设散度计算公式以及相邻两次迭代的输出结果计算散度；预设散度计算公式为：

；

其中，DL表示散度，t表示当前的迭代次数，P（x）表示上一次迭代的输出结果，Q（x）表示t次迭代的输出结果，1/e^t表示t次迭代的散度系数，e为自然指数。

需要指出的是，对于大多数模型部署过程中，往往是无法获取模型训练时的各种细节，尤其是在实际生产场景下，硬件设备（边缘设备、嵌入式设备、加速器等）不再支持训练微调或重训练，此时如何利用现有模型进行分析更为重要。Q-BERT（即量化加速BERT（即Bidirectional Encoder Representations from Transformers，语言表征模型））等混合精度量化方法，需要在模型训练时分析量化敏感度，并根据量化敏感度对不同网络层数进行分组、再进行不同数据精度的量化。扩散模型原理和NLP（即Natural LanguageProcessing，自然语言处理）以及CV（即Computer Vision，计算机视觉）模型的推理过程不同，图像的生成主要靠噪声和文本约束进行迭代计算从而逐步去噪，而更为直观的是：去噪过程的前期往往是很难观察图像的语义信息，而在图像生成的后期开始逐渐显现图像生成的内容，由此本发明采用模型的预推理用于收集模型去噪过程的信息，从而统计相关指标用于制定量化策略。

参见图2所示，图2为本发明实施例提供的一种扩散模型预推理示意图。在T时刻（即T次迭代）开始直到恢复原始时刻（即1次迭代）图像的去噪过程中，使用均匀分布的噪声作为输入，并添加任意文本信息作为约束，进行推理；开始推理计算后，逐步输出每次迭代输出的结果，计算T时刻和T-1时刻的散度，并输出散度的序列。本发明中的散度计算没有采用标准KL散度（即Kullback–Leibler divergence），KL散度也称为相对熵，本发明提出的散度公式中随着时刻的演进散度的权重将减小，也即散度系数减小。

另外，在一种实施方式中，可以将第一输入数据多次输入至目标扩散模型进行推理，并在每次推理过程中获取每次迭代的输出结果。计算多次推理过程中每次迭代的输出结果均值；基于相邻两次迭代的输出结果均值计算散度，得到散度序列。通过多次推理取均值，能够提升散度序列的可靠性。

步骤S13：对所述散度序列进行分组以得到散度组，并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段。

在具体的实施方式中，可以基于自然裂点法确定所述散度序列的自然裂点；基于所述自然裂点对所述散度序列进行分组以得到散度组。并且，可以基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化。

在一种实施方式中，可以对所述散度序列进行分组，得到三个散度组；

其中，第一散度组包括T至N次迭代对应的散度，第二散度组包括N-1到M次迭代对应的散度，第三散度组包括M-1至1次迭代的散度，其中，T为推理阶段的迭代次数，依次减小，T大于N大于M。可以理解的是，N次和M次为两个自然裂点。

相应的，可以基于第一量化策略对第一散度组对应的推理阶段中的目标扩散模型进行参数量化；基于第二量化策略对第二散度组对应的推理阶段中的目标扩散模型进行参数量化；基于第三量化策略对第三散度组对应的推理阶段中的目标扩散模型进行参数量化。所述第一量化策略、所述第二量化策略以及所述第三量化策略对应的精度依次递增。可以理解的是，基于第一量化策略对T至N次迭代的目标扩散模型进行参数量化，基于第二量化策略对N-1到M次迭代的目标扩散模型进行参数量化；基于第三量化策略对M-1至1次迭代的目标扩散模型进行参数量化。

本申请实施例中，所述第一量化策略将模型参数量化为4至8比特表示指数、0至4比特表示小数的数据。也即，指数位保留4至8比特，小数位截断19-23比特。所述第二量化策略将模型参数量化为8比特表示指数、4至7比特表示小数的数据。也即指数位保留8比特，小数位截断16-19比特。所述第三量化策略将模型参数量化为8比特表示指数、7至23比特表示小数的数据。也即，指数位保留8比特，小数位截断0-16比特。并且，在一种实施方式中，每个推理阶段中的不同迭代次数对应的量化策略中的指数位和小数位可以为相同的位数，比如，所述第一量化策略将模型参数量化为4比特表示指数、3比特表示小数的数据。所述第二量化策略将模型参数量化为8比特表示指数、7比特表示小数的数据。所述第三量化策略将模型参数量化为8比特表示指数、23比特表示小数的数据。在另一种实施方式中，每个推理阶段中的不同迭代次数对应的量化策略中的小数位可以为不同的位数，比如，第三散度组对应的推理阶段，迭代4次：每次迭代分别小数位分别可以为23，18，13，7位。

需要指出的是，根据推理统计的散度序列信息，对序列进行分组，根据自然裂点法进行分组，自然裂点能使类与类之间的不同最大化。任何统计数列都存在一些自然转折点、特征点，用这些点可以把研究的对象分成性质相似的群组，因此，裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图，都有助于找出数据的自然裂点。例如，参见图3所示，图3为本发明实施例公开的一种散度序列分组示意图。本发明的量化策略分为三个级别：标准FP32（即floating-point number，单精度浮点数）（即第三量化策略）、BF16（即Brain Float16，一种浮点数格式）（即第二量化策略）和BF8（即第一量化策略），图3中横坐标为迭代次数t，纵坐标为计算得到的散度。其中，BF16数据格式为用8bit表示指数，7bit表示小数。本发明提出的BF8则为4bit表示指数，3bit表示小数。图3中的两个自然裂点为M=12和N=29。本申请实施例以三个散度组为例，在其他实施例中散度组的数量可以根据实际需求确定，不限于三个，比如四个、五个等。

步骤S14：基于第二输入数据以及参数量化后的目标扩散模型生成图像；所述第二输入数据包括第二噪声和第二文本信息。

也即，在生成图像的过程中，T至N次迭代采用第一量化策略参数对应的量化后的目标扩散模型，第N-1到M次迭代采用第二量化策略参数对应的量化后的目标扩散模型，M-1至1次迭代采用第三量化策略参数对应的量化后的目标扩散模型。

另外，本发明实施例可以针对大图像生成场景，其中大图像为大于1024*1024尺寸的图像。

进一步的，本发明实施例中，目标扩散模型中注意力计算公式为：

；

其中，A表示注意力，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，δ表示离散余弦相似函数，h表示头数量，D表示张量的总维数，T表示转置。h为D的1/2。

需要指出的是，扩散模型中的标准多头注意力计算公式为：

；

其中，Q表示自注意力中的query（即查询矩阵），K表示key（即键矩阵），V表示value（即值矩阵），而在交叉注意力中文本向量将注入K和V，而噪声图像将注入Q，使得在UNet（U型网络）模型中利用文本信息约束噪声去除的过程。参见图4所示，图4为本发明实施例提供的一种张量模型示意图，将Q表示为如图4所述的张量模型：T在CV中表示每个16x16的图像patch（即图像块）的Token（即向量表示）；D为张量的总维数，这里将h作为head（即头）的数量，这样Q中每个head的维数为D/h。参见图5所示，图5为本发明实施例提供的键矩阵和值矩阵的张量模型示意图。将K和V表示为图5所示，其中L为文本信息的Token，其他张量形状参数同Q，K（键矩阵）和V（值矩阵）均来自文本信息编码的Embedding（即嵌入向量）。

进一步的，参见图6所示，图6为本发明实施例提供的一种标准的多头自注意力计算示意图，将Q和K^T进行计算，再计算QK^T和V的乘积，此时的计算量记为O（T²D）。参见图7所示，图7为本发明实施例提供的另一种多头注意力计算示意图，注意力计算顺序作了线性替换，先计算K^TV，再将Q乘以K^TV，此时计算量记为O（TD²/h）。由此可知当D/h越小计算量也将会越小。Hydra attention（即一种新的tensor（即张量）操作方式，加速多头注意力计算）采用的方式是将head数量最大化，即D=h，此时D/h为1，而head的数量过多，使得每个head都处理一个特征，但该方式最大处理特征即为768，更大的head数量将会造成模型不收敛等问题。针对大尺寸图像的交叉注意力计算，本发明将使用尽可能大的head数量，而不是直接最大化head。采用离散余弦相似函数能够降低运算量，而head设计为D的1/2，即计算量限制在O（2TD），创建的矩阵大小不再指数级的增加，且模型将趋于收敛，很明显只要T大于2，该方式的计算量将小于标准多头注意力，对比Hydra attention有更强的稳定性。

并且，在一种实施方式中目标扩散模型为稳定扩散模型。Stable Diffusion（即稳定扩散模型）技术，作为Diffusion Model（潜在扩散模型）的改进版本，通过引入隐向量空间来解决Diffusion速度瓶颈，除了可专门用于文生图任务，还可以用于图生图、特定角色刻画，甚至是超分或者上色任务。Stable Diffusion 的核心思想是，由于每张图片满足一定规律分布，利用文本中包含的这些分布信息作为指导，把一张纯噪声的图片逐步去噪，生成一张跟文本信息匹配的图片。它其实是一个比较组合的系统，里面包含了多个模型子模块，接下来把黑盒进行一步步拆解。stable diffusion最直接的问题是，如何把人类输入的文字串转换成机器能理解的数字信息。这里就用到了text encoder（文本编码器），可以把文字转换成计算机能理解的某种数学表示，它的输入是文字串，输出是一系列具有输入文字信息的语义向量。有了这个语义向量，就可以作为后续image generator（即图片生成器）的一个控制输入，这也是Stable diffusion技术的核心模块。但是扩散模型的缺点是采样速度太慢，需要T步才能完成采样，Diffusion里面T=1000，Stable Diffusion里T约为50。因此，本发明实施例可以针对多模态条件机制减少多头注意力的计算量加速采样过程；再进行模型的预推理从而统计每一步采样（去噪）与上一步采样结果噪声分布的离散程度；最后根据噪声分布的离散程度设计不同的分组量化策略，加速扩散模型整体的推理速度。

进一步的，在AIGC（即Artificial Intelligence Generated Content，生成式人工智能）实际生产背景中，用户仅能获取已训练好的模型，而无法获得模型在训练过程中的任何统计信息，这就造成Q-BERT等方法无法直接进行模型的优化，本发明可以针对AIGC产业中的Text to Image（即文本转图像）方向的Stable Diffusion模型的算法在大图像生成场景中采样推理速度较慢的问题，进行改进：针对含有大尺寸图像的多模态数据，设计多头交叉注意力计算操作方式加速张量计算。在给定模型且无法获取模型训练时的统计信息的情况下，进行模型预推理捕获采样过程中的信息。根据预推理过程中的统计信息，在保证模型精度前提下制定分组量化策略减小显存容量，加速推理过程：在上述场景中，本发明将多头交叉注意力中的head数量增加至一定特征维度，从而减少张量计算。根据预推理过程中，每次去噪生成的图像与上一步结果进行对比，采集每一次迭代去噪的散度统计数据。根据去噪散度分布进行混合精度的分组量化策略，在保证精度的前提下，加速推理。

参见图8所示，本发明实施例提供了一种扩散模型推理示意图。其中，解码器用于对潜变量进行解码，得到模型数据。在此基础上，本发明实施例在生成模型给定的情况下，利用随机条件下的噪声和文本数据进行预推理，该过程生成少量批次的图像进行模型内部统计信息的采集；与此同时结合多模态交叉注意力（Cross-attention）的特点，增加多头注意力的Head数量，减少计算量；最后根据每次迭代去噪的统计信息，对去噪的迭代过程进行分组量化。具体包括以下步骤：

步骤1：修改扩散模型中UNet Model中多头交叉注意力的计算方式，交换QKV的计算次序，并且将head数量增加至数据维度D的一半；

步骤2：生成均匀分布的噪声和随机文本描述。

步骤3：进行预推理，并统计每次去噪过程时刻与上一时刻的数据分布散度，该预推理为了保证精确可进行8至16次取平均值。

步骤4：进行自然裂点法进行散度数据的分级。

步骤5：确定FP32、BF16、BF8数据格式的转换过程。

步骤6：根据迭代次数的分级，进行不同数据精度的量化，加速推理过程。

也即，扩散模型中多头交叉注意力计算，可通过交换计算次序，增加head数量减少计算量。交叉注意力中的head数量不可增加至维数D，最多增加至其二分之一。在模型给定，且不满足重新训练的条件下，使用预推理进行模型的分析。预推理可以多次取平均。预推理过程可进行交叉注意力的加速。预推理过程中只记录去噪过程中的迭代计算结果的散度。预推理不进行量化操作。分组策略针对迭代计算的次数，而不是神经网络的层数。需要指出的是，本发明提供的注意力计算加速手段和分级量化方法，可利用在一切与迭代计算的方法中，在模型给定的条件下，针对迭代次数进行分组量化，减少数据量和计算量，加速推理过程。

参见图9所示，本发明实施例公开了一种图像生成装置，包括：

推理模块11，用于将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果；所述第一输入数据包括第一噪声和第一文本信息；

散度计算模块12，用于基于相邻两次迭代的输出结果计算散度，得到散度序列；

散度分组模块13，用于对所述散度序列进行分组以得到散度组；

参数量化模块14，用于依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段；

图像生成模块15，用于基于第二输入数据以及参数量化后的目标扩散模型生成图像；所述第二输入数据包括第二噪声和第二文本信息。

可见，本发明实施例先将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果，所述第一输入数据包括第一噪声和第一文本信息，之后基于相邻两次迭代的输出结果计算散度，得到散度序列，对所述散度序列进行分组以得到散度组，并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段，最后基于第二输入数据以及参数量化后的目标扩散模型生成图像，所述第二输入数据包括第二噪声和第二文本信息。也即，本发明在利用扩散模型生成图像之前，先利用扩散模型进行预推理，得到每次迭代的输出结果，计算散度得到散度序列，基于对散度序列的分组实现了对模型推理过程按照迭代次数划分推理阶段，然后基于依次对不同推理阶段的模型参数进行量化，基于参数量化后的目标扩散模型生成图像。这样，针对迭代次数对扩散模型的模型参数进行分阶段量化，减少数据量和计算量，能够提升模型推理速度，进而提升图像的生成效率。

其中，散度计算模块12，具体用于基于散度系数以及相邻两次迭代的输出结果计算散度；其中，所述散度系数随着迭代次数的演进而降低。

并且，散度计算模块12，具体用于基于迭代次数和自然指数确定散度系数；基于散度系数以及相邻两次迭代的输出结果计算散度。

进一步的，散度计算模块12，具体用于基于预设散度计算公式以及相邻两次迭代的输出结果计算散度；预设散度计算公式为：

；

散度分组模块13，具体用于基于自然裂点法确定所述散度序列的自然裂点；基于所述自然裂点对所述散度序列进行分组以得到散度组。

参数量化模块14，具体用于基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化。

在一种实施方式中，散度分组模块13，用于对所述散度序列进行分组，得到三个散度组；其中，第一散度组包括T至N次迭代对应的散度，第二散度组包括N-1到M次迭代对应的散度，第三散度组包括M-1至1次迭代的散度，其中，T大于N大于M。相应的，参数量化模块14，具体用于基于第一量化策略对第一散度组对应的推理阶段中的目标扩散模型进行参数量化；基于第二量化策略对第二散度组对应的推理阶段中的目标扩散模型进行参数量化；基于第三量化策略对第三散度组对应的推理阶段中的目标扩散模型进行参数量化。

其中，所述第一量化策略、所述第二量化策略以及所述第三量化策略对应的精度依次递增。

在一种实施方式中，所述第一量化策略将模型参数量化为4至8比特表示指数、0至4比特表示小数的数据。所述第二量化策略将模型参数量化为8比特表示指数、4至7比特表示小数的数据。所述第三量化策略将模型参数量化为8比特表示指数、7至23比特表示小数的数据。

进一步的，所述装置还用于，在所述将第一输入数据输入至目标扩散模型进行推理之前，生成均匀分布的噪声，得到第一噪声；获取第一文本信息，并将所述第一文本信息和所述第一噪声确定为第一输入数据。

在一种实施方式中，推理模块11，具体用于将第一输入数据多次输入至目标扩散模型进行推理，并在每次推理过程中获取每次迭代的输出结果。相应的，散度计算模块12，具体用于计算多次推理过程中每次迭代的输出结果均值；基于相邻两次迭代的输出结果均值计算散度，得到散度序列。

其中，目标扩散模型进行推理的过程，包括：

目标扩散模型中注意力计算公式为：

；

在一种实施方式中，目标扩散模型可以为稳定扩散模型。

参见图10所示，本发明实施例公开了一种电子设备20，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，以实现以下步骤：

将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果；所述第一输入数据包括第一噪声和第一文本信息；基于相邻两次迭代的输出结果计算散度，得到散度序列；对所述散度序列进行分组以得到散度组，并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化；所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段；基于第二输入数据以及参数量化后的目标扩散模型生成图像；所述第二输入数据包括第二噪声和第二文本信息。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：基于散度系数以及相邻两次迭代的输出结果计算散度；其中，所述散度系数随着迭代次数的演进而降低。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：基于迭代次数和自然指数确定散度系数；基于散度系数以及相邻两次迭代的输出结果计算散度。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：基于预设散度计算公式以及相邻两次迭代的输出结果计算散度；预设散度计算公式为：

；

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：基于自然裂点法确定所述散度序列的自然裂点；基于所述自然裂点对所述散度序列进行分组以得到散度组。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：对所述散度序列进行分组，得到三个散度组；

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：基于第一量化策略对第一散度组对应的推理阶段中的目标扩散模型进行参数量化；基于第二量化策略对第二散度组对应的推理阶段中的目标扩散模型进行参数量化；基于第三量化策略对第三散度组对应的推理阶段中的目标扩散模型进行参数量化。所述第一量化策略、所述第二量化策略以及所述第三量化策略对应的精度依次递增。所述第一量化策略将模型参数量化为4至8比特表示指数、0至4比特表示小数的数据。所述第二量化策略将模型参数量化为8比特表示指数、4至7比特表示小数的数据。所述第三量化策略将模型参数量化为8比特表示指数、7至23比特表示小数的数据。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：生成均匀分布的噪声，得到第一噪声；获取第一文本信息，并将所述第一文本信息和所述第一噪声确定为第一输入数据。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：将第一输入数据多次输入至目标扩散模型进行推理，并在每次推理过程中获取每次迭代的输出结果。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：计算多次推理过程中每次迭代的输出结果均值；基于相邻两次迭代的输出结果均值计算散度，得到散度序列。

本实施例中，所述处理器21执行所述存储器22中保存的计算机子程序时，可以具体实现以下步骤：对所述第一噪声编码以得到查询矩阵，对所述第一文本信息编码以得到键矩阵和值矩阵；基于预设多头注意力机制以及所述查询矩阵、所述键矩阵、所述值矩阵确定注意力，基于所述注意力以及U型网络模型进行去噪，得到潜变量，作为本次迭代的输出结果。

目标扩散模型中注意力计算公式为：

；

其中，目标扩散模型可以为稳定扩散模型。

并且，所述存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26；其中，所述电源23用于为所述电子设备20上的各硬件设备提供工作电压；所述通信接口24能够为所述电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

进一步的，本发明实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的图像生成方法。

关于上述图像生成方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种图像生成方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像生成方法，其特征在于，包括：

基于相邻两次迭代的输出结果计算散度，得到散度序列；

2.根据权利要求1所述的图像生成方法，其特征在于，所述基于相邻两次迭代的输出结果计算散度，包括：

3.根据权利要求2所述的图像生成方法，其特征在于，所述基于散度系数以及相邻两次迭代的输出结果计算散度，包括：

基于迭代次数和自然指数确定散度系数；

基于散度系数以及相邻两次迭代的输出结果计算散度。

4.根据权利要求3所述的图像生成方法，其特征在于，所述基于相邻两次迭代的输出结果计算散度，包括：

；

5.根据权利要求1所述的图像生成方法，其特征在于，对所述散度序列进行分组以得到散度组，包括：

基于自然裂点法确定所述散度序列的自然裂点；

基于所述自然裂点对所述散度序列进行分组以得到散度组。

6.根据权利要求1所述的图像生成方法，其特征在于，所述依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化，包括：

7.根据权利要求6所述的图像生成方法，其特征在于，所述对所述散度序列进行分组以得到散度组，包括：

对所述散度序列进行分组，得到三个散度组；

8.根据权利要求7所述的图像生成方法，其特征在于，所述基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化，包括：

9.根据权利要求8所述的图像生成方法，其特征在于，所述第一量化策略、所述第二量化策略以及所述第三量化策略对应的精度依次递增。

10.根据权利要求8所述的图像生成方法，其特征在于，所述第一量化策略将模型参数量化为4至8比特表示指数、0至4比特表示小数的数据。

11.根据权利要求8所述的图像生成方法，其特征在于，所述第二量化策略将模型参数量化为8比特表示指数、4至7比特表示小数的数据。

12.根据权利要求8所述的图像生成方法，其特征在于，所述第三量化策略将模型参数量化为8比特表示指数、7至23比特表示小数的数据。

13.根据权利要求1所述的图像生成方法，其特征在于，在所述将第一输入数据输入至目标扩散模型进行推理之前，还包括：

生成均匀分布的噪声，得到第一噪声；

14.根据权利要求1所述的图像生成方法，其特征在于，将第一输入数据输入至目标扩散模型进行推理，并在推理过程中获取每次迭代的输出结果，包括：

15.根据权利要求14所述的图像生成方法，其特征在于，所述基于相邻两次迭代的输出结果计算散度，得到散度序列，包括：

计算多次推理过程中每次迭代的输出结果均值；

16.根据权利要求1所述的图像生成方法，其特征在于，目标扩散模型进行推理的过程，包括：

基于预设多头注意力机制以及所述查询矩阵、所述键矩阵、所述值矩阵确定注意力；

17.根据权利要求16所述的图像生成方法，其特征在于，目标扩散模型中注意力计算公式为：

；

18.根据权利要求17所述的图像生成方法，其特征在于，h为D的1/2。

19.根据权利要求1所述的图像生成方法，其特征在于，目标扩散模型为稳定扩散模型。

20.一种图像生成装置，其特征在于，包括：

21.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至19任一项所述的图像生成方法。

22.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至19任一项所述的图像生成方法。