CN117521672A

CN117521672A - 一种基于扩散模型的长文本生成连续图片的方法

Info

Publication number: CN117521672A
Application number: CN202311778730.XA
Authority: CN
Inventors: 黄尚戎; 周静怡
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-02-06

Abstract

本发明提供一种基于扩散模型的长文本生成连续图片的方法，包括将待处理长文本输入到文本分割器，输出包含多个句子的分割语句文本，将分割语句文本输入到故事编码器模块，将分割语句文本映射为低维嵌入向量，将低维嵌入向量输入到文本编码器模块，通过文本编码器在多个时间步的更新，输出生成图像需要的所有必要信息，依次将生成的信息和随机生成的噪声图片输入到包含ControlNet网络扩展的扩散网络模型中，输出待处理的与长文本对应的低维空间的连续图片，将低维空间的连续图片输入到变分自编码器的解码器模块，得到包含连续图片的全尺寸图像。本方法打破单句文本生成单张图片的限制，针对长短复杂文本生成相应带有逻辑性图片。该方法可以应用于自动生成儿童故事绘本，影视脚本分镜图像生成等。

Description

一种基于扩散模型的长文本生成连续图片的方法

技术领域

本发明涉及自然语言处理和计算机视觉领域，具体涉及一种基于扩散模型从一段长文本中生成对应的多张连续图片的方法。

背景技术

近年来，结合图像和文本的跨模态研究越来越多地引起自然语言处理和机器视觉领域学者的关注。其中文本生成图像是多模态机器学习的任务之一。文本生成图像是指将人类以关键词或句子形式的文本描述生成符合文本语义的图像的计算方法。文本自动图像生成可以帮助艺术家或平面设计师的减轻大量工作，也可以让用户自由发挥创作空间。

通过自然语言描述引导图像生成一直是图像生成领域的具有良好前景的发展方向，目前该领域的研究也取得了很大的进步和成果。比如VAE方法以一种统计方法进行建模最大化数据的最小可能性来生成图像，而DRAW方法使用了循环神经网络，并利用注意力机制，每一步关注一个生成对象，依次生成并叠加出最终结果。基于GAN生成对抗网络的方法，在后期逐渐成为主流。基于扩散模型的图片生成，和其他生成网络不同的是,扩散模型在前向阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。

但针对长文本中生成对应的多张连续图片的技术研究相对较少，仍然存在以下问题：

1.模型无法完全理解文本语义，不能很好地关联图片内容和文本，大部分模型输入是简单句，对于复杂长文本难以很好地在图片中将信息表达完善，上下文信息获取不佳。

2.只能根据简单句生成单张图片，对于复杂文本的理解表现欠佳。对于一段内容丰富的文本也只能生成一张图片，不能生成连续多张图片。

3.无法更新上下文信息以有效地捕获背景变化；无法在生成每幅图像时结合新的输入和随机噪声，以形象化字符的变化，这些变化可能会导致图像生成时发生很大的变化。

4.在文本生成图像过程中，无法多图像生成进行其他方面的条件约束，只能依赖文本条件进行图像生成。

因此本发明从解决以上问题入手，提出一种可以从复杂长段文本中生成一系列有逻辑性的连续图片的方法。该方法可以实际中应用在多个领域，如从儿童故事中自动生成儿童绘本，从剧本描述中自动生成镜头画面等。

发明内容

为解决现有技术中存在的上述缺陷，本发明的目的在于提供一种基于扩散模型的长文本生成连续图片的方法，通过对长文本的分析处理，从长段文本中生成一系列连续图片。

根据本发明的第一方面，提供一种基于扩散模型的长文本生成连续图片的方法，包括：

步骤10：将待处理长文本输入到文本分割器，输出包含多个句子的分割语句文本S，包括t个句子。

步骤20：将分割语句文本S输入到故事编码器模块，将分割语句文本S映射为低维嵌入向量h₀。

步骤30：将低维嵌入向量h₀输入到文本编码器模块，每个时间步对应处理一个句子，通过文本编码器在多个时间步的更新，在t时刻输出该时刻生成图像需要的所有必要信息o_t。

步骤40：依次将t时刻生成的o_t和随机生成的噪声图片输入到包含ControlNet网络扩展的扩散网络模型中，输出待处理的与长文本对应的低维空间的连续图片x_t。

步骤50：将低维空间的连续图片x_t输入到变分自编码器的解码器模块，输出全尺寸图像X_t。

在步骤40中，包含ControlNet网络扩展的扩散网络模型包括：语言图片信息模型τθ，条件时序去噪编码器ControlNet网络扩展。

语言图片模型τθ包含一个图片编码器和一个文字编码器，将输入的o_t，进行语言图片信息转换后，输出中间表示τθ(o_t)。

条件时序去噪编码器将输入的中间表示τθ(o_t)，通过多头交叉注意力机制映射到U-Net主干网络，从而实现条件控制U-Net主干网络，输出潜在空间内的图片信息x_t1。

ControlNet网络扩展将一组其他控制条件cf经过可训练副本模型处理得到图片信息x_t2，再将输入的x_t1与x_t2进行组合，输出图片信息x_t。

条件时序去噪编码器包括多头交叉注意力机制模块、U-Net主干网络、采样器。

多头交叉注意力机制模块输入τθ(o_t)，根据嵌入向量得到Q，K，V三个向量，再经过计算得到最终输出隐变量Attention(Q,K,V)，其输出传入每一个残差网络模块中，并通过残差链接跳跃至后面对应的残差网络模块中，具体处理过程为：

φ_i(Z_t)是U-Net主干网络的中间表示,τθ(o_t)是通过语言图片转换得出的中间表示，可训练参数矩阵

U-net主干网络的输入是随机加噪图和噪声强度，输出是减去加噪图上所加的噪声后的图片信息x_t1。U-Net主干网络包括多个Resnet残差网络模块；每一层残差网络模块的输入都是上一层的交叉注意力层输出的隐变量Attention(Q,K,V)和时间序列向量，隐变量经过卷积变换后和经过全连接投影的时间序列向量做加和，再和经过残差链接的原始隐向量做加和，再经卷积层处理得到经残差网络编码变换后的隐变量输出。

采样器是负责条件时序去噪编码器的正向扩散过程和反向扩散过程。

条件时序去噪编码器是通过正向扩散过程和反向扩散过程进行训练的，训练步骤包括：步骤401正向扩散过程，为训练过程采集训练样本数据集，步骤402反向扩散过程，训练U-Net主干网络。

步骤401包括：收集一系列样本图像，用变分自编码器的编码器压缩至低维空间；正向扩散过程在样本图像x₀上逐步增加高斯噪声,每一步得到的图像x_d只和上一步的结果x_d-1相关,直至第D步的图像x_D变为纯高斯噪声，该过程将产生一系列噪声图像样本x₁,…,x_D；也就是说每一时间步的x_d是从一个，以为均值，β_t为方差的高斯分布中采样得到的。Β_d是方差，是一系列固定的值，且β₁<β₂<···<β_D。增加高斯噪声的过程为马尔科夫过程,满足：

给定α_d＝1-β_d,结合①②得出/> 用以对x_d进行训练样本采集。

q表示条件分布概率函数，即在已知x0的情况下xd的概率，其中β_d是方差，其中βd∈(0,1),d∈[1,D]是一系列固定的值，I是单位矩阵，为高斯分布符号，表示条件概率服从高斯分布。

步骤402包括：经过正向扩散扩散过程得到的训练样本集包括：噪声强度、噪声图像样本、噪声图；训练后得到的U-Net主干网络，在已知噪声强度的条件下，根据噪声图像中计算出噪声图；生成图片时，用噪声图像减掉噪声图恢复出原图；反向扩散过程的训练目标函数为：

z₀＝E(x₀)

其中，z₀是经过压缩编码的原始图像，z_t是加噪图像，t是时间步长即加噪次数。ε是独立同分布标准正态随机变量；是目标值，/>是条件时序去噪自编码器的处理结果，E表示数学期望即平均值；U-Net主干网络增加条件输入θ(ot)，语言图片模型τθ和条件时序去噪编码器/>是基于L_LDM1联合训练的。

ControlNet网络扩展对图像生成进行多条件控制，即除文字条件控制生成图片的同时，还通过包含线稿和深度图的条件控制生成图片；ControlNet网络扩展的组建步骤包括：步骤403克隆预训练模型，步骤404定义输入条件，步骤405训练可训练副本，步骤406合并训练，步骤407合并输出。

步骤403包括：创建上述预训练过的时序去噪编码器的两个副本，其中一个是“锁定”的，不能被修改，而另一个是“可训练”的，可以在特定任务上进行微调。

步骤404包括：定义一组输入条件cf，用以控制整个包含ControlNet网络扩展的扩散网络模型的输出；输入条件包括：颜色方案、对象类别、用户涂鸦、边缘映射、分割映射、pose关键点。

步骤405包括：根据应用场景收集并制作对应的图像数据集，该数据集基于输入条件对可训练副本进行训练。

步骤406包括：合并训练，训练流程与时序去噪编码器训练流程相同；其中，ControlNet网络扩展训练过程中将50％的文本提示随机替换为空字符串；训练的目标函数为：

c_t＝θ(o_t)

其中c_f是特定的其他条件，t是时间步长。

步骤406包括：将两个模型副本的输出组合起来，输出最终结果x_t。

进一步地，本发明所提供的方法，步骤10中，文本分割器的作用在于合理切割长文本的同时，不破坏语义信息；文本分割器包括：前向LSTM层、后向LSTM层、sigmod激活函数层。

其中，前向LSTM层将输入的第一句分割文本从前往后传递嵌入第一个句子结尾的模式，输出嵌入1；后向LSTM层将输入的第二句分割文本从后往前传递嵌入第二个句子开头的模式，输出嵌入2；将嵌入1和嵌入2连接起来输入sigmod激活函数层，输出结果如果大于0.5则决定分割两个句子，依次读入长文本句子，即可针对长文本进行分割，可分割为t句输出分割后的文本S。

文本分割器通过训练得到，训练过程包括：步骤101创建数据集，步骤102搭建模型结构，步骤103优化模型参数。

步骤101包括：分别创建正例和负例的数据集；正例是应该被分割开的两个句子，句子中间以“\n”分割；负例是应该被合并的两个句子，句子之间没有“\n”；所有正例和负例随机划分训练集和验证集。

步骤102包括：搭建前向LSTM层、后向LSTM层，将输出的嵌入1和嵌入2连接起来；采用sigmoid函数作为激活函数，确定损失函数为：其中/>是sigmoid函数输出值，代表预测样本是正例的概率，y是样本标签，如果样本属于正例，取值为0，否则取值为1。

步骤103包括：使用梯度下降求解，通过找到求导找到损失函数最快下降的方向，逐渐逼近最优解模型。

进一步地，本发明所提供的方法，步骤20中，故事编码器的作用是将S随机映射到一个低维的向量空间，得到的向量h₀不仅包含了S全部的信息，同时还作为文本编码器隐状态的初始值；故事编码器模块包括：词向量嵌入模型；其训练过程包括：步骤201预处理文本数据集，步骤202确定训练参数，步骤203训练并优化模型参数，步骤204获取词向量表示。

步骤201包括：对输入的文本去除所有停顿符号，进行jieba分词，同时生成一个词汇表，每个词统计词频，按照词频从高到低排序，取最频繁的V个词，构成一个词汇表，每个词存在一个one-hot词向量，词向量的维度是V，如果该词在词汇表中出现过，则词向量中词汇表中对应的位置为1，其他位置全为0，如果该词在词汇表中不出现，则词向量为全0；确定词向量的维数N。

步骤202包括：确定窗口大小window，对每个词生成2×window个训练样本；确定batch_size的大小为2×window的整数倍，以确保每个batch包含了一个词汇对应的所有样本，确定负样本数量，默认为5个，创建Embedding矩阵和Context矩阵，设置矩阵行数为词汇表的大小V，列数为词向量的维度N，并进行随机初始化。

步骤203包括：计算输入嵌入与每个上下文嵌入的点积，再用sigmoid函数生成[0,1]的输出。

步骤204包括：使用经多次迭代训练后的文本分割器，得到每个词语的词向量表示，从而获得整个故事文本对应的低维嵌入向量h₀。

进一步地，本发明所提供的方法，步骤30中，文本编码器模块包括两层结构：第一层是GRU单元，第二层是Text2Gist单元；文本编码器模块的处理过程为：

o_t,h_t＝Text2Gist(i_t,h_t-1)

GRU单元在第t时间步，将句子s_t，等距高斯噪声以及第t-1个GRU记忆单元的值gt-1作为输入，并输出向量i_t和第t个GRU记忆单元的值gt。

Text2Gist单元将向量i_t与故事语境向量h_t作为输入，并输出o_t；o_t编码了在第t时间步生成图像需要的所有必要信息，h_t初始值来为h₀，由Text2Gist更新，以反映潜在的语境信息变化，g_t的初始状态g₀采样自等距高斯分布。

其中Text2Gist详细的更新过程为：

z_t＝σ_z(W_zi_t+U_zh_t-1+b_z)

r_t＝σ_r(W_ri_t+U_rh_t-1+b_r

h_t＝(1-z_t)⊙h_t-1+z_t⊙σ_h(W_hi_t+U_h(r_t⊙h_t-1)+b_h)

o_t＝Filter(i_t)h_t

Filter(·)将向量i_t转换为多通道过滤器，σ_z、σ_r和σ_h是非线性sigmoid函数，W与U是权重参数，b是偏置参数。⊙表示矩阵乘积。

进一步地，本发明所提供的方法，其特征在于，步骤50中，变分自编码器包括编码器模块和解码器模块；编码器模块用于模型训练阶段，将全尺寸图像在低维潜在空间进行编码；解码器将输入的x_t解码，将潜在空间的数据还原，输出全尺寸图像X_t。

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行第一方面的方法。

根据本发明的第三方面，提供一种计算机可读存储介质，其特征在于，存储有指令，所述指令被处理器执行时，执行第一方面的方法。

与现有技术相比，本发明所构思的上述技术方案至少具有以下有益效果：

1、图像是根据文本信息实时生成的，而不是根据文本匹配图像库的中的图像，其多元性和可玩性大大增加。

2、大多数文生图工具只能根据一句简单文本prompt生成单张图片，如：一个穿红裙子的小女孩。本方法可根据多句文本，长段文本生成多张对应图片，如：一个穿红裙子的小女孩，开心地在捉蝴蝶，阳光洒在草地上非常美丽，她家的小狗开始呼唤她，原来是妈妈叫她回家吃饭了。模型可以根据以上信息中角色，动作，和场景的变化正确地断句并分别生成图片诠释故事。

3、Conrtrolnet网络的增加，使人物动作，环境等生成可控性大大增加，保证了图像生成对特定对象的安全性。

4、扩散模型作为新的图像生成方案正在逐渐崭露头角，相比于传统的GAN神经网络，它具有更好的稳定性和可控性，并且可以通过最小化凸回归损失来更加有效地解决GAN训练中的鞍点问题。同时，其简单易懂的数学公式也让其在理论上更加具有优势。

本发明最终可使长文本自动生成相应的连续图像，在儿童故事生成儿童绘本的应用中，应用场景如：给一篇儿童故事自动生成相应儿童绘本图片，减轻插画师的工作；也可以实时进行交互，即兴讲述一个儿童故事，该模型可以在讲述的同时读入文本并生成文本相对应的图片辅助儿童理解。可选的扩展网络ControlNet支持控制生成图像中人物动作，环境背景，图像色彩，图像边缘等，在生成儿童绘本时，其可控性大大增加。除此以外，本发明还可应用于剧本分镜头图像生成，短视频配音图像生成等领域。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的基于扩散模型的长文本生成连续图片流程图。

图2是根据一示例性实施例示出的残差网络结构图。

图3是根据一示例性实施例示出的残差网络结构图。

图4是根据一示例性实施例示出的长文本生成图片示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

术语解释：

扩散模型(Diffusion model):扩散模型是深度生成模型，扩散模型包括两个过程：正向扩散过程和反向扩散过程，两种过程都是一个参数化的马尔可夫链(Markovchain)，其中反向扩散过程可以用来生成数据，也是扩散模型可以用于生成图片的底层原理所在。

交叉注意力机制：交叉注意力机制是一种在一些现代自然语言处理(NLP)任务的架构中使用的机制，如Transformer模型。交叉注意力的思想是使一个序列能够“关注”另一个序列。在许多场景中，这可能很有用，例如在机器翻译中，将输入序列(源语言)的部分与输出序列(目标语言)的部分对齐是有益的。交叉注意力的机制与Transformer模型中使用的自注意力机制非常相似，但是交叉注意力是一个序列关注另一个序列，而不是自己。

RNN循环神经网络：RNN的思想是利用序列化的信息。在传统的神经网络中，我们假设所有输入和输出彼此独立。但对于许多任务而言，这个假设有问题。例如你想预测句子中的下一个单词，就需要知道它前面有哪些单词。之所以被称为循环，因为它对序列列的每个元素执行相同的任务，并且基于先前的计算进行输出。RNN的另一个优点是它具有“记忆”，它可以收集到目前为止已经计算的信息。RNN在许多NLP任务(如语言模型和文本生成)中取得了巨大成功。

U-net网络结构：U-net网络结构与FCN网络结构相似，也是分为下采样阶段和上采样阶段，网络结构中只有卷积层和池化层，没有全连接层，网络中较浅的高分辨率层用来解决像素定位的问题，较深的层用来解决像素分类的问题，从而可以实现图像语义级别的分割。在U-net的结构中，包括捕获一个上下文信息的收缩路径和一个允许精确定位的对称拓展路径。这种方法可以使用非常少的数据完成端到端的训练。U-net最初应用于医学图像分割，在本发明中是扩散模型的主体，用来实现文本引导下的图像生成。

LSTM：全称Long Short Term Memory(长短期记忆)是一种特殊的递归神经网络。这种网络与一般的前馈神经网络不同，LSTM可以利用时间序列对输入进行分析；对于自然语言处理这样的数据时，合理运用t或之前的输入来处理t+n时刻显然可以更加合理的运用输入的信息。

ControlNet网络：ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。它提供了一种增强稳定扩散的方法，在文本到图像生成过程中使用额外条件输入，如涂鸦、边缘映射、分割映射、pose关键点等。

Jieba分词：jieba是一个强大的中文分词库，的主要功能是做中文分词，可以进行简单分词、并行分词、命令行分词，当然它的功能不限于此，目前还支持关键词提取、词性标注、词位置查询等。

本发明提出的一种基于扩散模型的长文本生成连续图片的方法，包括：

步骤10：将待处理长文本输入到文本分割器，输出分割语句文本S，共t句。

步骤20：将分割语句文本S输入到故事编码器模块，输出从故事S映射到低维嵌入向量h0。

步骤30：将低维嵌入向量h₀输入到文本编码器模块，通过文本编码器在多个时间步的更新，每一时刻t都会输出含有t时刻生成图像所需的所有信息的o_t。

步骤50：将低维空间的连续图片x_t输入到变分自编码器的解码器模块，输出全尺寸图像Xt。

步骤10中：文本分割器的作用在于合理切割长文本的同时，不破坏语义信息。

文本分割器包括：前向LSTM层、后向LSTM层、sigmod激活函数层。

前向LSTM层将输入的第一句分割文本从前往后传递嵌入第一个句子结尾的模式，输出嵌入1。

后向LSTM层将输入的第二句分割文本从后往前传递嵌入第二个句子开头的模式，输出嵌入2。

将嵌入1和嵌入2连接起来输入sigmod激活函数层，输出结果是否大于0.5即决定是否分割两个句子，依次读入长文本句子，即可针对长文本进行分割，可分割为t句输出分割后的文本S。

文本分割器通过训练得到，训练过程包括：步骤1创建数据集，步骤2搭建模型结构，步骤3优化模型参数。

步骤1创建数据集包括：分别创建正例和负例的数据集。正例是应该被分割开的两个句子，中间以“\n”分割。负例是应该被合并的两个句子，它们之间没有“\n”。所有正例和负例随机划分训练集和验证集。

步骤2搭建模型结构：搭建前向LSTM层、后向LSTM层。将输出的两个嵌入连接起来。采用sigmoid函数作为激活函数，其输出是模型预测样本是正例的概率，范围为[0,1]。确定损失函数为：/>其中/>是sigmoid函数输出值，y是样本标签，如果样本属于正例，取值为0，否则取值为1。

步骤3优化模型参数：使用梯度下降求解，通过找到求导找到损失函数最快下降的方向，逐渐逼近最优解模型。

步骤20中：故事编码器的作用是将S随机映射到一个低维的向量空间，得到的向量h0不仅包含了S全部的信息，同时还作为文本编码器隐状态的初始值。

故事编码器模块包括：词向量嵌入模型；其训练过程包括：步骤1:构建数据集，步骤2:定义损失函数，步骤3:优化模型参数，步骤4:获取词向量表示。

步骤1:预处理文本数据集：对输入的文本去除所有停顿符号，进行jieba分词。同时生成一个词汇表，每个词统计词频，按照词频从高到低排序，取最频繁的V个词，构成一个词汇表。每个词存在一个one-hot向量，向量的维度是V，如果该词在词汇表中出现过，则向量中词汇表中对应的位置为1，其他位置全为0。如果词汇表中不出现，则向量为全0。确定词向量的维数N。

步骤2:确定训练参数：确定窗口大小window，对每个词生成2*window个训练样本，(i,i-window)，(i,i-window+1)，...，(i,i+window-1)，(i,i+window)；确定batch_size，batch_size的大小必须是2*window的整数倍，这确保每个batch包含了一个词汇对应的所有样本。确定负样本数量，默认为5个。创建两个矩阵——Embedding矩阵和Context矩阵，行数＝词汇表的大小V，列数＝词向量的维度N，并进行随机初始化。

步骤3:训练并优化模型参数：计算输入嵌入与每个上下文嵌入的点积(向量之间的点积)，在用sigmoid函数生成[0,1]的输出。

步骤4:获取词向量表示。经过多次迭代训练后，模型可以得到每个词语的向量表示。从而获得整个故事文本的向量表示h₀。

步骤30中：文本编码器模块包括：一层标准的GRU单元，另一层是GRU的变体Text2Gist。其更新公式如下所示：

o_t,h_t＝Text2Gist(i_t,h_t-1)

GRU层在时间步t，将句子s_t，等距高斯噪声以及GRU记忆单元的值gt-1作为输入，并输出向量it和值gt。

Text2Gist单元将向量i_t与故事语境向量h_t作为输入，并输出o_t。o_t编码了在时间步t需要生成图像的所有必要信息。h_t初始值来自故事编码器为h₀由Text2Gist更新，以反映潜在的语境信息变化。g_t的初始状态g₀是采样自等距高斯分布。

其中Text2Gist详细的更新公式如下所示：

z_t＝σ_z(W_zi_t+U_zh_t-1+b_z)

r_t＝σ_r(W_ri_t+U_rh_t-1+b_r

h_t＝(1-z_t)⊙h_t-1+z_t⊙σ_h(W_hi_t+U_h(r_t⊙h_t-1)+b_h)

o_t＝Filter(i_t)h_tFilter(·)将向量i_t转换为多通道过滤器，σ_z、σ_r和σ_h是非线性sigmoid函数，W与U是权重参数，b是偏置参数。表示矩阵乘积。⊙表示矩阵乘积。

步骤40中：包含ControlNet网络扩展的扩散网络模型包括：语言图片信息模型τθ，条件时序去噪编码器，controlnet网络扩展。

语言图片模型τθ将输入的包含图像所有必要信息的ot，进行语言图片信息转换后输出中间表示τθ(ot)。

条件时序去噪编码器将输入的中间表示τθ(ot)，通过多头交叉注意力机制映射到U-Net主干网络，从而实现条件控制U-net网络，输出潜在空间内的图片信息xt1。

controlnet网络扩展将输入的一组其他控制条件c_f经过可训练副本模型输出图片信息x_t2，将输入的x_t1的x_t2进行组合输出图片信息x_t。

以上各模块得出方式如下：

语言图片信息转换模型τθ即通过相似度计算以及梯度下降法等标准神经网络训练流程训练模型得到，包含一个图片编码器Encoder和一个文字编码器Encoder。

条件时序去噪编码器包括多头交叉注意力机制模块、U-net主干网络(由残差网络构成)和采样器。

多头交叉注意力机制模块的输入是τθ(ot)，根据嵌入向量得到q，k，v三个向量，再经过计算得到最终输出结果Attention(Q,K,V)，其输出传入每一个残差网络模块中，并通过残差链接跳跃至后面对应的残差网络中。其实现公式如下：

这里φ_i(Z_t)是UNet的中间表示,τ_θ(o_t)是通过语言图片转换模型得出的中间表示，W是可训练参数矩阵

U-net主干网络的输入是随机加噪图和噪声强度，输出是减去加噪图上所加的噪声后的图像信息x_t1。整个unet是由一系列Resnet残差网络构成的。残差网络每一层的输入都是上一层的交叉注意力层输出的隐变量Attention(Q,K,V)和时间序列向量，隐变量经过卷积变换后和经过全连接投影的时间序列向量做加和，再和经过残差链接的原始隐向量做加和，送入另一个卷积层，得到经残差网络编码变换后的隐变量输出。

调度器是负责整个扩散模型的前向和后向传播的，其输入是模型的中间输出结果和扩散过程正在迭代的样本，输出是返回去噪样本的时间步长。它的主要功能是在根据设定好的数学规则和实践步的数量，在训练和推理阶段进行处理和及时反馈。

整个条件时序去噪编码器是通过正向扩散过程和反向扩散过程进行训练的。训练步骤包括：1.构建数据集，即正向扩散过程。2.训练模型，即反向扩散过程。

为训练过程设计训练样本(数据集)，即正向扩散过程。收集一系列相关样本图像，用变分自编码器的编码器压缩至低维空间。正向阶段在样本图像X₀上逐步增加噪声,每一步得到的图像X_t只和上一步的结果X_t-1相关,直至第T步的图像X_T变为纯高斯噪声。该过程将产生一系列噪声图像样本x₁,…,x_T。也就是说每一时间步的x_d是从一个，以为均值，β_d为方差的高斯分布中采样得到的。Β_d是方差，是一系列固定的值，且β₁<β₂<···<β_D。增加高斯噪声的过程为马尔科夫过程,满足：

给定α_d＝1-β_d,结合①②即推导出/> ③可对x_d进行训练样本采集。

q是指条件分布概率函数，即在已知x₀的情况下x_d的概率。其中β_d是方差；其中βd∈(0,1),d∈[1,D]是一系列固定的值(可设置D＝1000,β1＝0.0001,βD＝0.02)。I是单位矩阵。③N为高斯分布符号(即正态分布)，这里表示条件概率服从高斯分布。

反向扩散过程，即训练U-net网络。经过正向扩散扩散过程得到一组训练集包括了三样东西：噪声强度，加噪后的图片，以及噪声图。训练的时U-net在已知噪声强度的条件下，学习如何从加噪后的图片中计算出噪声图。生成图片的时候，用加噪图减掉噪声即可恢复出原图。相应的有文字条件的训练目标函数可以写成如下形式：

其中：

z₀＝E(x₀)

其中输入z0是经过压缩编码的原始图像，z_t是加噪图像，t是时间步长即加噪次数。ε是独立同分布标准正态随机变量。是目标值，/>是条件时序去噪自编码器。U-Net增加条件输入τ_θ(o_t)，编码器τθ和/>是通过上述公式联合训练的。

controlnet网络扩展可对图像生成进行多条件控制，可对图像生成进行多条件控制，即除文字条件控制生成图片的同时，还可以通过线稿和深度图等条件控制生成图片，可以达到控制生成图像中的人物动作的目的。其组建步骤包括：步骤1克隆预训练模型，步骤2定义输入条件，步骤3训练可训练副本，步骤4合并训练，步骤5合并输出。

步骤1：克隆预训练模型：ControlNet首先创建了上述预训练过的图像扩散模型的两个副本，其中一个是“锁定”的，不能被修改，而另一个是“可训练”的，可以在特定任务上进行微调。ControlNet使用了一种称为“权重共享”的技术，该技术可以将预训练模型的权重复制到两个不同的神经网络中。这样，在微调可训练副本时，锁定副本仍然保留着从预训练中学到的通用知识，并且可以提供更好的初始状态。

步骤2：定义输入条件：ControlNet然后定义了一组输入条件，可以用来控制模型的输出。这些条件可能包括颜色方案、对象类别或其他特定任务参数。该技术可以将输入条件与预训练模型进行连接，并将其作为额外的输入信息传递给神经网络。这样，在微调可训练副本时，神经网络可以根据这些输入条件来调整输出结果，并更好地适应特定任务。

步骤3：训练可训练副本：ControlNet然后使用反向传播和其他标准训练技术，在特定数据集上对可训练副本进行训练。很自然的就是一个标准的神经网络训练流程。同时还需要确定哪些输入条件对于特定任务是最重要的，并将其与预训练模型进行连接。

步骤4：合并训练。训练流程与时序去噪编码器训练流程相同。增加ControlNet网络扩展后，训练过程中将50％的文本提示随机替换为空字符串。这样做的目的是，当没有文字条件时，编码器能从输入的控制条件中获得更多的语义来代替文字条件。其训练的目标函数为：

c_t＝τ_θ(o_t)

其中c_t是文本条件，c_f是特定的其他条件，t是时间步长。

步骤5：合并输出：最后，ControlNet将两个模型副本的输出组合起来，产生一个最终结果x_t，既包含从原预训练模型中得到的隐变量信息x_t1，也包含从副本模型中得到的隐变量信息x_t2，从而实现文本条件和其他条件共同控制图像生成的目的。

步骤50中：变分自编码器包括编码器模块和解码器模块。编码器模块用于模型训练阶段，将全尺寸图像在低维潜在空间进行编码，数据在低维空间中进行扩散速度更快，计算负荷更小。解码器将输入x_t解码，将潜在空间的数据还原，输出全尺寸图像X_t。

下面结合具体案例进行介绍：

本案例是在儿童绘本生成领域，根据儿童故事文本生成相应的一系列相应故事图画。最终整个模型在完成长文本生成连续图片任务时，如图3所示，其工作流程如下：

1.故事编码器模块story encoder和文本编码器模块context encoder首先对故事进行处理，在进行语句分割的同时，识别任务主体和背景环境的变化。最终生成故事整体信息h₀和每一句分割得到的语义信息o_t作为下一阶段的输入。

2.用语言图片模型τθ将上一阶段得到的语义信息embedding转化为图片信息embedding，使用concat连接输入扩散模型的每一层输入信息中。

3.U-net输出图像，由于模型训练时所使用图片都经过变分自编码器压缩至低维表示，因此生成图像也是低维的。最终经过变分自编码器还原为全尺寸图像。

4.重复上述过程，即可获得o₁至o_t句的故事文本对应的图像。所经历数据流状态如图1所示。

本实施例中其生成图片效果图4所示，用于生成图片的儿童故事文本如下：

在一个晴朗的夏日早晨，两位好朋友小明和小红，决定一同前往河边钓鱼。他们背着渔竿，踏上了一段美丽的徒步路程，途中满眼都是绚丽的景色。碧绿的树木掩映下，五光十色的野花点缀着河岸，鸟儿在天空中欢快飞翔，微风拂过，似乎带着鲜花和青草的芬芳。抵达河边后，他们找到了一个宁静的钓鱼点，开始仔细垂钓。金黄的阳光洒在清澈见底的河水上，倒映着天空和树木的倒影。不久，他们钓到了一些美丽的鱼，其中一条鱼闪闪发光，宛如宝石般美丽。这一天，充满了美丽的景色和友情的温馨，成为了他们宝贵的回忆。

领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于扩散模型的长文本生成连续图片的方法，其特征在于，包括：

步骤10：将待处理长文本输入到文本分割器，输出包含多个句子的分割语句文本S，包括t个句子；

步骤20：将分割语句文本S输入到故事编码器模块，将分割语句文本S映射为低维嵌入向量h₀；

步骤30：将低维嵌入向量h₀输入到文本编码器模块，每个时间步对应处理一个句子，通过文本编码器在多个时间步的更新，在t时刻输出该时刻生成图像需要的所有必要信息o_t；

步骤40：依次将t时刻生成的o_t和随机生成的噪声图片输入到包含ControlNet网络扩展的扩散网络模型中，输出待处理的与长文本对应的低维空间的连续图片x_t；

步骤50：将低维空间的连续图片x_t输入到变分自编码器的解码器模块，输出全尺寸图像X_t；

在步骤40中，包含ControlNet网络扩展的扩散网络模型包括：语言图片信息模型τθ，条件时序去噪编码器U-Net∈_θ，ControlNet网络扩展；

语言图片模型τθ包含一个图片编码器和一个文字编码器，将输入的o_t，进行语言图片信息转换后，输出中间表示τθ(o_t)；

条件时序去噪编码器将输入的中间表示τθ(o_t)，通过多头交叉注意力机制映射到U-Net主干网络，从而实现条件控制U-Net主干网络，输出潜在空间内的图片信息x_t1；

ControlNet网络扩展将一组其他控制条件cf经过可训练副本模型处理得到图片信息x_t2，再将输入的x_t1与x_t2进行组合，输出图片信息x_t；

条件时序去噪编码器包括多头交叉注意力机制模块、U-Net主干网络、采样器；

U-net主干网络的输入是随机加噪图和噪声强度，输出是减去加噪图上所加的噪声后的图片信息x_t1。U-Net主干网络包括多个Resnet残差网络模块；每一层残差网络模块的输入都是上一层的交叉注意力层输出的隐变量Attention(Q,K,V)和时间序列向量，隐变量经过卷积变换后和经过全连接投影的时间序列向量做加和，再和经过残差链接的原始隐向量做加和，再经卷积层处理得到经残差网络编码变换后的隐变量输出；

采样器是负责条件时序去噪编码器的正向扩散过程和反向扩散过程；

条件时序去噪编码器是通过正向扩散过程和反向扩散过程进行训练的，训练步骤包括：步骤401正向扩散过程，为训练过程采集训练样本数据集，步骤402反向扩散过程，训练U-Net主干网络；

步骤401包括：收集一系列样本图像，用变分自编码器的编码器压缩至低维空间；正向扩散过程在样本图像x₀上逐步增加高斯噪声,每一步得到的图像x_d只和上一步的结果x_d-1相关,直至第D步的图像x_D变为纯高斯噪声，该过程将产生一系列噪声图像样本x₁,…,x_D；每一时间步的x_d是从一个，以为均值，βt为方差的高斯分布中采样得到的；Βd是方差，是一系列固定的值，且β1<β2<···<βD；增加高斯噪声的过程为马尔科夫过程,满足：

给定α_d＝1-β_d,结合①②得出/> 用以对x_d进行训练样本采集；

q表示条件分布概率函数，即在已知x₀的情况下x_d的概率，其中β_d是方差，其中βd∈(0,1),d∈[1,D]是一系列固定的值，I是单位矩阵，为高斯分布符号，表示条件概率服从高斯分布；

z₀＝E(x₀)

其中，z₀是经过压缩编码的原始图像，z_t是加噪图像，t是时间步长即加噪次数。ε是独立同分布标准正态随机变量；∈是目标值，∈_θ是条件时序去噪自编码器的处理结果，E表示数学期望即平均值；U-Net主干网络增加条件输入θ(ot)，语言图片模型τθ和条件时序去噪编码器U-Net∈_θ是基于L_LDM1联合训练的；

ControlNet网络扩展对图像生成进行多条件控制，即除文字条件控制生成图片的同时，还通过包含线稿和深度图的条件控制生成图片；ControlNet网络扩展的组建步骤包括：步骤403克隆预训练模型，步骤404定义输入条件，步骤405训练可训练副本，步骤406合并训练，步骤407合并输出；

步骤403包括：创建上述预训练过的时序去噪编码器的两个副本，其中一个是“锁定”的，不能被修改，而另一个是“可训练”的，可以在特定任务上进行微调；

步骤404包括：定义一组输入条件cf，用以控制整个包含ControlNet网络扩展的扩散网络模型的输出；输入条件包括：颜色方案、对象类别、用户涂鸦、边缘映射、分割映射、pose关键点；

步骤405包括：根据应用场景收集并制作对应的图像数据集，该数据集基于输入条件对可训练副本进行训练；

c_t＝θ(o_t)

其中c_f是特定的其他条件，t是时间步长；

2.根据权利要求1所述的方法，其特征在于，步骤10中，文本分割器的作用在于合理切割长文本的同时，不破坏语义信息；文本分割器包括：前向LSTM层、后向LSTM层、sigmod激活函数层；

其中，前向LSTM层将输入的第一句分割文本从前往后传递嵌入第一个句子结尾的模式，输出嵌入1；后向LSTM层将输入的第二句分割文本从后往前传递嵌入第二个句子开头的模式，输出嵌入2；将嵌入1和嵌入2连接起来输入sigmod激活函数层，输出结果如果大于0.5则决定分割两个句子，依次读入长文本句子，即可针对长文本进行分割，可分割为t句输出分割后的文本S；

文本分割器通过训练得到，训练过程包括：步骤101创建数据集，步骤102搭建模型结构，步骤103优化模型参数；

步骤102包括：搭建前向LSTM层、后向LSTM层，将输出的嵌入1和嵌入2连接起来；采用sigmoid函数作为激活函数，确定损失函数为：其中/>是sigmoid函数输出值，代表预测样本是正例的概率，y是样本标签，如果样本属于正例，取值为0，否则取值为1；

3.根据权利要求1所述的方法，其特征在于，步骤20中，故事编码器的作用是将S随机映射到一个低维的向量空间，得到的向量h₀不仅包含了S全部的信息，同时还作为文本编码器隐状态的初始值；故事编码器模块包括：词向量嵌入模型；其训练过程包括：步骤201预处理文本数据集，步骤202确定训练参数，步骤203训练并优化模型参数，步骤204获取词向量表示；

步骤201包括：对输入的文本去除所有停顿符号，进行jieba分词，同时生成一个词汇表，每个词统计词频，按照词频从高到低排序，取最频繁的V个词，构成一个词汇表，每个词存在一个one-hot词向量，词向量的维度是V，如果该词在词汇表中出现过，则词向量中词汇表中对应的位置为1，其他位置全为0，如果该词在词汇表中不出现，则词向量为全0；确定词向量的维数N；

步骤202包括：确定窗口大小window，对每个词生成2×window个训练样本；确定batch_size的大小为2×window的整数倍，以确保每个batch包含了一个词汇对应的所有样本，确定负样本数量，默认为5个，创建Embedding矩阵和Context矩阵，设置矩阵行数为词汇表的大小V，列数为词向量的维度N，并进行随机初始化；

步骤203包括：计算输入嵌入与每个上下文嵌入的点积，再用sigmoid函数生成[0,1]的输出；

4.根据权利要求1所述的方法，其特征在于，步骤30中，文本编码器模块包括两层结构：第一层是GRU单元，第二层是Text2Gist单元；文本编码器模块的处理过程为：

i_t,g_t＝GRU(s_t,∈_t,g_t-1)

o_t,h_t＝Text2Gist(i_t,h_t-1)

GRU单元在第t时间步，将句子s_t，等距高斯噪声∈_t，以及第t-1个GRU记忆单元的值gt-1作为输入，并输出向量i_t和第t个GRU记忆单元的值gt；

Text2Gist单元将向量i_t与故事语境向量h_t作为输入，并输出o_t；o_t编码了在第t时间步生成图像需要的所有必要信息，h_t初始值来为h₀，由Text2Gist更新，以反映潜在的语境信息变化，g_t的初始状态g₀采样自等距高斯分布；

其中Text2Gist详细的更新过程为：

z_t＝σ_z(W_zi_t+U_zh_t-1+b_z)

r_t＝σ_r(W_ri_t+U_rh_t-1+b_r

h_t＝(1-z_t)⊙h_t-1+z_t⊙σ_h(W_hi_t+U_h(r_t⊙h_t-1)+b_h)

o_t＝Filter(i_t)h_t

Filter(·)将向量i_t转换为多通道过滤器，σ_z、σ_r和σ_h是非线性sigmoid函数，W与U是权重参数，b是偏置参数，⊙表示矩阵乘积。

5.根据权利要求1所述的方法，其特征在于，步骤50中，变分自编码器包括编码器模块和解码器模块；编码器模块用于模型训练阶段，将全尺寸图像在低维潜在空间进行编码；解码器将输入的x_t解码，将潜在空间的数据还原，输出全尺寸图像X_t。

6.一种计算机设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于调用所述存储器存储的指令执行以实现权利要求1-5中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，存储有指令，所述指令被处理器执行时，执行权利要求1-5中任一项所述的方法。