CN116452706A

CN116452706A - 演示文稿的图像生成方法及装置

Info

Publication number: CN116452706A
Application number: CN202310444194.3A
Authority: CN
Inventors: 迟爽; 高建华; 骆更; 邓强
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-18

Abstract

本发明提供了一种演示文稿的图像生成方法及装置，可用于金融领域或其他领域。所述方法包括：获取用户端发送的图像生成引导语，并将图像生成引导语输入到预先建立的图像生成模型中；利用所述图像生成模型中的编码器及前序网络，对所述图像生成引导语进行处理，得到多个图像特征；利用所述图像生成模型中的解码器，对所述图像特征进行处理，得到演示文稿图像，并将所述演示文稿图像发送至所述用户端。本发明通过图像生成模型对图像生成引导语进行处理，得到用户所需的演示文稿图像，实现通过文字准确快速生成图像，生成的图像的逼真度和文字信息的匹配度高，使图片生成包含不同分辨率与不同风格能力，处理过程无需迭代，减少计算量，提高工作效率。

Description

演示文稿的图像生成方法及装置

技术领域

本发明涉及图像处理技术领域，尤指一种演示文稿的图像生成方法及装置。

背景技术

现代信息爆炸式增长，PPT等演示文稿中的图片一般采用现有图片插入的方式添加，或者由用户手动绘画得到。由此会导致用户工作效率下降，用户体验不佳等问题。因此，如何更生动形象的表达，随着人工智能不断的渗透到我们的生活中，如何利用人工智能解决工作痛点，提高工作效率是一个重要的课题。

发明内容

针对现有技术中存在的问题，本发明实施例的主要目的在于提供一种演示文稿的图像生成方法及装置，实现通过文字准确快速生成图像，提高工作效率。

为了实现上述目的，本发明实施例提供一种演示文稿的图像生成方法，方法包括：

获取用户端发送的图像生成引导语，并将图像生成引导语输入到预先建立的图像生成模型中；

利用图像生成模型中的编码器及前序网络，对图像生成引导语进行处理，得到多个图像特征；

利用图像生成模型中的解码器，对图像特征进行处理，得到演示文稿图像，并将演示文稿图像发送至用户端。

可选的，在本发明一实施例中，方法还包括：

获取用户端发送的用户指令；

根据用户指令，确定用户指令对应的指令类型；其中，指令类型包括普通演示文稿指令、图像生成边框指令及图像生成引导语指令。

可选的，在本发明一实施例中，方法还包括：

获取用户端发送的指定图像；

根据指定图像及图像生成模型，得到指定图像对应的多个类似图像，并将指定图像及其对应的多个类似图像发送至用户端。

可选的，在本发明一实施例中，方法还包括：

获取用户端反馈的图像选择指令；

根据图像选择指令，从指定图像及其对应的多个类似图像中确定用户选择图像，并对用户选择图像进行保存及发送。

可选的，在本发明一实施例中，利用图像生成模型中的编码器及前序网络，对图像生成引导语进行处理，得到多个图像特征包括：

利用图像生成模型中的编码器，对图像生成引导语进行特征提取处理，得到多个文本特征；

利用图像生成模型中的前序网络，确定文本特征对应的图像特征。

可选的，在本发明一实施例中，利用图像生成模型中的解码器，对图像特征进行处理，得到演示文稿图像包括：

利用图像生成模型中的解码器，对图像特征进行处理，得到多个生成图像；

根据预设的图像生成框，对多个生成图像进行级联处理，得到演示文稿图像。

可选的，在本发明一实施例中，图像生成模型是通过如下步骤建立的：

获取经用户授权的历史图像生成引导语及历史演示文稿图像，并利用历史图像生成引导语及历史演示文稿图像，得到训练样本数据；

利用训练样本数据训练初始文本编码器，得到引导语文本特征，并将引导语文本特征映射到表征空间，得到文本嵌入；

利用训练样本数据训练初始图像编码器，得到图像嵌入，并对文本嵌入及图像嵌入进行空间映射，得到多模态映射空间；

从训练样本数据中选取相似样本数据，并确定相似样本数据对应的余弦相似度，并将余弦相似度作为多模态映射空间中数据分类的预测概率，以完成图像生成模型的建立。

本发明实施例还提供一种演示文稿的图像生成装置，装置包括：

引导语模块，用于获取用户端发送的图像生成引导语，并将图像生成引导语输入到预先建立的图像生成模型中；

图像特征模块，用于利用图像生成模型中的编码器及前序网络，对图像生成引导语进行处理，得到多个图像特征；

图像生成模块，用于利用图像生成模型中的解码器，对图像特征进行处理，得到演示文稿图像，并将演示文稿图像发送至用户端。

可选的，在本发明一实施例中，装置还包括：

用户指令模块，用于获取用户端发送的用户指令；

指令类型模块，用于根据用户指令，确定用户指令对应的指令类型；其中，指令类型包括普通演示文稿指令、图像生成边框指令及图像生成引导语指令。

可选的，在本发明一实施例中，装置还包括：

指定图像模块，用于获取用户端发送的指定图像；

类似图像模块，用于根据指定图像及所述图像生成模型，得到指定图像对应的多个类似图像，并将指定图像及其对应的多个类似图像发送至用户端。

可选的，在本发明一实施例中，装置还包括：

选择指令模块，用于获取用户端反馈的图像选择指令；

选择图像模块，用于根据图像选择指令，从指定图像及其对应的多个类似图像中确定用户选择图像，并对用户选择图像进行保存及发送。

可选的，在本发明一实施例中，图像特征模块包括：

文本特征单元，用于利用图像生成模型中的编码器，对图像生成引导语进行特征提取处理，得到多个文本特征；

图像特征单元，用于利用图像生成模型中的前序网络，确定文本特征对应的图像特征。

可选的，在本发明一实施例中，图像生成模块包括：

生成图像单元，用于利用图像生成模型中的解码器，对图像特征进行处理，得到多个生成图像；

文稿图像单元，用于根据预设的图像生成框，对多个生成图像进行级联处理，得到演示文稿图像。

可选的，在本发明一实施例中，装置还包括：

训练样本模块，用于获取经用户授权的历史图像生成引导语及历史演示文稿图像，并利用历史图像生成引导语及历史演示文稿图像，得到训练样本数据；

文本嵌入模块，用于利用训练样本数据训练初始文本编码器，得到引导语文本特征，并将引导语文本特征映射到表征空间，得到文本嵌入；

图像嵌入模块，用于利用训练样本数据训练初始图像编码器，得到图像嵌入，并对文本嵌入及图像嵌入进行空间映射，得到多模态映射空间；

相似度模块，用于从训练样本数据中选取相似样本数据，并确定相似样本数据对应的余弦相似度，并将余弦相似度作为多模态映射空间中数据分类的预测概率，以完成图像生成模型的建立。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现上述方法。

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有由计算机执行上述方法的计算机程序。

本发明还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述方法的步骤。

本发明通过图像生成模型对图像生成引导语进行处理，得到用户所需的演示文稿图像，实现通过文字准确快速生成图像，生成的图像的逼真度和文字信息的匹配度高，使图片生成包含不同分辨率与不同风格能力，处理过程无需迭代，减少计算量，提高工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种演示文稿的图像生成方法的流程图；

图2为本发明实施例中获取用户指令的流程图；

图3为本发明实施例中生成类似图像的流程图；

图4为本发明实施例中图像选择的流程图；

图5为本发明实施例中得到图像特征的流程图；

图6为本发明实施例中得到演示文稿图像的流程图；

图7为本发明实施例中建立图像生成模型的流程图；

图8为本发明实施例中应用演示文稿的图像生成方法的系统结构示意图；

图9为本发明实施例一种演示文稿的图像生成装置的结构示意图；

图10为本发明另一实施例中演示文稿的图像生成装置的结构示意图；

图11为本发明再一实施例中演示文稿的图像生成装置的结构示意图；

图12为本发明又一实施例中演示文稿的图像生成装置的结构示意图；

图13为本发明实施例中图像特征模块的结构示意图；

图14为本发明实施例中图像生成模块的结构示意图；

图15为本发明一具体实施例中演示文稿的图像生成装置的结构示意图；

图16为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供一种演示文稿的图像生成方法及装置，可用于金融领域及其他领域，需要说明的是，本发明的演示文稿的图像生成方法及装置可用于金融领域，也可用于除金融领域之外的任意领域，本发明的演示文稿的图像生成方法及装置应用领域不做限定。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明实施例一种演示文稿的图像生成方法的流程图，本发明实施例提供的演示文稿的图像生成方法的执行主体包括但不限于计算机。本发明通过图像生成模型对图像生成引导语进行处理，得到用户所需的演示文稿图像，实现通过文字准确快速生成图像，生成的图像的逼真度和文字信息的匹配度高，使图片生成包含不同分辨率与不同风格能力，处理过程无需迭代，减少计算量，提高工作效率。图中所示方法包括：

步骤S1，获取用户端发送的图像生成引导语，并将图像生成引导语输入到预先建立的图像生成模型中。

其中，用户端可以为智能终端，例如PC等。用户通过用户端输入对其所需生成图像的文字描述，即图像生成引导语。

进一步的，将用户输入的图像生成引导语输入到预先建立的图像生成模型中进行文字转换图像处理。

步骤S2，利用图像生成模型中的编码器及前序网络，对图像生成引导语进行处理，得到多个图像特征。

其中，利用图像生成模型中的编码器及前序网络对图像生成引导语进行处理，具体的，图像生成模型中的编码器用于对图像生成引导语进行特征提取处理，可以得到多个文本特征。

进一步的，图像生成模型中的前序网络将文本特征映射为相应的图像嵌入，即得到对应的图像特征。

步骤S3，利用图像生成模型中的解码器，对图像特征进行处理，得到演示文稿图像，并将演示文稿图像发送至用户端。

其中，图像生成模型中的解码器可根据图像特征逆向生成图像，得到演示文稿图像。具体的，解码器可使用扩散模型，根据图像特征逆向生成一系列图像，即多个生成图像，进一步通过级联处理生成高清大图，即得到演示文稿图像。

具体的，预先建立的图像生成模型实现文本概念转换为视觉空间，也就是根据给定文本，即图像生成引导语生成符合描述的真实图像，即演示文稿图像。

作为本发明的一个实施例，如图2所示，方法还包括：

步骤S21，获取用户端发送的用户指令；

步骤S22，根据用户指令，确定用户指令对应的指令类型；其中，指令类型包括普通演示文稿指令、图像生成边框指令及图像生成引导语指令。

其中，用户通过用户端输入用户指令，根据用户指令判断该指令对应的指令类型。具体的，指令类型中的普通演示文稿指令可利用普通PPT功能完成，指令类型中的图像生成边框指令可根据用户输入的边框位置、大小等信息，得到对应的图像生成边框，指令类型中的图像生成引导语指令用于根据接收到的图像生成引导语生成相应的演示文稿图像。

作为本发明的一个实施例，如图3所示，方法还包括：

步骤S31，获取用户端发送的指定图像；

步骤S32，根据指定图像及图像生成模型，得到指定图像对应的多个类似图像，并将指定图像及其对应的多个类似图像发送至用户端。

其中，用户可通过用户端输入其所需图像的相似图像，即指定图像。利用图像生成模型中的编码器得到该指定图像的图像特征，再将该图像特征转换为文本特征，由此利用该文本特征生成多个类似图像。进而将指定图像与其对应的多个类似图像发送至用户端。

在本实施例中，如图4所示，方法还包括：

步骤S41，获取用户端反馈的图像选择指令；

步骤S42，根据图像选择指令，从指定图像及其对应的多个类似图像中确定用户选择图像，并对用户选择图像进行保存及发送。

其中，用户在用户端查看指定图像与对应的多个类似图像，用户通过操作用户端，从这些图像中选择其所需要的图像作为用户选择图像。在确定用户选择图像之后，对用户选择图像进行保存及发送，可发送至用户指定邮箱等。

作为本发明的一个实施例，如图5所示，利用图像生成模型中的编码器及前序网络，对图像生成引导语进行处理，得到多个图像特征包括：

步骤S51，利用图像生成模型中的编码器，对图像生成引导语进行特征提取处理，得到多个文本特征；

步骤S52，利用图像生成模型中的前序网络，确定文本特征对应的图像特征。

其中，利用图像生成模型中的编码器及前序网络对图像生成引导语进行处理，具体的，图像生成模型中的编码器用于对图像生成引导语进行特征提取处理，可以得到多个文本特征。图像生成模型中的前序网络将文本特征映射为相应的图像嵌入，即得到对应的图像特征。

作为本发明的一个实施例，如图6所示，利用所述图像生成模型中的解码器，对所述图像特征进行处理，得到演示文稿图像包括：

步骤S61，利用图像生成模型中的解码器，对图像特征进行处理，得到多个生成图像；

步骤S62，根据预设的图像生成框，对多个生成图像进行级联处理，得到演示文稿图像。

其中，图像生成模型中的解码器可根据图像特征逆向生成图像，得到演示文稿图像。

具体的，解码器可使用扩散模型，根据图像特征逆向生成一系列图像，即多个生成图像，进一步通过级联处理生成高清大图，即得到演示文稿图像。

作为本发明的一个实施例，如图7所示，图像生成模型是通过如下步骤建立的：

步骤S71，获取经用户授权的历史图像生成引导语及历史演示文稿图像，并利用历史图像生成引导语及历史演示文稿图像，得到训练样本数据；

步骤S72，利用训练样本数据训练初始文本编码器，得到引导语文本特征，并将引导语文本特征映射到表征空间，得到文本嵌入；

步骤S73，利用训练样本数据训练初始图像编码器，得到图像嵌入，并对文本嵌入及图像嵌入进行空间映射，得到多模态映射空间；

步骤S74，从训练样本数据中选取相似样本数据，并确定相似样本数据对应的余弦相似度，并将余弦相似度作为多模态映射空间中数据分类的预测概率，以完成所述图像生成模型的建立。

其中，经过用户授权后，获取历史图像生成引导语及历史演示文稿图像，具体的看，可以按照预设比例将历史图像生成引导语及历史演示文稿图像划分为训练样本数据与测试样本数据。具体的，历史图像生成引导语为模型训练的输入数据，历史演示文稿图像为模型训练的输出数据。其中，测试样本数据用于对训练完成后的模型进行测试与优化。

进一步的，通过训练初始文本编码器提取历史图像生成引导语的文本特征，映射到表征空间，即形成文本嵌入。

进一步的，通过训练初始图片编码器提取图片特征，即形成图片嵌入。这两个特征就是一个正样本，该文本特征与其他图像生成的图像特征就是负样本。

进一步的，联合文本特征和图片特征两个特征值(嵌入)，可以采用级联的方式，映射到同一个潜在空间，即文本和图像的联合表示空间，也就是多模态嵌入空间。所有图像相关标题都通过它们各自的编码器，所有对象映射到同一个m维空间。通过联合训练一个图像编码器和一个文本编码器来学习相同的多模态嵌入空间，优点是不需要外部的分类器来区分图片分类，直接计算即可。从而实现文本的特征和图像的特征联系在一起，成为一个合并的多模态的特征空间。

进一步的，对比相似度，选择相似度最高的文本(即从训练样本数据中选取相似样本数据)所对应的类别作为图像分类预测结果，直接用每个(图像，文本)对的余弦相似度的数值用于以后计算每个类别的预测概率，使得一个未知数据通过这个分类器的时候能够以相对高的概率的预测出其所属分类。

在本发明一具体实施例中，如图8所示为本发明实施例中应用演示文稿的图像生成方法的系统结构示意图，提供了一个根据文字描述可以快速生成ppt中的不同分辨率多种样式的图片对象的智能系统，基于文本的图像生成，即文本到图像的AI模型，根据给定文本生成符合描述的真实图像，隶属于多模态机器学习任务之一。

其中，实现文本概念转换为视觉空间，即文字生成图像功能为系统重要组件，结合基于对比的图片-文本学习的跨模态预训练模型和扩散模型，即图像生成模型。基于对比的图片-文本学习的跨模态预训练模型用于学习文字和图片的对应关系。受到物理热力学的启发，物质通过扩散最后都是符合高斯分布(正态分布)。扩散模型工作原理从本质上来说是通过连续添加高斯噪声来破坏训练数据，然后通过反转这个噪声过程，来学习恢复数据。扩散模型通过引导技术，通过正态分布获取到任何一个分布。

进一步的，文字生成图像采用两阶段模型，优点：无需外部分类器，减少迭代计算次数，提高效率；生成图像的逼真度和文字信息的匹配度高；可以不需要训练，即具备zero-shot能力，就实时利用文本信息引导模型生成，编辑各种图像。

进一步的，系统分为两种模式实现文字生成图像。在ppt系统中添加一个文字生成图像对象的组件。也可以做成现有的ppt应用的插件模式。一种是利用自主描绘边框的模式，可以直接指定生成图片的位置和大小，一种是自动随机生成图片的位置和大小(自动的图片生成框)。

其中，两种模式都使用文字生成图像对象的组件。通过文字作为引导器或者鉴别器，智能生成一组图像，用户可以根据喜好选择对应图像保存，按照通过自主描绘边框位置及大小或者自动随机直接插入到ppt中。具体的，生成的图片是一个独立的对象，和普通的图片一样，可以对其进行层的编辑。

系统工作的总流程：

首先，系统接收用户指令，按照用户指令进行分类，用户的输入实际上分三类：1、为普通ppt的功能；2、使用文字生成图像对象的组件绘制一个图片生成边框；3、图片生成框的图片生成引导语。

具体的，用户输入为1，对应是普通的ppt功能，系统执行普通的ppt处理工作。用户输入为2，3，对应使用下面的重要的模块实现。

进一步的，系统根据用户输入的图片生成引导语生成对应的图像对象，通过文字生成图像对象的组件实现。

其中，文字生成图像对象的组件是本系统中最重要的组件，组件使用基于对比的图片-文本学习的跨模态预训练模型和扩散模型结合，分别对应两个过程，一个是训练过程，一个是从文本到图像的生成过程。

具体的，文字生成图片总体流程包括：文本描述映射为文本嵌入空间向量，然后将文本嵌入转换为图像嵌入，并作为输入，输出生成的图像。即：文本描述-文本嵌入-图像嵌入-生成图像。

具体实现：基于对比的图片-文本学习的跨模态预训练模型经过了对一组组文本-图像对照数据的海量训练，以了解给定文本片段与图像的关联程度。该模型不是试图预测给定图像的文本，而是学习任何给定文本与图像的相关程度，这种对比而非预测的目标使其能够学习同一抽象目标的文本和视觉表示之间的联系。可以采用世面上如OPENAI的模型。

其中，模型训练流程包括：

步骤一，通过训练文本编码器提取文字引导的文本特征，映射到表征空间，即形成文本嵌入。

步骤二，通过训练图片编码器提取图片特征，即形成图片嵌入。这两个特征就是一个正样本，该文本特征与其他图像生成的图像特征就是负样本。

步骤三，联合文本特征和图片特征两个特征值(嵌入)，可以采用级联的方式，映射到同一个潜在空间，即文本和图像的联合表示空间。所有图像相关标题都通过它们各自的编码器，所有对象映射到同一个m维空间。通过联合训练一个图像编码器和一个文本编码器来学习相同的多模态嵌入空间，优点是不需要外部的分类器来区分图片分类，直接计算即可。从而实现文本的特征和图像的特征联系在一起，成为一个合并的多模态的特征空间。

步骤四，对比相似度。选择相似度最高的文本所对应的类别作为图像分类预测结果，直接用每个(图像，文本)对的余弦相似度的数值用于以后计算每个类别的预测概率，使得一个未知数据通过这个分类器的时候能够以相对高的概率的预测出其所属分类。让AI先“掌握”文本-图像对的匹配关系。训练目标是同时最大化batch中的N个正确编码图像/标题对(正样本)之间的余弦相似度，并最小化N²-N个不正确编码图像、标题对(负样本)之间的余弦相似度。因为N幅图像和文本两两组合共有N²种，而只有N对是正样本，其他都是负样本，因此损失函数共用N项构成。这些余弦相似度得分通过对称交叉熵损失优化。

其中，文本生成图像流程包括：

步骤五，同样将文本引导输入到经过训练以将引导映射到表征空间的文本编码器中；

步骤六，先验模型将文本映射到相应的图像嵌入，该图像嵌入获取文本编码中包含的提示/引导语的语义信息；

步骤七，图像解码模型随机生成一系列图像，该图像是该语义信息的视觉表现。

步骤八，根据用户的绘画的图片生成框的大小，使用级联式的生成，逐步生成分辨率64*64-256*256-1024*1024的高清大图。再采用对应选择球面插入法进行上采样或者下采样，对图片扩大或者缩放。

进一步的，还包括辅助流程，即步骤九：用户从生成的一系列图片中选择满意的一张，将图片保存为单独的对象。

在本实施例中，系统设计基于对比的图片-文本学习的跨模态预训练模型、文本生成图片模型和不同分辨率和选择保存对象三个大块。

其中，预训练模型用于学习文本和图像的对应关系，既可以学习文本描述的语义也可以学习风格，而且对图像分布的变化很敏感，联合的嵌入空间，使模型无需额外训练，即具备zero-shot能力，无需外部分类器，减少迭代计算，加快效率，通过微调，在各种视觉和语言任务中表现优异。

进一步的，基于对比的图片-文本学习的跨模态预训练模型(Text to PictureLearning Pretraining Model based on contrast，简称TPLM-contrast)用于学习文字和图片的对应关系，对比学习，训练文字编码器和图像编码器分别提取文字和图像特征合并为同一多模态的特征空间，用余弦相似度的数值用于以后计算每个类别的预测概率，因此可以用来做图像匹配，图像检索。

进一步的，基于对比的图片-文本学习的跨模态预训练模型提前训练好，权重锁死，用于后面的文本生成图像过程。

具体的，由于随机输入一张高斯噪声不能按照人的意愿生成想要的内容，因此需要额外的引导得到需要的图像。一种是使用外部模型(分类器or广义的判别器)的输出作为引导条件来指导扩散模型的去噪过程，从而得到想要的输出；另一种直接把想要的引导条件也作为模型输入的一部分，从而让扩散模型见到这个条件后就可以直接生成所需的内容。

在本实施例中，系统采用的是第二种，无分类器指导扩散模型。

其中，无分类器指导扩散模型为不用额外训练扩散模型，直接在原有训练好的扩散模型上，通过把引导文本转化为位置作为输入替代外部分类器，来引导生成期望的图像。实质上改变的只有高斯分布的均值中心，将扩散方向“引导”成所需的内容。具体而言，用分类模型对生成的图片进行分类，得到预测分数与目标类别的交叉熵，将其对带噪图像求梯度用梯度引导下一步的生成采样。

进一步的，文字生成图片过程就是将文本输入TPLM-contrast文本编码器生成文本特征，文本特征通过前序网络prior生成图像特征，图像特征通过基于扩散模型的解码器生成最后的图像。

其中，文字生成图片模型分为前序网络prior和解码器decoder两个大的阶段：

阶段一，根据给定的文本描述，复用TPLM-contrast的文本编码器提取文本特征，然后用前序网络Prior把文本特征映射成图像特征。该图像特征保留文本特征中包含的引导的语义信息。

训练过程中，TPLM-contrast图像特征作为前序网络Prior图像特征的真实值(ground truth)监督角色来进行训练，也就是说训练时前序网络Prior生成的图像特征时不时的看一下TPLM-contrast生成的对应文本的图像特征。然后prior根据文本特征生成类似于TPLM-contrast的图像特征。

其中，比对自回归模型和扩散模型的效果，预训练网络prior采用效果更好的扩散模型。

进一步的，AR方法：使用了图像特征与文本特征的点乘，用于代表整个图像的特征，包含更多的图像信息。

进一步的，Diffusion方法：训练了一个仅包含decoder模块的因果注意力网络。和AR方法不同的是，没有使用图像特征与文本特征的点乘用于代表整个图像的特征。而是通过找到与特征点乘结果更高的作为采样特征以提升质量。最后关于diffusion模型的拟合目标上，与以往的拟合噪声，选择在diffusion模型中对去噪声后的进行拟合效果会更好。

其中，Diffusion方法使用以高斯分布为基础的扩散模型编码。简单直接使用了TPLM-contrast模型embedding编码特征，使用文本编码将文本描述编码为空间嵌入。因为预训练网络prior的输入输出是embedding，所以不合适用U-Net，训练了decoder-only带掩码的注意力transformer网络，输入是编码文本(text token)+TPLM-contrast文本嵌入(TPLM-contrast text embedding)+扩散时间步长的编码(timestep embedding)+加入噪声后的TPLM-contrast图像嵌入(noised TPLM-contrast image embedding)+额外的token(transformer自身的embedding CLStoken，类似class embedding)输入，其输出一个用于预测无噪声TPLM-contrast图像编码unnoised TPLM-contrast image embedding(取额外的embedding)。另外考虑到embedding维度过多的问题，使用了主成分分析法PCA降维，将1024维度的特征降低到319维，提升训练效率。简而言之，就是把文本映射为图像嵌入维度z_i。

其中，prior模型不论是用自回归模型还是扩散模型，都使用了无分类器的引导classifier-free guidance。

阶段二，解码器decoder根据生成的图像特征逆向生成图像，解码器decoder使用扩散模型。

其中，decoder解码器其实就是GLIDE模型的变体，用了TPLM-contrast的引导和无分类器的引导classifier-free guidance。

进一步的，把图像嵌入TPLM-contrast模型映射图像嵌入image embedding加入到现有的训练时间步timestep中输入到diffusion model，同时把TPLM-contrast imageembedding映射为4个额外的token经过级联处理后，接收GLIDE文本编码器的输出序列。反向扩散过程是随机的，因此通过修改后的GLIDE模型多次输入相同的图像编码向量很容易产生变化。guidance信号要么来自TPLM-contrast模型，要么来自于文本，同时使用随机掩码的方法，将嵌入中的10％的特征值置为0，并且随机删除30％的文本描述，这样就实现了无需独立的分类器引导。在生成图像时采用级联式生成的方法，由64*64逐步生成得到1024*1024的高清大图，为了训练的稳定性，在训练时加了很多噪声。使用上采样的方式来解决高分辨率图像，第一阶段升采样，使用高斯模糊，第二阶段使用BSR退化。简而言之，就是把图像嵌入还原为图像。

其中，数据集键值对(x,y)中x表示图像，y表示文字描述。对于给定的图像x，z_i表示TPLM-contrast的图像嵌入，z_t表示TPLM-contrast的文本嵌入，Prior中P(z_i|y)表示根据文字描述y产生TPLM-contrast图像嵌入z_i。Decoder中P(x|z_i,y)表示根据TPLM-contrast图片嵌入z_i(可选的文字描述y)产生图像x。

进一步的，文字生成图片两阶段的模型：把prior和decoder组装起来产生一个给定文字描述y的图像x的生成模型P(x|y)

整体步骤公式：

P(x|y)＝P(x,z_i|y)＝P(x|z_i,y)P(z_i|y) (1)

分别通过特征的独立性及贝叶斯展开得到。

在本实施例中，损失函数：DDPM利用残差思想预测噪声，但是发现直接预测没有噪声的图像要比预测噪声更好。因此这里的损失是预测值与未加噪声的图像(特征)直接对比。其中TPLM-contrast模型损失函数共用N项构成，这些余弦相似度得分通过对称交叉熵损失优化。

其中，前序网络prior是一个只有编码器decoder的transformer，直接训练模型来预测未噪声的z_i，对这个预测使用均方差误差损失：

在本实施例中，不同分辨率和选择保存对象模块可以提供根据图片生成类似图片的功能。

其中，生成给定图像的很多类似图像，所生成的图像风格和原始图像一致，图像中所出现的物体也大体一致。其方法是当用户给定一张图像的时候，通过TPLM-contrast的图像编码器得到一个图像特征，把图像特征变成文本特征，再把文本特征输入给prior模型生成另外一个图像特征，这个图像特征再生成新的图像。给定两张图像，在两张图像的图像特征之间做内插，当插出来的特征更偏向于某个图像时，所生成的图像也就更多地具有该图像的特征。

进一步的，生成给定图像的很多类似图像，具体做法：用TPLM-contrast把图像编码，使用DDIM编码器，用于表征对(z_i,x_T)，用η>0进行采样，较大的η值将随机性引入到连续的采样步骤中，随着的增加，这些变化表示出哪些信息在TPLM-contrast图像嵌入中被捕捉(在不同的样本中被保留)，哪些被丢失(在不同样本中变化)，把这TPLM-contrast图像嵌入作为训练引导decoder生成图像。除此以外，还可以对两张图像的图像特征之间做几何球面插值，角度θ从0到1发生变化的时候，它们的DDIM倒置潜点和/>进行内插，/>实现风格的迁移。

进一步的，AI作画的(通过文字描述智能生成图片)，根据用户的需求还可以进行调整，同样适用于背景库。也可以输入一个图片使用图片识别功能对图片进行拆分成多个组合图片对象，对每个组合图片对象进行编辑(包含添加文字，调整大小，调整文字，修改颜色)，编辑功能可以通过文字描述直接修改也可以通过点击或者拖拽的模式，可以满足ppt的快速智能生成的需求。

本发明系统实现了二阶段的文本自动生成图片模型，不需要训练，实现了zero-shot；文字和图片特征映射到同一个空间中，主成分分析法PCA降维；通过对样本信息随机的丢弃，无需外部分类器，减少迭代计算次数，提高效率；以基于对比的图片-文本学习的跨模态预训练模型为参考，生成图像的逼真度和文字信息的匹配度高；应用参数化变量、几何球面插值等技术，使图片生成包含不同分辨率不同风格能力；重参数化技巧等方法推导扩散过程和反向传播，无需迭代，减少计算量。

具体的，扩散模型是目前文本生成图像领域的核心方法，本发明系统的先验和图像生成子模型都是基于扩散模型的。扩散模型也主要分两个过程：前向扩散(diffusion,从x₀到x_T的过程逐步加入噪声，将一张图片变成随机噪声的图片)和后向去噪(denoise,从x_T到x₀逐步去噪，即将一张随机噪声的图片还原为一张完整的图片-原始数据分布)。训练的时候，需要利用扩散加噪来生成训练样本；推理的时候，输入一个噪音，逐步去噪输出原始信号(比如图像、语音)。扩散阶段和逆扩散阶段可以对应上Encoder-Decoder架构的模型。

高斯分布的表达，记作x～N(μ,σ²)：

扩散过程每一步都加入一个方差为β_t∈(0,1)的高斯噪声可以用马尔科夫链来表示：

其中，β_t是一个0到1的等比序列(β₀＝0)，此时表示原始图像；第T步的时候，β_t＝1，表示标准高斯噪声N(0,1)。

进一步的，扩散过程其本质就是在原始图像上添加噪音，通过T步迭代，最终将原始图片的分布变成标准高斯分布。最终结果将变成一个包含噪声的图像，就像从各向同性高斯分布中采样一样。加噪和高斯采样等价，无非就是改变了一下高斯采样的均值中心点。

将扩散模型在训练后“一分为二”，则可以使用它通过随机采样高斯噪声来生成噪声图像，再对其进行去噪以生成逼真的图像。可以使用重参数化技巧，不用迭代，直接公式获取，减少正向传播计算量。

如果z～N(μ,σ²)，令z＝μ+σε且ε～N(0,1)。扩散过程可以表示为：

令a_t＝1-β_t且递归简化为：

反向传播的公式：

p_θ(x_t-1|x_t):＝N(x_t-1；μ_θ(x_t,t),∑_θ(x_t,t)) (8)

如图9所示为本发明实施例一种演示文稿的图像生成装置的结构示意图，图中所示装置包括：

引导语模块10，用于获取用户端发送的图像生成引导语，并将图像生成引导语输入到预先建立的图像生成模型中；

图像特征模块20，用于利用图像生成模型中的编码器及前序网络，对图像生成引导语进行处理，得到多个图像特征；

图像生成模块30，用于利用图像生成模型中的解码器，对图像特征进行处理，得到演示文稿图像，并将演示文稿图像发送至用户端。

作为本发明的一个实施例，如图10所示，装置还包括：

用户指令模块401，用于获取用户端发送的用户指令；

指令类型模块402，用于根据用户指令，确定用户指令对应的指令类型；其中，指令类型包括普通演示文稿指令、图像生成边框指令及图像生成引导语指令。

作为本发明的一个实施例，如图11所示，装置还包括：

指定图像模块501，用于获取用户端发送的指定图像；

类似图像模块502，用于根据指定图像及图像生成模型，得到指定图像对应的多个类似图像，并将指定图像及其对应的多个类似图像发送至用户端。

在本实施例中，如图12所示，装置还包括：

选择指令模块601，用于获取用户端反馈的图像选择指令；

选择图像模块602，用于根据图像选择指令，从指定图像及其对应的多个类似图像中确定用户选择图像，并对用户选择图像进行保存及发送。

作为本发明的一个实施例，如图13所示，图像特征模块20包括：

文本特征单元21，用于利用图像生成模型中的编码器，对图像生成引导语进行特征提取处理，得到多个文本特征；

图像特征单元22，用于利用图像生成模型中的前序网络，确定文本特征对应的图像特征。

作为本发明的一个实施例，如图14所示，图像生成模块30包括：

生成图像单元31，用于利用图像生成模型中的解码器，对图像特征进行处理，得到多个生成图像；

文稿图像单元32，用于根据预设的图像生成框，对多个生成图像进行级联处理，得到演示文稿图像。

作为本发明的一个实施例，如图15所示，装置还包括：

训练样本模块701，用于获取经用户授权的历史图像生成引导语及历史演示文稿图像，并利用历史图像生成引导语及历史演示文稿图像，得到训练样本数据；

文本嵌入模块702，用于利用训练样本数据训练初始文本编码器，得到引导语文本特征，并将引导语文本特征映射到表征空间，得到文本嵌入；

图像嵌入模块703，用于利用训练样本数据训练初始图像编码器，得到图像嵌入，并对文本嵌入及图像嵌入进行空间映射，得到多模态映射空间；

相似度模块704，用于从训练样本数据中选取相似样本数据，并确定相似样本数据对应的余弦相似度，并将余弦相似度作为多模态映射空间中数据分类的预测概率，以完成图像生成模型的建立。

基于与上述一种演示文稿的图像生成方法相同的申请构思，本发明还提供了上述一种演示文稿的图像生成装置。由于该一种演示文稿的图像生成装置解决问题的原理与一种演示文稿的图像生成方法相似，因此该一种演示文稿的图像生成装置的实施可以参见一种演示文稿的图像生成方法的实施，重复之处不再赘述。

如图16所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理器130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图16中所示的所有部件；此外，电子设备600还可以包括图16中没有示出的部件，可以参考现有技术。

如图16所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种演示文稿的图像生成方法，其特征在于，所述方法包括：

获取用户端发送的图像生成引导语，并将所述图像生成引导语输入到预先建立的图像生成模型中；

利用所述图像生成模型中的编码器及前序网络，对所述图像生成引导语进行处理，得到多个图像特征；

利用所述图像生成模型中的解码器，对所述图像特征进行处理，得到演示文稿图像，并将所述演示文稿图像发送至所述用户端。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述用户端发送的用户指令；

根据所述用户指令，确定所述用户指令对应的指令类型；其中，所述指令类型包括普通演示文稿指令、图像生成边框指令及图像生成引导语指令。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述用户端发送的指定图像；

根据所述指定图像及所述图像生成模型，得到所述指定图像对应的多个类似图像，并将所述指定图像及其对应的多个类似图像发送至所述用户端。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述用户端反馈的图像选择指令；

根据所述图像选择指令，从所述指定图像及其对应的多个类似图像中确定用户选择图像，并对所述用户选择图像进行保存及发送。

5.根据权利要求1所述的方法，其特征在于，利用所述图像生成模型中的编码器及前序网络，对所述图像生成引导语进行处理，得到多个图像特征包括：

利用所述图像生成模型中的编码器，对所述图像生成引导语进行特征提取处理，得到多个文本特征；

利用所述图像生成模型中的前序网络，确定所述文本特征对应的图像特征。

6.根据权利要求1所述的方法，其特征在于，利用所述图像生成模型中的解码器，对所述图像特征进行处理，得到演示文稿图像包括：

利用所述图像生成模型中的解码器，对所述图像特征进行处理，得到多个生成图像；

根据预设的图像生成框，对多个生成图像进行级联处理，得到所述演示文稿图像。

7.根据权利要求1所述的方法，其特征在于，所述图像生成模型是通过如下步骤建立的：

获取经用户授权的历史图像生成引导语及历史演示文稿图像，并利用所述历史图像生成引导语及历史演示文稿图像，得到训练样本数据；

利用所述训练样本数据训练初始文本编码器，得到引导语文本特征，并将所述引导语文本特征映射到表征空间，得到文本嵌入；

利用所述训练样本数据训练初始图像编码器，得到图像嵌入，并对所述文本嵌入及所述图像嵌入进行空间映射，得到多模态映射空间；

从所述训练样本数据中选取相似样本数据，并确定所述相似样本数据对应的余弦相似度，并将所述余弦相似度作为所述多模态映射空间中数据分类的预测概率，以完成所述图像生成模型的建立。

8.一种演示文稿的图像生成装置，其特征在于，所述装置包括：

引导语模块，用于获取用户端发送的图像生成引导语，并将所述图像生成引导语输入到预先建立的图像生成模型中；

图像特征模块，用于利用所述图像生成模型中的编码器及前序网络，对所述图像生成引导语进行处理，得到多个图像特征；

图像生成模块，用于利用所述图像生成模型中的解码器，对所述图像特征进行处理，得到演示文稿图像，并将所述演示文稿图像发送至所述用户端。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有由计算机执行权利要求1至7任一项所述方法的计算机程序。