CN116977774A

CN116977774A - 图像生成方法、装置、设备和介质

Info

Publication number: CN116977774A
Application number: CN202310460146.3A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-10-31

Abstract

本申请涉及一种图像生成方法、装置、设备和介质，更涉及人工智能技术领域。方法包括：获取初始的场景描述文本；根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息；场景布局信息，用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系；在场景描述文本中添加场景布局信息，得到目标场景描述文本；获取初始的噪声图像，并根据目标场景描述文本的文本语义特征对噪声图像进行降噪，得到目标图像；目标图像用于呈现场景；呈现的场景中各场景对象之间的位置关系满足相对位置关系。采用本方法能够提升图像生成准确率。

Description

图像生成方法、装置、设备和介质

技术领域

本申请涉及人工智能技术，特别是涉及一种图像生成方法、装置、设备和介质。

背景技术

随着人工智能技术的发展，出现了文生图技术，文生图是指基于人们输入的文本，智能化地生成文本所描述的场景的图像。随着科学技术的发展，文生图技术已经广泛应用于人们的日常生活。比如，对需要拍摄的剧本中的各个句子文本进行图像生成，生成的图像可以提供给导演做影视拍摄前的参考。再比如，对需要绘制的场景进行图像生成，生成的图像可以提供给画家进行参考，以启发画家进行更深层次的创作。

传统技术中，通常直接利用开源的文生图模型生成文本对应的图像，生成的图像往往与输入的文本所描述的场景不符，从而导致图像生成准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升图像生成准确率的图像生成方法、装置、设备和介质。

第一方面，本申请提供了一种图像生成方法，所述方法包括：

获取初始的场景描述文本；

根据所述场景描述文本的文本语义特征，预测所述场景描述文本对应的场景布局信息；所述场景布局信息，用于表征所述场景描述文本所描述的场景中各场景对象之间的相对位置关系；

在所述场景描述文本中添加所述场景布局信息，得到目标场景描述文本；

获取初始的噪声图像，并根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪，得到目标图像；

其中，所述目标图像用于呈现所述场景；呈现的所述场景中各场景对象之间的位置关系满足所述相对位置关系。

第二方面，本申请提供了一种图像生成装置，所述装置包括：

获取模块，用于获取初始的场景描述文本；

预测模块，用于根据所述场景描述文本的文本语义特征，预测所述场景描述文本对应的场景布局信息；所述场景布局信息，用于表征所述场景描述文本所描述的场景中各场景对象之间的相对位置关系；

添加模块，用于在所述场景描述文本中添加所述场景布局信息，得到目标场景描述文本；

降噪模块，用于获取初始的噪声图像，并根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪，得到目标图像；其中，所述目标图像用于呈现所述场景；呈现的所述场景中各场景对象之间的位置关系满足所述相对位置关系。

在一个实施例中，所述场景布局信息包括场景布局类别；所述预测模块还用于根据所述场景描述文本的文本语义特征，对所述场景描述文本进行布局分类处理，得到所述场景描述文本所属的场景布局类别。

在一个实施例中，所述装置还包括：

确定模块，用于确定所述场景描述文本对应的风格信息；

所述添加模块还用于在所述场景描述文本中添加所述场景布局信息和所述风格信息，得到目标场景描述文本。

在一个实施例中，所述风格信息包括风格类别；所述确定模块还用于确定所述场景描述文本所属的创作性文本；所述创作性文本中包括创作的多条用于对场景进行描述的场景描述文本；根据所述创作性文本中的场景描述文本，提取所述创作性文本的文本语义特征；根据所述创作性文本的文本语义特征，对所述创作性文本进行风格分类处理，得到所述创作性文本所属的风格类别，并将所述创作性文本所属的风格类别作为所述场景描述文本对应的风格类别。

在一个实施例中，所述降噪模块还用于获取所述噪声图像的第一图像特征；将所述目标场景描述文本的文本语义特征和所述第一图像特征进行卷积处理，得到第二图像特征；对所述第二图像特征进行解码，得到针对所述噪声图像降噪后的目标图像。

在一个实施例中，所述降噪模块还用于对所述噪声图像在第一编码时刻的第一图像特征进行扩散采样，得到所述噪声图像在第二编码时刻的第一图像特征；所述第一编码时刻位于所述第二编码时刻之前；将所述噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将所述第二编码时刻作为当前编码时刻，将所述目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征；将所述当前编码时刻的前一编码时刻作为下一轮的当前编码时刻，将下一轮作为本轮，将所述中间态图像特征作为本轮待降噪的基准图像特征，以进行迭代卷积处理，直至所述当前编码时刻为所述第一编码时刻时停止迭代降噪，并将所述第一编码时刻对应的中间态图像特征作为第二图像特征。

在一个实施例中，所述场景布局信息是通过已训练的布局识别模型确定得到的；所述装置还包括：

第一训练模块，用于获取至少一个第一样本场景描述文本；所述第一样本场景描述文本标注有参照场景布局信息；通过待训练的布局识别模型对所述第一样本场景描述文本进行布局预测，得到预测场景布局信息；根据所述预测场景布局信息与所述参照场景布局信息之间的差异，对所述待训练的布局识别模型进行迭代训练，得到已训练的布局识别模型。

在一个实施例中，所述目标图像是通过已训练的图像生成模型生成得到的；所述装置还包括：

第二训练模块，用于获取至少一个样本图文对；所述样本图文对中包括第二样本场景描述文本和参照图像；所述第二样本场景描述文本中添加有所述第二样本场景描述文本对应的场景布局信息；所述参照图像用于呈现所述第二样本场景描述文本所描述的场景；针对每个样本图文对，对所述样本图文对中的所述参照图像加入噪声，得到样本噪声图像，并将所述样本噪声图像和所述样本图文对中的所述第二样本场景描述文本输入至待训练的图像生成模型，以通过所述待训练的图像生成模型基于所述第二样本场景描述文本对所述样本噪声图像进行降噪，得到所述样本图文对对应的预测图像；根据各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异，对所述待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

在一个实施例中，所述第二样本场景描述文本中还添加有所述第二样本场景描述文本对应的风格信息；在迭代训练过程中每轮迭代所使用的所述样本图文对包括至少一个批次的样本图文对；每个批次的所述样本图文对中参照图像包括参照布局图像和参照风格图像；所述第二训练模块还用于针对每轮迭代训练中的每个批次，将所述批次中各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异，对所述待训练的图像生成模型进行训练，得到所述批次对应的图像生成模型；在满足迭代停止条件的情况下，将最后一轮迭代训练中最后一个批次对应的图像生成模型作为已训练的图像生成模型。

在一个实施例中，所述每个批次中的参照图像还包括样本风格迁移图像；所述样本风格迁移图像，是对所述参照布局图像进行针对不同风格的迁移处理得到的图像；所述样本风格迁移图像具有所述参照布局图像对应的布局、以及所述迁移处理所使用的风格。

在一个实施例中，每个批次的所述样本图文对中参照布局图像是从预先生成的各布局图像组中抽取得到的图像；同一所述布局图像组中的各图像具有相同的布局；所述装置还包括：

第一生成模块，用于获取至少一个视频；将各所述视频中的各图像分别进行前景擦除，得到背景图像；根据各所述背景图像分别对应的图像布局特征，对各所述背景图像进行聚类，得到至少一个的布局图像组。

在一个实施例中，所述第一生成模块还用于针对各所述视频中的每个图像，对所述图像进行显著性识别，得到所述图像的显著性图像；所述显著性图像中各像素点对应的灰度值用于表征各所述像素点的显著程度；根据所述显著性图像中各所述像素点分别对应的灰度值，生成掩膜图像；所述掩膜图像用于表征所述图像中的显著性区域；根据所述掩膜图像对所述图像中的显著性区域进行擦除，得到所述图像对应的背景图像。

在一个实施例中，每个批次的所述样本图文对中参照风格图像是从预先生成的各风格图像组中抽取得到的图像；同一所述风格图像组中的各图像具有相同的风格；所述装置还包括：

第二生成模块，用于获取至少一个视频；其中，一个所述视频对应一种风格；针对每个视频，从所述视频中采样至少一个视频图像，并将采样得到的所述视频图像进行组合，得到所述视频对应的风格图像组。

在一个实施例中，所述第二训练模块还用于针对每个样本图文对，根据所述样本图文对对应的所述预测图像的预测图像特征与相应参照图像的参照图像特征之间的差异，确定第一损失值；根据所述样本图文对对应的所述预测图像中像素点的像素值与相应参照图像中像素点的像素值之间的差异，确定第二损失值；将所述第一损失值和第二损失值进行融合，得到所述样本图文对对应的目标损失值；根据各所述样本图文对分别对应的目标损失值对所述待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请各方法实施例中的步骤。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现本申请各方法实施例中的步骤。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本申请各方法实施例中的步骤。

上述图像生成方法、装置、设备、介质和计算机程序产品，通过获取初始的场景描述文本，并根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息。场景布局信息，用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系。在场景描述文本中添加场景布局信息，得到具有场景布局信息的目标场景描述文本。获取初始的噪声图像，并根据具有场景布局信息的目标场景描述文本的文本语义特征对噪声图像进行降噪，且由于目标场景描述文本的文本语义特征中包含有场景的布局信息，因此可以使得生成的目标图像用于呈现初始的场景描述文本所描述的场景，且呈现的场景中各场景对象之间的位置关系满足相对位置关系，从而提升了图像生成准确率。

附图说明

图1为一个实施例中图像生成方法的应用环境图；

图2为一个实施例中图像生成方法的流程示意图；

图3为传统的利用开源的文生图模型生成的文本对应的图像；

图4为一个实施例中通过本申请的图像生成方式生成的目标图像；

图5为一个实施例中本申请的图像生成所使用的模型结构图；

图6为一个实施例中针对待训练的布局识别模型的样本数据和训练过程示意图；

图7为一个实施例中风格迁移过程示意图；

图8为一个实施例中训练待训练的图像生成模型的样本数据组成示意图；

图9为一个实施例中训练待训练的图像生成模型的样本数据的标签组成示意图；

图10为一个实施例中视频中的图像示意图；

图11为一个实施例中掩膜图像示意图；

图12为一个实施例中针对待训练的布局识别模型和待训练的图像生成模型设计的样本数据的生成流程示意图；

图13为一个实施例中针对剧本中各句子的图像生成示意图；

图14为另一个实施例中图像生成方法的流程示意图；

图15为一个实施例中图像生成装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置，可以集成在服务器104上，也可以放在云上或其他服务器上。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是单个的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、云安全、主机安全等网络安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

服务器104可获取初始的场景描述文本，并根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息。场景布局信息，用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系。服务器104可在场景描述文本中添加场景布局信息，得到目标场景描述文本。服务器104可获取初始的噪声图像，并根据目标场景描述文本的文本语义特征对噪声图像进行降噪，得到目标图像。其中，目标图像用于呈现场景；呈现的场景中各场景对象之间的位置关系满足相对位置关系。

可以理解，服务器104可将生成的目标图像发送至终端102进行显示。可以理解，服务器104还可将生成的目标图像进行存储或进行相应的图像处理。本实施例对此不做限定，可以理解，图1中的应用场景仅为示意说明，并不限定于此。

需要说明的是，本申请一些实施例中的图像生成方法使用到了人工智能技术。比如，本申请中场景描述文本的文本语义特征和目标场景描述文本的文本语义特征，则属于使用人工智能技术编码得到的特征，以及，本申请中的场景描述文本对应的场景布局信息，也属于使用人工智能技术预测得到的信息。另外，本申请中的目标图像也属于使用人工智能技术预测生成得到的图像。为了更便于理解人工智能，现对人工智能的概念进行相关说明，具体地，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在一个实施例中，如图2所示，提供了一种图像生成方法，该方法可应用于计算机设备，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。本实施例以该方法应用于计算机设备为例进行说明，包括以下步骤：

步骤202，获取初始的场景描述文本。

其中，场景描述文本是用于描述场景的文本。场景是由至少一个场景对象构成的情景表达。场景对象是场景中的对象。为便于更好的理解场景描述文本，现举例说明，若场景描述文本为“张三和李四两个人来到山脚下的客栈”，则该场景描述文本中可包括张三、李四、山脚和客栈这四个场景对象，并由这四个场景对象构成了特定的情景表达。

在一个实施例中，计算机设备可获取创作性文本，可以理解，创作性文本中包括创作的多条用于对场景进行描述的场景描述文本。计算机设备可对创造性文本进行拆解，得到初始的多条场景描述文本。

在一个实施例中，创作性文本具体可以包括剧本、小说、诗歌或散文等中的至少一种。

在一个实施例中，计算机设备可按照句子级别对创造性文本进行拆解，并将拆解得到的句子本文作为场景描述文本。计算机设备也可按照逗号分句级别对创造性文本进行拆解，并将拆解得到的逗号分句作为场景描述文本。可以理解，若对拆解得到的文本不满意，则可以通过人工实现对拆解后的文本进行进阶的拆解。具体地，计算机设备可响应于文本拆解操作，对拆解后得到的文本进行进阶的拆解，得到场景描述文本。

在一个实施例中，计算机设备也可获取相互独立的至少一个短句文本，并将获取的短句文本直接作为场景描述文本。可以理解，相互独立的短句文本是指各短句文本之间不存在上下文联系。短句文本是指句子长度小于预设长度阈值的文本。

步骤204，根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息；场景布局信息，用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系。

为便于更好的理解场景布局信息，现举例说明，若场景描述文本为“张三和李四两个人来到山脚下的客栈”，则该场景描述文本中可包括张三、李四、山脚和客栈这四个场景对象，该场景描述文本对应的场景布局信息则可以用于表征张三、李四、山脚和客栈这四个场景对象之间的相对位置关系。比如，客栈位于山脚下，张三和李四位于客栈前。

在一个实施例中，计算机设备可对场景描述文本进行特征编码，得到场景描述文本的文本语义特征。进而，计算机设备可根据场景描述文本的文本语义特征，对场景描述文本进行布局信息预测，得到场景描述文本对应的场景布局信息。

步骤206，在场景描述文本中添加场景布局信息，得到目标场景描述文本。

其中，目标场景描述文本，是在初始的场景描述文本中添加场景布局信息后得到的场景描述文本。可以理解，初始的场景描述文本是添加场景布局信息之前的场景描述文本。

具体地，计算机设备可在初始的场景描述文本中添加该场景描述文本对应的场景布局信息，得到目标场景描述文本。可以理解，目标场景描述文本相较于初始的场景描述文本添加有该场景描述文本对应的场景布局信息。

举例说明，若初始的场景描述文本为“张三和李四两个人来到山脚下的客栈”，初始的场景描述文本对应的场景布局信息为“布局1”，则在该场景描述文本中添加场景布局信息所得到的目标场景描述文本可以为“<布局1>张三和李四两个人来到山脚下的客栈”。可以理解，“布局1”定义了该场景描述文本中张三、李四、山脚和客栈这四个场景对象之间的相对位置关系。

步骤208，获取初始的噪声图像，并根据目标场景描述文本的文本语义特征对噪声图像进行降噪，得到目标图像；其中，目标图像用于呈现场景；呈现的场景中各场景对象之间的位置关系满足相对位置关系。

其中，噪声图像是含有噪声的图像。目标图像是对噪声图像进行降噪后得到的图像。可以理解，目标图像相较于噪声图像拥有更少的噪声。

具体地，计算机设备可基于随机噪声生成初始的噪声图像，并对目标场景描述文本进行特征编码，得到目标场景描述文本的文本语义特征。进而，计算机设备可根据目标场景描述文本的文本语义特征对初始的噪声图像进行降噪，得到降噪后的目标图像。可以理解，由于计算机设备在对噪声图像进行降噪的过程中参考了目标场景描述文本的文本语义特征，因此，降噪后的目标图像可用于呈现相应场景描述文本所描述的场景，且呈现的场景中各场景对象之间的位置关系，满足相应场景描述文本所描述的场景中各场景对象之间的相对位置关系。其中，相应场景描述文本是指目标场景描述文本对应的初始的场景描述文本。

举例说明，若初始的场景描述文本为“张三和李四两个人来到山脚下的客栈”，初始的场景描述文本对应的场景布局信息为“布局1”，目标场景描述文本为“<布局1>张三和李四两个人来到山脚下的客栈”，则降噪后得到目标图像，可用于呈现“张三和李四两个人来到山脚下的客栈”所描述的场景，且呈现的张三、李四、山脚和客栈这四个场景对象之间的位置关系，满足“布局1”定义的张三、李四、山脚和客栈这四个场景对象之间的相对位置关系。

在一个实施例中，计算机设备可对初始噪声图像进行特征编码，得到噪声图像的图像特征。进而，计算机设备可基于目标场景描述文本的文本语义特征对噪声图像的图像特征进行降噪，得到降噪后的图像特征。计算机设备可根据降噪后的图像特征生成降噪后的目标图像。

在一个实施例中，计算机设备可获取已训练的图像生成模型，并将噪声图像和目标场景描述文本输入至已训练的图像生成模型，以通过已训练的图像生成模型根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪，得到目标图像。

上述图像生成方法中，通过获取初始的场景描述文本，并根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息。场景布局信息，用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系。在场景描述文本中添加场景布局信息，得到具有场景布局信息的目标场景描述文本。获取初始的噪声图像，并根据具有场景布局信息的目标场景描述文本的文本语义特征对噪声图像进行降噪，且由于目标场景描述文本的文本语义特征中包含有场景的布局信息，因此可以使得生成的目标图像用于呈现初始的场景描述文本所描述的场景，且呈现的场景中各场景对象之间的位置关系满足相对位置关系，从而提升了图像生成准确率。

传统的直接利用开源的文生图模型生成文本对应图像的方式，生成的图像往往与输入的文本所描述的场景不符，从而导致图像生成准确率较低。如图3所示，输入的文本为“张三和李四两个人来到山脚下的客栈”，则输出的图像更多关注的是两个人，从而生成了两个人面对面的场景图像，生成的图像与输入的文本所描述的场景不符，从而导致图像生成准确率较低。

而本申请通过在场景描述文本中添加场景布局信息，得到具有场景布局信息的目标场景描述文本，并基于目标场景描述文本指导目标图像的生成，可以提升图像生成准确率。如图4所示，输入的文本为“张三和李四两个人来到山脚下的客栈”，则输出的图像更多关注的是张三、李四、山脚、客栈这四个场景对象之间的位置关系，生成的图像与输入的场景描述文本所描述的场景相符，从而提升了图像生成准确率。

在一个实施例中，场景布局信息包括场景布局类别；根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息，包括：根据场景描述文本的文本语义特征，对场景描述文本进行布局分类处理，得到场景描述文本所属的场景布局类别。

其中，场景布局类别，是场景描述文本所描述的场景中各场景对象的分布情况对应的布局类别。可以理解，场景描述文本所描述的场景中各场景对象之间的相对位置关系不同可对应不同的布局类别。

具体地，计算机设备可预先定义多种场景布局类别，针对每一个初始的场景描述文本，计算机设备可根据该场景描述文本的文本语义特征，计算该场景描述文本分别属于预先定义的各种场景布局类别的概率，并将最大概率对应的场景布局类别作为该场景描述文本所属的场景布局类别。

举例说明，预先定义的多种场景布局类别可以包括布局1、布局2、布局3、…，布局n，其中n为任一正整数。针对初始的场景描述文本A，计算机设备可根据该场景描述文本A的文本语义特征，计算该场景描述文本A分别属于预先定义的各种场景布局类别(即，布局1、布局2、布局3、…，布局n)的概率，并将最大概率对应的场景布局类别作为该场景描述文本所属的场景布局类别。比如，若计算得到的概率最大对应的场景布局类别为布局3，则布局3作为该场景描述文本所属的场景布局类别。

在一个实施例中，计算机设备可获取已训练的布局识别模型，并将初始的场景描述文本输入至已训练的布局识别模型，以通过已训练的布局识别模型根据场景描述文本的文本语义特征，对场景描述文本进行布局分类处理，得到场景描述文本所属的场景布局类别。

上述实施例中，通过场景描述文本的文本语义特征对场景描述文本进行智能地布局分类处理，可以准确得到场景描述文本所属的场景布局类别，从而获取准确的场景布局信息，提升了场景布局信息的获取准确率。

在一个实施例中，方法还包括：确定场景描述文本对应的风格信息；在场景描述文本中添加场景布局信息，得到目标场景描述文本，包括：在场景描述文本中添加场景布局信息和风格信息，得到目标场景描述文本。

其中，场景描述文本对应的风格信息，用于表征场景描述文本所描述的场景通过相应风格进行呈现。风格可以包括动漫风格、国漫风格、水墨风格、现代真人风格或古装真人风格等中至少一种。

具体地，计算机设备可获取初始的场景描述文本，并确定场景描述文本对应的风格信息。计算机设备可对初始的场景描述文本进行特征编码，得到场景描述文本的文本语义特征，并根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息。计算机设备可在场景描述文本中添加场景布局信息和风格信息，得到目标场景描述文本。可以理解，目标场景描述文本中包括场景布局信息和风格信息。计算机设备可获取初始的噪声图像，并对目标场景描述文本进行特征编码，得到目标场景描述文本的文本语义特征。进而，计算机设备可根据目标场景描述文本的文本语义特征对噪声图像进行降噪，得到目标图像。可以理解，目标图像可以用于呈现初始的场景描述文本所描述的场景、呈现的场景中各场景对象满足场景布局信息所表征的布局、以及目标图像满足风格信息所表征的风格。

在一个实施例中，场景描述文本对应的风格信息可以通过用户自定义，可以理解，用户想要生成什么风格的目标图像就对场景描述文本设置想要的风格信息。计算机设备可响应于用户的风格设置操作，获取用户输入的风格信息，并将用户输入的风格信息作为场景描述文本对应的风格信息。

在一个实施例中，计算机设备可确定场景描述文本所属的创作性文本，并按照句子级别对创造性文本进行拆解，并将拆解得到的句子本文作为场景描述文本。进而，计算机设备可响应于用户针对创作性文本的风格设置操作，获取用户输入的风格信息，并将用户输入的针对创作性文本的风格信息作为场景描述文本对应的风格信息。可以理解，本申请可将创作性文本的风格信息直接作为创造性文本中各场景描述文本对应的风格信息。

在一个实施例中，计算机设备也可获取相互独立的至少一个短句文本，并将获取的短句文本直接作为场景描述文本。进而，计算机设备可响应于用户针对短句文本的风格设置操作，获取用户输入的风格信息，并将用户输入的针对短句文本的风格信息作为场景描述文本对应的风格信息。

上述实施例中，通过在场景描述文本中添加场景布局信息和风格信息，可以使得得到的目标场景描述文本中同时包括场景描述文本对应的场景布局信息和风格信息，从而使得后续根据目标场景描述文本的文本语义特征对噪声图像进行降噪后得到目标图像，不仅可以用于呈现初始的场景描述文本所描述的场景、呈现的场景中各场景对象满足场景布局信息所表征的布局，还可以使得目标图像满足风格信息所表征的风格。

在一个实施例中，风格信息包括风格类别；确定场景描述文本对应的风格信息，包括：确定场景描述文本所属的创作性文本；创作性文本中包括创作的多条用于对场景进行描述的场景描述文本；根据创作性文本中的场景描述文本，提取创作性文本的文本语义特征；根据创作性文本的文本语义特征，对创作性文本进行风格分类处理，得到创作性文本所属的风格类别，并将创作性文本所属的风格类别作为场景描述文本对应的风格类别。

具体地，风格类别是图像所呈现的风格的类别。创作性文本中包括创作的多条用于对场景进行描述的场景描述文本。计算机设备可确定场景描述文本所属的创作性文本，根据创作性文本中的场景描述文本，提取创作性文本的文本语义特征。进而，计算机设备可根据创作性文本的文本语义特征，对创作性文本进行风格分类处理，得到创作性文本所属的风格类别，并将创作性文本所属的风格类别作为场景描述文本对应的风格类别。可以理解，同一创作性文本中的场景描述文本对应的风格类别相同，即都为该创作性文本所属的风格类别。

上述实施例中，通过创作性文本的文本语义特征，对整体创作性文本进行智能的风格分类处理，由于整体创作性文本中各场景描述文本之间具有上下文联系，因此可以准确得到整体创作性文本所属的风格类别，从而再将创作性文本整体所属的风格类别直接作为场景描述文本对应的风格类别，可以提升场景描述文本所属风格类别的判断准确率。

在一个实施例中，根据目标场景描述文本的文本语义特征对噪声图像进行降噪，得到目标图像，包括：获取噪声图像的第一图像特征；将目标场景描述文本的文本语义特征和第一图像特征进行卷积处理，得到第二图像特征；对第二图像特征进行解码，得到针对噪声图像降噪后的目标图像。

其中，第一图像特征是初始的噪声图像的图像特征，第二图像特征是将目标场景描述文本的文本语义特征和第一图像特征进行卷积后得到的图像特征。可以理解，将目标场景描述文本的文本语义特征和第一图像特征进行卷积的过程，则是对初始的噪声图像进行降噪的过程。即，第二图像特征相较于第一图像特征具有更少的噪声。

具体地，计算机设备可对初始的噪声图像进行特征编码，得到噪声图像的第一图像特征。计算机设备可将目标场景描述文本进行特征编码，得到目标场景描述文本的文本语义特征，并将目标场景描述文本的文本语义特征和第一图像特征进行卷积处理，得到卷积后的第二图像特征。进而，计算机设备可对第二图像特征进行解码，得到针对噪声图像降噪后的目标图像。可以理解，目标图像相较于初始的噪声图像具有更少的噪声。

在一个实施例中，计算机设备可将目标场景描述文本的文本语义特征和第一图像特征进行多次卷积处理，得到第二图像特征。可以理解，计算机设备可对初始的噪声图像进行多次降噪，并将多次降噪后得到的图像作为目标图像。

在一个实施例中，计算机设备直接将目标场景描述文本的文本语义特征和第一图像特征进行一次卷积处理，得到第二图像特征。可以理解，计算机设备可对初始的噪声图像进行一次降噪，并将一次降噪后得到的图像作为目标图像。

上述实施例中，通过将目标场景描述文本的文本语义特征和噪声图像的第一图像特征进行卷积处理，可以得到降噪后的第二图像特征，进而再基于降噪后的第二图像特征生成目标图像，可以提升针对噪声图像的降噪效果。

在一个实施例中，将目标场景描述文本的文本语义特征和第一图像特征进行卷积处理，得到第二图像特征，包括：对噪声图像在第一编码时刻的第一图像特征进行扩散采样，得到噪声图像在第二编码时刻的第一图像特征；第一编码时刻位于第二编码时刻之前；将噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将第二编码时刻作为当前编码时刻，将目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征；将当前编码时刻的前一编码时刻作为下一轮的当前编码时刻，将下一轮作为本轮，将中间态图像特征作为本轮待降噪的基准图像特征，以进行迭代卷积处理，直至当前编码时刻为第一编码时刻时停止迭代降噪，并将第一编码时刻对应的中间态图像特征作为第二图像特征。

其中，扩散采样可以理解为在编码空间中进行未来编码时刻的推算，即，对噪声图像在第一编码时刻的第一图像特征进行未来编码时刻的推算，得到噪声图像在第二编码时刻的第一图像特征，其中，第一编码时刻位于第二编码时刻之前，第二编码时刻是编码空间中第一编码时刻的未来时刻。第一编码时刻和第二编码时刻之间可以存在一个或多个编码时刻，也可以不存在编码时刻。在第一编码时刻和第二编码时刻之间不存在编码时刻的情况下，第二编码时刻是编码空间中第一编码时刻的下一编码时刻。

具体地，计算机设备可对噪声图像在第一编码时刻的第一图像特征进行扩散采样，得到噪声图像在第二编码时刻的第一图像特征。计算机设备可将目标场景描述文本的文本语义特征和第一图像特征进行多次卷积处理(即多轮降噪处理)，得到第二图像特征。可以理解，计算机设备可将噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将第二编码时刻作为当前编码时刻，将目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征。计算机设备可将当前编码时刻的前一编码时刻作为下一轮的当前编码时刻，将下一轮作为本轮，将中间态图像特征作为本轮待降噪的基准图像特征，返回执行将目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理的步骤及其后续步骤，以进行迭代卷积处理，直至当前编码时刻为第一编码时刻时停止迭代降噪，并将第一编码时刻对应的中间态图像特征作为第二图像特征。进而，计算机设备可对第二图像特征进行解码，得到针对噪声图像降噪后的目标图像。

在一个实施例中，如图5所示，计算机设备可将初始的场景描述文本输入至已训练的布局识别模型，以通过已训练的布局识别模型对初始的场景描述文本进行特征编码，得到场景描述文本的文本语义特征，并基于场景描述文本的文本语义特征对场景描述文本进行布局识别，得到场景描述文本对应的场景布局信息。进而计算机设备可将场景布局信息添加至初始的场景描述文本中，得到目标场景描述文本。计算机设备可将目标场景描述文本输入至已训练的图像生成模型，以通过已训练的图像生成模型对目标场景描述文本进行特征编码，得到目标场景描述文本的文本语义特征。计算机设备可获取噪声图像，并对噪声图像在第一编码时刻(比如，第0个编码时刻)的第一图像特征进行扩散采样，得到噪声图像在第二编码时刻(比如，第T个编码时刻，其中T为任一正整数)的第一图像特征。计算机设备可将噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将第二编码时刻作为当前编码时刻，通过已训练的图像生成模型中降噪单元的交叉注意力网络，将目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征。计算机设备可将当前编码时刻的前一编码时刻(比如，第T-1个时刻)作为下一轮的当前编码时刻，将下一轮作为本轮，将中间态图像特征作为本轮待降噪的基准图像特征，返回执行将目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理的步骤及其后续步骤，以进行迭代卷积处理，直至当前编码时刻为第一编码时刻时(即第0个编码时刻)停止迭代降噪，并将第一编码时刻对应的中间态图像特征作为第二图像特征，并对第二图像特征进行解码，得到针对噪声图像降噪后的目标图像。

上述实施例中，在编码空间中，通过对噪声图像在第一编码时刻的第一图像特征进行扩散采样，可以得到噪声图像在第二编码时刻的第一图像特征，由于第一编码时刻位于第二编码时刻之前，因此，可以对第一编码时刻与第二编码时刻之间的每一编码时刻依次进行降噪，通过针对噪声图像的多次降噪，可以得到噪声水平更低的目标图像，从而可以进一步提升图像生成准确率。

在一个实施例中，场景布局信息是通过已训练的布局识别模型确定得到的；方法还包括：获取至少一个第一样本场景描述文本；第一样本场景描述文本标注有参照场景布局信息；通过待训练的布局识别模型对第一样本场景描述文本进行布局预测，得到预测场景布局信息；根据预测场景布局信息与参照场景布局信息之间的差异，对待训练的布局识别模型进行迭代训练，得到已训练的布局识别模型。

其中，第一样本场景描述文本，是用于训练布局识别模型的文本。参照场景布局信息，是第一样本场景描述文本对应的真实的场景布局信息，在训练布局识别模型过程中起到参考作用，以引导待训练的布局识别模型中模型参数的更新。预测场景布局信息，是待训练的布局识别模型在训练过程中预测得到的场景布局信息。

具体地，如图6所示，计算机设备可获取至少一个第一样本场景描述文本，其中，第一样本场景描述文本标注有参照场景布局信息。计算机设备可将第一样本场景描述文本输入至待训练的布局识别模型(包括编码层和分类层)，以通过待训练的布局识别模型对第一样本场景描述文本进行布局预测，得到预测场景布局信息。进而，计算机设备可根据预测场景布局信息与参照场景布局信息之间的差异，确定针对待训练的布局识别模型进行训练的损失值，并根据确定的损失值对待训练的布局识别模型进行迭代训练，直至满足布局训练代停止条件时停止，得到已训练的布局识别模型。

在一个实施例中，布局训练迭代停止条件可以是迭代次数满足预设布局训练迭代次数，也可以是针对待训练的布局识别模型进行训练的损失值小于预设布局训练损失值。

在一个实施例中，针对待训练的布局识别模型进行训练的损失值可以通过以下公式确定得到：

其中，M表示参照场景布局信息所表征布局的类别数量，p_ic表示第一样本场景描述文本，即样本i属于c分类的预测概率，y_ic表示样本i的标签是否为c(当是c，则y_ic为1，否则为0)，L表示针对待训练的布局识别模型进行训练的损失值。

上述实施例中，由于第一样本场景描述文本标注有提供给训练过程中作为参考的参照场景布局信息，因此通过第一样本场景描述文本对待训练的布局识别模型进行训练，可以提升已训练的布局识别模型的布局识别准确率。

在一个实施例中，目标图像是通过已训练的图像生成模型生成得到的；方法还包括：获取至少一个样本图文对；样本图文对中包括第二样本场景描述文本和参照图像；第二样本场景描述文本中添加有第二样本场景描述文本对应的场景布局信息；参照图像用于呈现第二样本场景描述文本所描述的场景；针对每个样本图文对，对样本图文对中的参照图像加入噪声，得到样本噪声图像，并将样本噪声图像和样本图文对中的第二样本场景描述文本输入至待训练的图像生成模型，以通过待训练的图像生成模型基于第二样本场景描述文本对样本噪声图像进行降噪，得到样本图文对对应的预测图像；根据各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

其中，样本图文对，是用于训练待训练的图像生成模型的图文对。第二样本场景描述文本，是样本图文对中用于训练待训练的图像生成模型的文本。参照图像是样本图文对中用于训练待训练的图像生成模型的图像，其在训练待训练的图像生成模型过程中起到参考作用，以引导待训练的图像生成模型中模型参数的更新。预测图像是待训练的图像生成模型在训练过程中预测得到的图像。

具体地，计算机设备可获取至少一个样本图文对，其中，样本图文对中包括第二样本场景描述文本和参照图像。第二样本场景描述文本中添加有第二样本场景描述文本对应的场景布局信息。第二样本场景描述文本对应的场景布局信息，用于表征第二样本场景描述文本所描述的场景中各场景对象之间的相对位置关系。参照图像用于呈现第二样本场景描述文本所描述的场景，可以理解，呈现的场景中各场景对象之间的位置关系，满足第二样本场景描述文本所描述的场景中各场景对象之间的相对位置关系。在训练待训练的图像生成模型之前，针对每个样本图文对，计算机设备可对样本图文对中的参照图像加入噪声，得到在训练过程中使用的样本噪声图像。在训练待训练的图像生成模型过程中，计算机设备可将样本噪声图像和样本图文对中的第二样本场景描述文本输入至待训练的图像生成模型，以通过待训练的图像生成模型基于第二样本场景描述文本对样本噪声图像进行降噪，得到样本图文对对应的预测图像。进而，计算机设备可根据各样本图文对分别对应的预测图像与相应参照图像之间的差异，确定目标损失值，并根据目标损失值对待训练的图像生成模型进行迭代训练，直至满足生成训练迭代停止条件，得到已训练的图像生成模型。

在一个实施例中，生成训练迭代停止条件可以是迭代次数满足预设生成训练迭代次数，也可以是针对待训练的图像生成模型进行训练的损失值小于预设生成训练损失值。

上述实施例中，由于样本图文对中包括第二样本场景描述文本和提供给训练过程中作为参考的参照图像，第二样本场景描述文本中添加有第二样本场景描述文本对应的场景布局信息，参照图像用于呈现第二样本场景描述文本所描述的场景，因此通过样本图文对对待训练的图像生成模型进行训练，可以提升已训练的图像生成模型的图像生成准确率。

在一个实施例中，第二样本场景描述文本中还添加有第二样本场景描述文本对应的风格信息；在迭代训练过程中每轮迭代所使用的样本图文对包括至少一个批次的样本图文对；每个批次的样本图文对中参照图像包括参照布局图像和参照风格图像；根据各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型，包括：针对每轮迭代训练中的每个批次，将批次中各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行训练，得到批次对应的图像生成模型；在满足迭代停止条件的情况下，将最后一轮迭代训练中最后一个批次对应的图像生成模型作为已训练的图像生成模型。

其中，参照布局图像具有目标布局，目标布局是参照布局图像对应的第二样本场景描述文本中场景布局信息所表征的布局。参照风格图像具有目标风格，目标风格是参照风格图像对应的第二样本场景描述文本中风格信息所表征的风格。

具体地，在每轮迭代训练过程中，由于训练机器，即计算机设备的显存资源有限，不能把全量的样本图文对一次性全部输入至待训练的图像生成模型中进行训练，故需要对全量的样本图文分批次输入至待训练的图像生成模型中进行训练，每个批次的样本图文对中参照图像包括参照布局图像和参照风格图像。在所有批次或完成预设批次数量的情况下，视为完成一次迭代训练。针对每轮迭代训练中的每个批次，计算机设备可根据该批次中各样本图文对分别对应的预测图像与相应参照图像之间的差异，确定训练的目标损失值，并根据目标损失值对待训练的图像生成模型进行训练，得到批次对应的图像生成模型。在满足迭代停止条件的情况下，计算机设备可将最后一轮迭代训练中最后一个批次对应的图像生成模型作为已训练的图像生成模型。

上述实施例中，由于每个批次的样本图文对中参照图像包括参照布局图像和参照风格图像，因此可以在每次调整待训练的图像生成模型时都可同时关注布局和风格，可避免待训练的图像生成模型在训练过程中出现过度拟合的问题，进一步提升了已训练的图像生成模型的图像生成准确率。

在一个实施例中，每个批次中的参照图像还包括样本风格迁移图像；样本风格迁移图像，是对参照布局图像进行针对不同风格的迁移处理得到的图像；样本风格迁移图像具有参照布局图像对应的布局、以及迁移处理所使用的风格。

在一个实施例中，如图7所示，计算机设备可将参照布局图像和参照风格图像输入至已训练的风格迁移模型，以通过风格迁移模型对参照布局图像进行针对参照风格图像所表征风格的迁移处理，得到同时具有参照布局图像对应的布局、以及参照风格图像所对应的风格的样本风格迁移图像。

举例说明，参照布局图像包括满足布局1的参照布局图像1和满足布局2的参照布局图像2，参照风格图像满足风格1的参照风格图像1。计算机设备可对布局1的参照布局图像1进行针对风格1的迁移处理，得到样本风格迁移图像1。可以理解，样本风格迁移图像1具有布局1、以及迁移处理所使用的风格1。计算机设备可对布局2的参照布局图像2进行针对风格1的迁移处理，得到样本风格迁移图像2。可以理解，样本风格迁移图像2具有布局2、以及迁移处理所使用的风格1。

在一个实施例中，如图8所示，每个批次的样本图文对中的参照图像同时包括有参照布局图像、参照风格图像和样本风格迁移图像。针对每个批次，将该批次的样本图文对输入至待训练的图像生成模型，并根据各样本图文对分别对应的目标损失值对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

计算机设备可获取初始的图像生成模型，可以理解，初始的图像生成模型是已通过开源数据集进行过初始训练的图像生成模型。计算机设备可通过微调的方式对初始的图像生成模型进行进阶的训练。具体地，每个批次的样本图文对中的参照图像同时包括有参照布局图像、参照风格图像和样本风格迁移图像，可以理解，如图9所示，针对初始的图像生成模型的每次微调训练，都可同时包括布局标签、风格标签、以及布局和风格组合后的标签，可以避免训练过程中出现训练样本数据出现偏差，从而可以避免已训练的图像生成模型出现过度拟合的问题。可以理解，对初始的图像生成模型的微调，只需要更新初始的图像生成模型中降噪单元的参数，初始的图像生成模型中其他单元的参数可以不需要调整。

上述实施例中，每个批次的样本图文对中参照图像除了包括参照布局图像和参照风格图像之外，还包括有样本风格迁移图像，增强了样本图文对中的参照图像的多样性，使得针对初始的图像生成模型的训练样本更为丰富，可以更好地对初始的图像生成模型进行训练，进一步提升了已训练的图像生成模型的图像生成准确率。

在一个实施例中，每个批次的样本图文对中参照布局图像是从预先生成的各布局图像组中抽取得到的图像；同一布局图像组中的各图像具有相同的布局；方法还包括：获取至少一个视频；将各视频中的各图像分别进行前景擦除，得到背景图像；根据各背景图像分别对应的图像布局特征，对各背景图像进行聚类，得到至少一个的布局图像组。

具体地，计算机设备可获取至少一个视频，并将各视频中的各图像分别进行前景擦除，得到背景图像。计算机设备可分别对各背景图像进行特征编码，得到各背景图像分别对应的图像布局特征。进而，计算机设备可根据各背景图像分别对应的图像布局特征，对各背景图像进行聚类，得到至少一个聚类簇，并将各聚类簇分别作为不同的布局图像组。

在一个实施例中，针对各视频中的每个图像，计算机设备可对该图像进行显著性识别，得到该图像的显著性区域。可以理解，显著性区域可以视为该图像的前景。计算机设备可将该图像的显著性区域进行擦除，得到图像对应的前景擦除后的背景图像。

上述实施例中，通过将视频中的各图像分别进行前景擦除，可以将背景从图像中抽离出来，得到参照布局图像，避免了图像背景与前景过度拟合，从而使得利用包含参照布局图像的样本图文对训练得到的图像生成模型具有更高的图像生成准确率。

在一个实施例中，将各视频中的各图像分别进行前景擦除，得到背景图像，包括：针对各视频中的每个图像，对图像进行显著性识别，得到图像的显著性图像；显著性图像中各像素点对应的灰度值用于表征各像素点的显著程度；根据显著性图像中各像素点分别对应的灰度值，生成掩膜图像；掩膜图像用于表征图像中的显著性区域；根据掩膜图像对图像中的显著性区域进行擦除，得到图像对应的背景图像。

具体地，针对各视频中的每个图像，计算机设备可确定该图像中的各像素点分别对应的灰度值，得到图像的显著性图像，其中，显著性图像中各像素点对应的灰度值用于表征各像素点的显著程度。计算机设备可根据显著性图像中各像素点分别对应的灰度值，生成该对象对应的掩膜图像，其中，掩膜图像用于表征该图像中的显著性区域。进而，计算机设备可根据掩膜图像对该图像中的显著性区域进行擦除，得到该图像对应的背景图像。

在一个实施例中，针对各视频中的每个图像，计算机设备可将该图像输入至已训练的显著性识别模型，以通过已训练的显著性识别模型确定该图像中的各像素点分别对应的灰度值，得到图像的显著性图像。

在一个实施例中，针对各视频中的每个图像，计算机设备可将显著性图像中各像素点对应的灰度值，分别与预设的灰度阈值进行比对，并将灰度值小于灰度阈值的像素点的灰度值置为0，将灰度值大于或等于灰度阈值的像素点的灰度值置为1，得到该对象对应的掩膜图像(mask)。

在一个实施例中，针对各视频中的每个图像，计算机设备可将该图像的掩膜图像中各像素点对应的灰度值分别进行取反，即(1-mask)。比如，灰度值为1的像素点取反之后灰度值为0，灰度值为0的像素点取反之后灰度值为1。计算机可将灰度值取反后的图像与该图像相乘，即(1-mask)×图像，以实现对该图像中的显著性区域的擦除，得到该图像对应的背景图像。

在一个实施例中，如图10所示，视频中的图像(a)、图像(b)、图像(c)、图像(d)、图像(e)、图像(f)和图像(g)均是具有背景和前景的图像，比如，图像(a)、图像(b)、图像(c)、图像(d)、图像(e)和图像(f)的前景的动物，背景是草原、山坡或树林等中的至少一种。图像(g)的前景是沙发，背景是房间。如图11所示，计算机设备可分别对这些图像进行显著性识别，得到这些图像分别对应的显著性区域。可以理解，显著性区域可以视为这些图像的前景(即，动物或沙发，也即图11中的白色区域部分)。计算机设备可将这些图像的显著性区域(白色区域部分)进行擦除，得到图像对应的前景擦除后的背景图像(即，草原、山坡或树林等中的至少一种)。

上述实施例中，通过对图像进行显著性识别，可以得到图像的显著性图像，根据显著性图像中各像素点分别对应的灰度值，可以生成表征图像中的显著性区域掩膜图像，进而再根据掩膜图像对图像中的显著性区域进行擦除，可以提升显著性区域擦除准确率。

在一个实施例中，每个批次的样本图文对中参照风格图像是从预先生成的各风格图像组中抽取得到的图像；同一风格图像组中的各图像具有相同的风格；方法还包括：获取至少一个视频；其中，一个视频对应一种风格；针对每个视频，从视频中采样至少一个视频图像，并将采样得到的视频图像进行组合，得到视频对应的风格图像组。

具体地，计算机设备可获取至少一个视频，可以理解，一个视频对应一种风格。针对每个视频，计算机设备可从该视频中采样至少一个视频图像，并将采样得到的视频图像进行组合，得到该视频对应的风格图像组。

在一个实施例中，针对每个视频，计算机设备可对视频中的各图像进行特征提取，得到图像特征，并根据提取的图像特征对该视频中的各图像进行聚类，得到该视频对应的至少一个图像集合。其中，同一图像集合中的各图像的主体图像内容相同。计算机设备可分别从各图像集合中采样至少一个图像，并将采样得到的图像进行组合，得到该视频对应的风格图像组。其中，主体图像内容是图像中作为主体的对象。比如，两只羊在广阔的草原上奔跑，则“两只羊”和“草原”则属于主体图像内容。

上述实施例中，由于一个视频对应一种风格，因此针对每个视频，从该视频中采样至少一个视频图像形成该视频对应的风格图像组，提升了风格图像组的生成准确率。

在一个实施例中，根据各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型，包括：针对每个样本图文对，根据样本图文对对应的预测图像的预测图像特征与相应参照图像的参照图像特征之间的差异，确定第一损失值；根据样本图文对对应的预测图像中像素点的像素值与相应参照图像中像素点的像素值之间的差异，确定第二损失值；将第一损失值和第二损失值进行融合，得到样本图文对对应的目标损失值；根据各样本图文对分别对应的目标损失值对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

其中，第一损失值，是基于样本图文对对应的预测图像的预测图像特征与相应参照图像的参照图像特征之间的差异确定得到的损失值。第二损失值，是基于样本图文对对应的预测图像中像素点的像素值与相应参照图像中像素点的像素值之间的差异确定得到的损失值。目标损失值，是将第一损失值和第二损失值融合后得到的损失值。可以理解，目标损失值中同时涵盖了第一损失值和第二损失值。

具体地，针对每个样本图文对，计算机设备可根据样本图文对对应的预测图像的预测图像特征与相应参照图像的参照图像特征之间的差异，确定第一损失值，并根据样本图文对对应的预测图像中像素点的像素值与相应参照图像中像素点的像素值之间的差异，确定第二损失值。计算机设备可将第一损失值和第二损失值进行融合，得到样本图文对对应的目标损失值。进而，计算机设备可根据各样本图文对分别对应的目标损失值对待训练的图像生成模型进行迭代训练，直至满足生成迭代停止条件，得到已训练的图像生成模型。

在一个实施例中，计算机设备可将第一损失值和第二损失值进行加权处理，得到样本图文对对应的目标损失值。

在一个实施例中，第一损失值可通过以下公式计算得到：

其中，n1表示图像中像素点的数量，y_i1表示参照图像的参照图像特征，表示预测图像的预测图像特征，Loss1表示第一损失值。

在一个实施例中，第二损失值可通过以下公式计算得到：

其中，n2表示图像中像素点的数量，y_i2表示参照图像中像素点的像素值，表示预测图像的像素点的像素值，Loss2表示第二损失值。

上述实施例中，由于样本图文对对应的目标损失值可以同时涵盖第一损失值和第二损失值，因此目标损失值对待训练的图像生成模型进行迭代训练，可以进一步提升已训练的图像生成模型的图像生成准确率。

在一个实施例中，如图12所示，为针对待训练的布局识别模型和待训练的图像生成模型设计的训练样本的生成流程。具体地，计算机设备可获取多个视频(比如，电视剧1、电视剧2、电影1、电影2和电影3分别对应的视频)，对多个视频分别进行抽帧处理(比如每秒一帧)。计算机设备可对抽帧得到的各图像进行分镜处理(同一个分镜图像中的主体内容相同)，针对每一个分镜抽取一个分镜代表图像(比如，抽取位于中间时刻的图像作为该分镜的分镜代表)，并对各分镜代表图像进行图像特征提取，基于提取的图像特征对各分镜代表图像进行风格聚类，得到至少一个针对分镜代表图像的聚类簇。可以理解，同一个聚类簇中各图像的风格相同。计算机设备可针对每一个针对分镜代表图像的聚类簇进行风格采样，得到风格图像组。可以理解，一个聚类簇中采样至少一个图像，并基于采样的图像构建一个风格图像组，该风格图像组中各图像的风格相同。比如，风格图像组中可包括风格1对应的风格图像组1，风格2对应的风格图像组2，风格3对应的风格图像组3，风格4对应的风格图像组4，风格5对应的风格图像组5。可以理解，每一部电视剧或电影可对应一种风格。可以理解，本申请每次迭代训练待训练的图像生成模型过程中，每个批次的样本图文对中参照风格图像是从各风格图像组中抽取得到的。

继续参考图12，计算机设备可各分镜代表图像进行前景擦除，得到背景图像的各个图像集合(比如，图像集合1、图像集合2、图像集合3、图像集合4和图像集合5)，可以理解，每一部电视剧或电影可对应一个图像集合。计算机设备可对各背景图像进行直方图均衡，以对各背景图像中各像素点的像素值进行调整，从而实现对背景图像中过亮或过暗的区域进行调节，提升背景图像的质量。计算机设备可对调整后的背景图像进行特征提取，并基于提取的图像特征进行布局聚类，得到至少一个布局聚类簇，可以理解，同一布局聚类簇中的各图像具有相同或相似的布局。由于布局聚类簇中可能存在布局差异较大的图像，因此，通过人工清洗的方式对布局聚类簇进行过滤，以将布局差异较大的图像对应的布局聚类簇进行删除，得到清洗后的各布局图像组。可以理解，同一布局图像组中的各图像具有相同的布局。可以理解，本申请每次迭代训练待训练的图像生成模型过程中，每个批次的样本图文对中参照布局图像是从各布局图像组中抽取得到的。

继续参考图12，计算机设备可将布局聚类簇中的各图像进行文本转换，得到布局聚类簇中各图像分别对应的描述文本。针对同一图像，将该图像对应的布局作为该图像的描述文本的标注信息，得到该图像对应的第一样本场景描述文本，可以理解，第一样本场景描述文本标注有参照场景布局信息。可以理解，本申请的布局识别模型是通过布局聚类簇中各图像分别对应的第一样本场景描述文本训练得到的。

在一个实施例中，如图13所示，本申请的创作性文本包括剧本，场景描述文本包括剧本中对场景进行描述的句子。导演需要拍摄一部电视剧，可以先对剧本中的各个句子分别进行图像生成，生成的图像可以提供给导演做电视剧拍摄前的参考。具体地，计算机可获取剧本，并将剧本进行句子级别的拆解，得到多个句子(比如，句子1-1，句子1-2，句子2，句子3-1等)，即初始的场景描述文本。计算机设备可将拆解得到的句子输入至已训练的布局识别模型进行布局预测，得到各句子分别对应的场景布局信息，并将场景布局信息添加至相应的句子中，得到目标场景描述文本。进而，计算机设备可将目标场景描述文本和初始的噪声图像输入至已训练的图像生成模型，以通过已训练的图像生成模型生成目标图像并存储。进而，导演可预览剧本中各句子对应的目标图像。可以理解，本申请还可对拆分后的句子进行进一步的多次拆解，得到进阶拆解得到的句子。进阶拆解得到的句子的图像生成方式与上述句子的图像生成方式相同。还可以理解，导演预览目标图像之后，若对生成结果不满意，还可以对剧本中的各句子进行删除或增加等至少一种操作。删除或增加操作结束之后，可对剧本中的各句子重新进行图像生成。

如图14所示，在一个实施例中，提供了一种图像生成方法，该方法可应用于计算机设备，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。本实施例以该方法应用于计算机设备为例进行说明，该方法具体包括以下步骤：

步骤1402，获取至少一个第一样本场景描述文本；第一样本场景描述文本标注有参照场景布局信息。

步骤1404，通过待训练的布局识别模型对第一样本场景描述文本进行布局预测，得到预测场景布局信息。

步骤1406，根据预测场景布局信息与参照场景布局信息之间的差异，对待训练的布局识别模型进行迭代训练，得到已训练的布局识别模型。

步骤1408，获取至少一个样本图文对；样本图文对中包括第二样本场景描述文本和参照图像；第二样本场景描述文本中添加有第二样本场景描述文本对应的场景布局信息和风格信息；参照图像用于呈现第二样本场景描述文本所描述的场景。

步骤1410，针对每个样本图文对，对样本图文对中的参照图像加入噪声，得到样本噪声图像，并将样本噪声图像和样本图文对中的第二样本场景描述文本输入至待训练的图像生成模型，以通过待训练的图像生成模型基于第二样本场景描述文本对样本噪声图像进行降噪，得到样本图文对对应的预测图像。

步骤1412，根据各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

步骤1414，获取初始的场景描述文本，并确定场景描述文本对应的风格信息。

步骤1416，将场景描述文本输入至已训练的布局识别模型，以通过已训练的布局识别模型根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息。

步骤1418，在场景描述文本中添加场景布局信息和风格信息，得到目标场景描述文本。

步骤1420，获取初始的噪声图像，并将噪声图像和目标场景描述文本输入至已训练的图像生成模型，以通过已训练的图像生成模型获取噪声图像的第一图像特征。

步骤1422，对噪声图像在第一编码时刻的第一图像特征进行扩散采样，得到噪声图像在第二编码时刻的第一图像特征；第一编码时刻位于第二编码时刻之前。

步骤1424，将噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将第二编码时刻作为当前编码时刻，将目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征。

步骤1426，将当前编码时刻的前一编码时刻作为下一轮的当前编码时刻，将下一轮作为本轮，将中间态图像特征作为本轮待降噪的基准图像特征，以进行迭代卷积处理，直至当前编码时刻为第一编码时刻时停止迭代降噪，并将第一编码时刻对应的中间态图像特征作为第二图像特征。

步骤1428，对第二图像特征进行解码，得到针对噪声图像降噪后的目标图像。

本申请还提供一种应用场景，该应用场景应用上述的图像生成方法。具体地，该图像生成方法可应用于针对武侠剧本的拍摄图像生成场景。可以理解，本申请的创作性文本包括武侠剧本，本申请的场景描述文本包括武侠剧本中对武侠场景进行描述的武侠场景描述文本。在一个具体的应用场景中，影视导演需要拍摄一部武侠电影，可以先对武侠剧本中的各个武侠场景描述文本分别进行图像生成，生成的图像可以提供给影视导演做电影拍摄前的参考，通过拍摄前的画面参考，可以缩短武侠电影的拍摄时间，同时，还可以快速进行预算估计，对影视拍摄行业具有重要的正面影响。具体地，本申请可通过已训练的布局识别模型对各武侠场景描述文本进行预测，通过已训练的图像生成模型实现针对武侠场景描述文本的图像生成。

在训练待训练的布局识别模型的过程中，计算机设备可获取至少一个第一样本武侠场景描述文本；第一样本武侠场景描述文本标注有参照场景布局信息。通过待训练的布局识别模型对第一样本武侠场景描述文本进行布局预测，得到预测场景布局信息。根据预测场景布局信息与参照场景布局信息之间的差异，对待训练的布局识别模型进行迭代训练，得到已训练的布局识别模型。

在训练待训练的图像生成模型的过程中，计算机设备可获取至少一个样本图文对；样本图文对中包括第二样本武侠场景描述文本和参照图像；第二样本武侠场景描述文本中添加有第二样本武侠场景描述文本对应的场景布局信息和风格信息；参照图像用于呈现第二样本武侠场景描述文本所描述的武侠场景。针对每个样本图文对，对样本图文对中的参照图像加入噪声，得到样本噪声图像，并将样本噪声图像和样本图文对中的第二样本武侠场景描述文本输入至待训练的图像生成模型，以通过待训练的图像生成模型基于第二样本武侠场景描述文本对样本噪声图像进行降噪，得到样本图文对对应的预测图像。根据各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

在待训练的布局识别模型和待训练的图像生成模型训练完成之后，即，在应用阶段，计算机设备可获取武侠剧本，并对武侠剧本进行句子级别的拆解，得到多个初始的武侠场景描述文本。计算机设备可确定武侠场景描述文本对应的风格信息(比如，动漫风格、国漫风格、水墨风格、现代真人风格和古装真人风格等中的任一种)。将武侠场景描述文本输入至已训练的布局识别模型，以通过已训练的布局识别模型根据武侠场景描述文本的文本语义特征，预测武侠场景描述文本对应的场景布局信息。在武侠场景描述文本中添加场景布局信息和风格信息，得到目标武侠场景描述文本。获取初始的噪声图像，并将噪声图像和目标武侠场景描述文本输入至已训练的图像生成模型，以通过已训练的图像生成模型获取噪声图像的第一图像特征。对噪声图像在第一编码时刻的第一图像特征进行扩散采样，得到噪声图像在第二编码时刻的第一图像特征；第一编码时刻位于第二编码时刻之前。

计算机设备可将噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将第二编码时刻作为当前编码时刻，将目标武侠场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征。将当前编码时刻的前一编码时刻作为下一轮的当前编码时刻，将下一轮作为本轮，将中间态图像特征作为本轮待降噪的基准图像特征，以进行迭代卷积处理，直至当前编码时刻为第一编码时刻时停止迭代降噪，并将第一编码时刻对应的中间态图像特征作为第二图像特征。对第二图像特征进行解码，得到针对噪声图像降噪后的目标图像。可以理解，得到的各目标图像则为武侠剧本中各武侠场景描述文本分别对应的图像，这些目标图像可以提供给影视导演做影视拍摄前的参考。通过本申请的图像生成方法可以提升武侠剧本对应的武侠图像的生成准确率。

本申请还另外提供一种应用场景，该应用场景应用上述的图像生成方法。具体地，该图像生成方法可应用于画家创作过程中参考图像的生成场景。可以理解，通过本申请的图像生成方法可以对需要绘制的场景进行图像生成，生成的图像可以提供给画家进行参考，以启发画家进行更深层次的创作。可以理解，本申请中的场景描述文本可以包括绘画场景描述文本。具体地，画家可以针对需要创作的场景输入一个绘画场景描述文本，计算机设备可通过本申请的图像生成方法，针对输入的绘画场景描述文本进行图像生成，得到一张符合绘画场景描述文本的图像，以供画家进行更深层次的创作，创作出更多优秀的绘画作品。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照顺序依次显示，但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一编码时刻执行完成，而是可以在不同的编码时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图15所示，提供了一种图像生成装置1500，该装置具体包括：

获取模块1502，用于获取初始的场景描述文本；

预测模块1504，用于根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息；场景布局信息，用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系；

添加模块1506，用于在场景描述文本中添加场景布局信息，得到目标场景描述文本；

降噪模块1508，用于获取初始的噪声图像，并根据目标场景描述文本的文本语义特征对噪声图像进行降噪，得到目标图像；其中，目标图像用于呈现场景；呈现的场景中各场景对象之间的位置关系满足相对位置关系。

在一个实施例中，场景布局信息包括场景布局类别；预测模块1504还用于根据场景描述文本的文本语义特征，对场景描述文本进行布局分类处理，得到场景描述文本所属的场景布局类别。

在一个实施例中，装置还包括：

确定模块，用于确定场景描述文本对应的风格信息；

添加模块1506还用于在场景描述文本中添加场景布局信息和风格信息，得到目标场景描述文本。

在一个实施例中，风格信息包括风格类别；确定模块还用于确定场景描述文本所属的创作性文本；创作性文本中包括创作的多条用于对场景进行描述的场景描述文本；根据创作性文本中的场景描述文本，提取创作性文本的文本语义特征；根据创作性文本的文本语义特征，对创作性文本进行风格分类处理，得到创作性文本所属的风格类别，并将创作性文本所属的风格类别作为场景描述文本对应的风格类别。

在一个实施例中，降噪模块1508还用于获取噪声图像的第一图像特征；将目标场景描述文本的文本语义特征和第一图像特征进行卷积处理，得到第二图像特征；对第二图像特征进行解码，得到针对噪声图像降噪后的目标图像。

在一个实施例中，降噪模块1508还用于对噪声图像在第一编码时刻的第一图像特征进行扩散采样，得到噪声图像在第二编码时刻的第一图像特征；第一编码时刻位于第二编码时刻之前；将噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将第二编码时刻作为当前编码时刻，将目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征；将当前编码时刻的前一编码时刻作为下一轮的当前编码时刻，将下一轮作为本轮，将中间态图像特征作为本轮待降噪的基准图像特征，以进行迭代卷积处理，直至当前编码时刻为第一编码时刻时停止迭代降噪，并将第一编码时刻对应的中间态图像特征作为第二图像特征。

在一个实施例中，场景布局信息是通过已训练的布局识别模型确定得到的；装置还包括：

第一训练模块，用于获取至少一个第一样本场景描述文本；第一样本场景描述文本标注有参照场景布局信息；通过待训练的布局识别模型对第一样本场景描述文本进行布局预测，得到预测场景布局信息；根据预测场景布局信息与参照场景布局信息之间的差异，对待训练的布局识别模型进行迭代训练，得到已训练的布局识别模型。

在一个实施例中，目标图像是通过已训练的图像生成模型生成得到的；装置还包括：

第二训练模块，用于获取至少一个样本图文对；样本图文对中包括第二样本场景描述文本和参照图像；第二样本场景描述文本中添加有第二样本场景描述文本对应的场景布局信息；参照图像用于呈现第二样本场景描述文本所描述的场景；针对每个样本图文对，对样本图文对中的参照图像加入噪声，得到样本噪声图像，并将样本噪声图像和样本图文对中的第二样本场景描述文本输入至待训练的图像生成模型，以通过待训练的图像生成模型基于第二样本场景描述文本对样本噪声图像进行降噪，得到样本图文对对应的预测图像；根据各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

在一个实施例中，第二样本场景描述文本中还添加有第二样本场景描述文本对应的风格信息；在迭代训练过程中每轮迭代所使用的样本图文对包括至少一个批次的样本图文对；每个批次的样本图文对中参照图像包括参照布局图像和参照风格图像；第二训练模块还用于针对每轮迭代训练中的每个批次，将批次中各样本图文对分别对应的预测图像与相应参照图像之间的差异，对待训练的图像生成模型进行训练，得到批次对应的图像生成模型；在满足迭代停止条件的情况下，将最后一轮迭代训练中最后一个批次对应的图像生成模型作为已训练的图像生成模型。

在一个实施例中，每个批次的样本图文对中参照布局图像是从预先生成的各布局图像组中抽取得到的图像；同一布局图像组中的各图像具有相同的布局；装置还包括：

第一生成模块，用于获取至少一个视频；将各视频中的各图像分别进行前景擦除，得到背景图像；根据各背景图像分别对应的图像布局特征，对各背景图像进行聚类，得到至少一个的布局图像组。

在一个实施例中，第一生成模块还用于针对各视频中的每个图像，对图像进行显著性识别，得到图像的显著性图像；显著性图像中各像素点对应的灰度值用于表征各像素点的显著程度；根据显著性图像中各像素点分别对应的灰度值，生成掩膜图像；掩膜图像用于表征图像中的显著性区域；根据掩膜图像对图像中的显著性区域进行擦除，得到图像对应的背景图像。

在一个实施例中，每个批次的样本图文对中参照风格图像是从预先生成的各风格图像组中抽取得到的图像；同一风格图像组中的各图像具有相同的风格；装置还包括：

第二生成模块，用于获取至少一个视频；其中，一个视频对应一种风格；针对每个视频，从视频中采样至少一个视频图像，并将采样得到的视频图像进行组合，得到视频对应的风格图像组。

在一个实施例中，第二训练模块还用于针对每个样本图文对，根据样本图文对对应的预测图像的预测图像特征与相应参照图像的参照图像特征之间的差异，确定第一损失值；根据样本图文对对应的预测图像中像素点的像素值与相应参照图像中像素点的像素值之间的差异，确定第二损失值；将第一损失值和第二损失值进行融合，得到样本图文对对应的目标损失值；根据各样本图文对分别对应的目标损失值对待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

上述图像生成装置，通过获取初始的场景描述文本，并根据场景描述文本的文本语义特征，预测场景描述文本对应的场景布局信息。场景布局信息，用于表征场景描述文本所描述的场景中各场景对象之间的相对位置关系。在场景描述文本中添加场景布局信息，得到具有场景布局信息的目标场景描述文本。获取初始的噪声图像，并根据具有场景布局信息的目标场景描述文本的文本语义特征对噪声图像进行降噪，且由于目标场景描述文本的文本语义特征中包含有场景的布局信息，因此可以使得生成的目标图像用于呈现初始的场景描述文本所描述的场景，且呈现的场景中各场景对象之间的位置关系满足相对位置关系，从而提升了图像生成准确率。

上述图像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像生成方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取初始的场景描述文本；

2.根据权利要求1所述的方法，其特征在于，所述场景布局信息包括场景布局类别；所述根据所述场景描述文本的文本语义特征，预测所述场景描述文本对应的场景布局信息，包括：

根据所述场景描述文本的文本语义特征，对所述场景描述文本进行布局分类处理，得到所述场景描述文本所属的场景布局类别。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述场景描述文本对应的风格信息；

所述在所述场景描述文本中添加所述场景布局信息，得到目标场景描述文本，包括：

在所述场景描述文本中添加所述场景布局信息和所述风格信息，得到目标场景描述文本。

4.根据权利要求3所述的方法，其特征在于，所述风格信息包括风格类别；所述确定所述场景描述文本对应的风格信息，包括：

确定所述场景描述文本所属的创作性文本；所述创作性文本中包括创作的多条用于对场景进行描述的场景描述文本；

根据所述创作性文本中的场景描述文本，提取所述创作性文本的文本语义特征；

根据所述创作性文本的文本语义特征，对所述创作性文本进行风格分类处理，得到所述创作性文本所属的风格类别，并将所述创作性文本所属的风格类别作为所述场景描述文本对应的风格类别。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标场景描述文本的文本语义特征对所述噪声图像进行降噪，得到目标图像，包括：

获取所述噪声图像的第一图像特征；

将所述目标场景描述文本的文本语义特征和所述第一图像特征进行卷积处理，得到第二图像特征；

对所述第二图像特征进行解码，得到针对所述噪声图像降噪后的目标图像。

6.根据权利要求5所述的方法，其特征在于，所述将所述目标场景描述文本的文本语义特征和所述第一图像特征进行卷积处理，得到第二图像特征，包括：

对所述噪声图像在第一编码时刻的第一图像特征进行扩散采样，得到所述噪声图像在第二编码时刻的第一图像特征；所述第一编码时刻位于所述第二编码时刻之前；

将所述噪声图像在第二编码时刻的第一图像特征作为本轮待降噪的基准图像特征，将所述第二编码时刻作为当前编码时刻，将所述目标场景描述文本的文本语义特征和本轮的基准图像特征进行卷积处理，得到本轮在当前编码时刻对应的降噪后的中间态图像特征；

将所述当前编码时刻的前一编码时刻作为下一轮的当前编码时刻，将下一轮作为本轮，将所述中间态图像特征作为本轮待降噪的基准图像特征，以进行迭代卷积处理，直至所述当前编码时刻为所述第一编码时刻时停止迭代降噪，并将所述第一编码时刻对应的中间态图像特征作为第二图像特征。

7.根据权利要求1所述的方法，其特征在于，所述场景布局信息是通过已训练的布局识别模型确定得到的；所述方法还包括：

获取至少一个第一样本场景描述文本；所述第一样本场景描述文本标注有参照场景布局信息；

通过待训练的布局识别模型对所述第一样本场景描述文本进行布局预测，得到预测场景布局信息；

根据所述预测场景布局信息与所述参照场景布局信息之间的差异，对所述待训练的布局识别模型进行迭代训练，得到已训练的布局识别模型。

8.根据权利要求1所述的方法，其特征在于，所述目标图像是通过已训练的图像生成模型生成得到的；所述方法还包括：

获取至少一个样本图文对；所述样本图文对中包括第二样本场景描述文本和参照图像；所述第二样本场景描述文本中添加有所述第二样本场景描述文本对应的场景布局信息；所述参照图像用于呈现所述第二样本场景描述文本所描述的场景；

针对每个样本图文对，对所述样本图文对中的所述参照图像加入噪声，得到样本噪声图像，并将所述样本噪声图像和所述样本图文对中的所述第二样本场景描述文本输入至待训练的图像生成模型，以通过所述待训练的图像生成模型基于所述第二样本场景描述文本对所述样本噪声图像进行降噪，得到所述样本图文对对应的预测图像；

根据各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异，对所述待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

9.根据权利要求8所述的方法，其特征在于，所述第二样本场景描述文本中还添加有所述第二样本场景描述文本对应的风格信息；在迭代训练过程中每轮迭代所使用的所述样本图文对包括至少一个批次的样本图文对；每个批次的所述样本图文对中参照图像包括参照布局图像和参照风格图像；

所述根据各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异，对所述待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型，包括：

针对每轮迭代训练中的每个批次，将所述批次中各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异，对所述待训练的图像生成模型进行训练，得到所述批次对应的图像生成模型；

在满足迭代停止条件的情况下，将最后一轮迭代训练中最后一个批次对应的图像生成模型作为已训练的图像生成模型。

10.根据权利要求9所述的方法，其特征在于，所述每个批次中的参照图像还包括样本风格迁移图像；所述样本风格迁移图像，是对所述参照布局图像进行针对不同风格的迁移处理得到的图像；所述样本风格迁移图像具有所述参照布局图像对应的布局、以及所述迁移处理所使用的风格。

11.根据权利要求9所述的方法，其特征在于，每个批次的所述样本图文对中参照布局图像是从预先生成的各布局图像组中抽取得到的图像；同一所述布局图像组中的各图像具有相同的布局；所述方法还包括：

获取至少一个视频；

将各所述视频中的各图像分别进行前景擦除，得到背景图像；

根据各所述背景图像分别对应的图像布局特征，对各所述背景图像进行聚类，得到至少一个的布局图像组。

12.根据权利要求11所述的方法，其特征在于，所述将各所述视频中的各图像分别进行前景擦除，得到背景图像，包括：

针对各所述视频中的每个图像，对所述图像进行显著性识别，得到所述图像的显著性图像；所述显著性图像中各像素点对应的灰度值用于表征各所述像素点的显著程度；

根据所述显著性图像中各所述像素点分别对应的灰度值，生成掩膜图像；所述掩膜图像用于表征所述图像中的显著性区域；

根据所述掩膜图像对所述图像中的显著性区域进行擦除，得到所述图像对应的背景图像。

13.根据权利要求9所述的方法，其特征在于，每个批次的所述样本图文对中参照风格图像是从预先生成的各风格图像组中抽取得到的图像；同一所述风格图像组中的各图像具有相同的风格；所述方法还包括：

获取至少一个视频；其中，一个所述视频对应一种风格；

针对每个视频，从所述视频中采样至少一个视频图像，并将采样得到的所述视频图像进行组合，得到所述视频对应的风格图像组。

14.根据权利要求8所述的方法，其特征在于，所述根据各所述样本图文对分别对应的所述预测图像与相应参照图像之间的差异，对所述待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型，包括：

针对每个样本图文对，根据所述样本图文对对应的所述预测图像的预测图像特征与相应参照图像的参照图像特征之间的差异，确定第一损失值；

根据所述样本图文对对应的所述预测图像中像素点的像素值与相应参照图像中像素点的像素值之间的差异，确定第二损失值；

将所述第一损失值和第二损失值进行融合，得到所述样本图文对对应的目标损失值；

根据各所述样本图文对分别对应的目标损失值对所述待训练的图像生成模型进行迭代训练，得到已训练的图像生成模型。

15.一种图像生成装置，其特征在于，所述装置包括：

获取模块，用于获取初始的场景描述文本；

16.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。

17.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

18.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。