CN117876524A

CN117876524A - 图片生成方法、装置、设备及存储介质

Info

Publication number: CN117876524A
Application number: CN202410153823.1A
Authority: CN
Inventors: 程博; 杨亦威; 冷大炜
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-12

Abstract

本发明属于人工智能技术领域，公开了一种图片生成方法、装置、设备及存储介质。本发明通过获取至少一个目标区域框对应的图片生成描述及区域位置信息；根据区域位置信息及图片生成描述生成目标图片。由于是先根据目标区域框对应的图片生成描述及区域位置信息生成了各目标区域框对应的图像内容及图像内容的布局信息，之后再将各目标区域框对应的图像内容及图像内容的布局信息进行汇总，根据汇总后的整体布局生成完整的目标图片，使得生成的图片布局可控。

Description

图片生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图片生成方法、装置、设备及存储介质。

背景技术

生成式人工智能(Artificial Intelligence Generated Content，AIGC)的文本生成图像技术作为人工智能领域近年来最为流行的生成式人工智能的应用，其相关的衍生应用场景极为广泛。基础的基于扩散模型的文本生成图像技术可以概述为两个过程：扩散过程和去噪过程。扩散过程是将原始图像转为潜空间噪声，并逐步增加噪声的过程，而去噪过程是将噪声图像通过模型预测每一步噪声，逐步实现去噪恢复原始图像的过程。

基于扩散模型的文本生成图像技术的优点在于可以生成具有多样性和写实性的图像，但是生成图像具有一定随机性且图像内容布局不可控，因此，在扩散模型基础上实现具有可控布局的生成能力则具有重要意义，是目前亟需发展的技术方向。

发明内容

本发明的主要目的在于提供一种图片生成方法、装置、设备及存储介质，旨在解决现有技术生成图像的图像内容布局不可控的技术问题。

为实现上述目的，本发明提供了一种图片生成方法，所述方法包括以下步骤：

获取至少一个目标区域框对应的图片生成描述及区域位置信息；

根据所述区域位置信息及所述图片生成描述生成目标图片。

可选的，所述根据所述区域位置信息及所述图片生成描述生成目标图片的步骤之前，还包括：

获取初始生成模型，所述初始生成模型包括主干生成模型及旁支生成模型；

通过模型样本集对所述初始生成模型中的旁支生成模型进行训练，获得分层可控布局模型；

所述根据所述区域位置信息及所述图片生成描述生成目标图片的步骤，包括：

通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件；

通过所述分层可控布局模型中的主干生成模型根据所述布局生成条件生成目标图片。

可选的，所述通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件的步骤，包括：

若所述图片生成描述的语言类型与所述分层可控布局模型中的旁支生成模型的输入类型不一致，则对所述图片生成描述进行语义提取，获得图片生成语义；

根据所述图片生成语义及所述分层可控布局模型中的旁支生成模型的输入类型生成描述输入信息；

通过分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述描述输入信息生成所述目标区域框对应的布局生成条件。

可选的，所述通过所述分层可控布局模型中的主干生成模型根据所述布局生成条件生成目标图片的步骤，包括：

将所述布局生成条件融合，获得融合生成条件；

通过所述分层可控布局模型中的主干生成模型根据所述融合生成条件生成目标图片。

通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件及区域权重；

所述将所述布局生成条件融合，获得融合生成条件的步骤，包括：

基于所述区域权重将所述布局生成条件融合，获得融合生成条件。

可选的，所述获取至少一个目标区域框对应的图片生成描述及区域位置信息的步骤，包括：

在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式；

若所述生成模式为自定义模式，则根据所述生成描述信息确定至少一个目标区域框对应的图片生成描述及区域位置信息。

可选的，所述在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式的步骤之后，还包括：

若所述生成模式为推荐模式，则生成至少一个目标区域框；

获取生成的至少一个目标区域框对应的区域位置信息，并根据所述生成描述信息生成所述至少一个目标区域框对应的图片生成描述。

可选的，所述生成至少一个目标区域框的步骤，包括：

对所述生成描述信息进行语义提取，获得描述语义信息；

若所述描述语义信息中存在区域相关描述，则从所述描述语义信息中提取区域相关描述；

根据所述区域相关描述生成至少一个目标区域框。

可选的，所述对所述生成描述信息进行语义提取，获得描述语义信息的步骤之后，还包括：

若所述描述语义信息中不存在区域相关描述，则获取所述用户对应的历史生成记录；

根据所述生成描述信息从所述历史生成记录中选取目标生成记录；

根据所述目标生成记录对应的区域划分信息生成至少一个目标区域框。

可选的，所述根据所述生成描述信息从所述历史生成记录中选取目标生成记录的步骤，包括：

获取所述历史生成记录对应的历史生成描述；

根据所述生成描述信息及所述历史生成描述确定各历史生成记录对应的描述相似度；

基于所述描述相似度从所述历史生成记录中选取目标生成记录。

可选的，所述根据所述区域位置信息及所述图片生成描述生成目标图片的步骤之后，还包括：

将所述目标图片进行展示；

接收用户基于展示的所述目标图片提交的生成评价信息；

根据所述生成评价信息、所述目标图片及所述图片生成描述生成模型训练样本；

将所述模型训练样本添加至模型样本集中。

此外，为实现上述目的，本发明还提出一种图片生成装置，所述图片生成装置包括以下模块：

获取模块，用于获取至少一个目标区域框对应的图片生成描述及区域位置信息；

生成模块，用于根据所述区域位置信息及所述图片生成描述生成目标图片。

可选的，所述生成模块，还用于获取初始生成模型，所述初始生成模型包括主干生成模型及旁支生成模型；通过模型样本集对所述初始生成模型中的旁支生成模型进行训练，获得分层可控布局模型；

所述生成模块，还用于通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件；通过所述分层可控布局模型中的主干生成模型根据所述布局生成条件生成目标图片。

可选的，所述生成模块，还用于若所述图片生成描述的语言类型与所述分层可控布局模型中的旁支生成模型的输入类型不一致，则对所述图片生成描述进行语义提取，获得图片生成语义；根据所述图片生成语义及所述分层可控布局模型中的旁支生成模型的输入类型生成描述输入信息；通过分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述描述输入信息生成所述目标区域框对应的布局生成条件。

可选的，所述生成模块，还用于将所述布局生成条件融合，获得融合生成条件；通过所述分层可控布局模型中的主干生成模型根据所述融合生成条件生成目标图片。

可选的，所述生成模块，还用于通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件及区域权重；

所述生成模块，还用于基于所述区域权重将所述布局生成条件融合，获得融合生成条件。

可选的，所述获取模块，还用于在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式；若所述生成模式为自定义模式，则根据所述生成描述信息确定至少一个目标区域框对应的图片生成描述及区域位置信息。

可选的，所述获取模块，还用于若所述生成模式为推荐模式，则生成至少一个目标区域框；获取生成的至少一个目标区域框对应的区域位置信息，并根据所述生成描述信息生成所述至少一个目标区域框对应的图片生成描述。

此外，为实现上述目的，本发明还提出一种图片生成设备，所述图片生成设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的图片生成程序，所述图片生成程序被处理器执行时实现如上所述的图片生成方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有图片生成程序，所述图片生成程序执行时实现如上所述的图片生成方法的步骤。

本发明通过获取至少一个目标区域框对应的图片生成描述及区域位置信息；根据区域位置信息及图片生成描述生成目标图片。由于是先根据目标区域框对应的图片生成描述及区域位置信息生成了各目标区域框对应的图像内容及图像内容的布局信息，之后再将各目标区域框对应的图像内容及图像内容的布局信息进行汇总，根据汇总后的整体布局生成完整的目标图片，使得生成的图片布局可控。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图；

图2为本发明图片生成方法第一实施例的流程示意图；

图3为本发明图片生成方法第二实施例的流程示意图；

图4为本发明一实施例的分层可控布局模型结构示意图

图5为本发明一实施例的图片生成流程示意图；

图6为本发明一实施例的分层可控布局模型多概念示意图；

图7为本发明图片生成方法第三实施例的流程示意图；

图8为本发明图片生成装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的图片生成设备结构示意图。

如图1所示，该电子设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图片生成程序。

在图1所示的电子设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明电子设备中的处理器1001、存储器1005可以设置在图片生成设备中，所述电子设备通过处理器1001调用存储器1005中存储的图片生成程序，并执行本发明实施例提供的图片生成方法。

本发明实施例提供了一种图片生成方法，参照图2，图2为本发明一种图片生成方法第一实施例的流程示意图。

本实施例中，所述图片生成方法包括以下步骤：

步骤S10：获取至少一个目标区域框对应的图片生成描述及区域位置信息。

需要说明的是，本实施例的执行主体可以是所述图片生成设备，所述图片生成设备可以是个人电脑、服务器等电子设备，还可以是其他可实现相同或相似功能的设备，本实施例对此不加以限制，在本实施例及下述各实施例中，以图片生成设备为例对本发明图片生成方法进行说明。

需要说明的是，图片生成描述可以为文本类的描述信息，该文本类描述信息可以为开放域(OpenDomain)描述文本，区域位置信息可以是目标区域框所处的位置信息。

在具体实现中，基于扩散模型的可控布局文生图技术是通过训练深度学习模型来学习文本和图像布局之间的关系。具体来说，该技术首先将文本描述编码为一种潜空间向量，然后逐步从随机噪声生成结构化的图像，在生成过程中，可以通过引入布局信息或条件约束来控制生成的图像布局和内容。

目前的生成技术从条件上可分为两种：基于类别(label)及区域框(boundingbox)的生成、基于文本描述(caption)及区域框(boundingbox)的生成。

其中，基于label和boundingbox的生成大部分只能生成有限的类别(CloseDomain)的布局图像，生成语意粒度较粗且图片质量较差。基于caption和boundingbox的生成则能够生成开放域(Open Domain)的布局图像，生成语意更加详细图像质量也更好，但是难度也更大。而为了保证分层可控布局生成图片的图像质量良好，在本实施例中采用文本描述(caption)及区域框(boundingbox)的生成方式，因此，可以先获取至少一个目标区域框对应的图片生成描述(即caption)及区域位置信息(用于表征目标区域框)。

步骤S20：根据所述区域位置信息及所述图片生成描述生成目标图片。

需要说明的是，根据区域位置信息及图片生成描述生成目标图片可以是将区域位置信息及所述图片生成描述输入至预先训练的分层可控布局模型中，由分层可控布局模型生成带有布局信息的目标图片。

其中，分层可控布局模型会先根据目标区域框对应的区域位置信息及图片生成描述确定各目标区域框内的图像内容及图像内容的布局信息，再将各目标区域框内的图像内容及图像内容的布局信息进行汇总，生成完整的目标图片。

本实施例通过获取至少一个目标区域框对应的图片生成描述及区域位置信息；根据区域位置信息及图片生成描述生成目标图片。由于是先根据目标区域框对应的图片生成描述及区域位置信息生成了各目标区域框对应的图像内容及图像内容的布局信息，之后再将各目标区域框对应的图像内容及图像内容的布局信息进行汇总，根据汇总后的整体布局生成完整的目标图片，使得生成的图片布局可控。

参考图3，图3为本发明一种图片生成方法第二实施例的流程示意图。

基于上述第一实施例，本实施例图片生成方法在所述步骤S20之前，还包括：

步骤S11：获取初始生成模型。

步骤S12：通过模型样本集对所述初始生成模型中的旁支生成模型进行训练，获得分层可控布局模型。

所述步骤S20，可以包括：

步骤S201：通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件。

步骤S202：通过所述分层可控布局模型中的主干生成模型根据所述布局生成条件生成目标图片。

需要说明的是，根据区域位置信息及图片生成描述生成目标区域框对应的布局生成条件可以是通过预先训练的布局生成模型根据区域位置信息及图片生成描述生成目标区域框对应的布局生成条件。其中，布局生成条件可以用于描述目标区域框对应的图像布局信息，例如：布局生成条件可以包括目标区域框的位置，目标区域框中应当设置的图像内容，以及图像内容在目标区域框中的布局方式(如各部分内容在目标区域框中的布局位置等)。

在实际使用中，根据布局生成条件生成目标图片可以是将各目标区域框对应的布局生成条件进行融合，并将融合后的布局生成条件输入至图片生成模型，由图片生成模型根据输入的融合后的布局生成条件生成目标图片。

在实际应用中，生成布局生成条件的模型及生成目标图片的模型均可以为预先训练设置的，而为了保证两者之间的关联性，可以采用主干及分支的方式进行设置，则此时初始生成模型可以包括主干生成模型及旁支生成模型，主干生成模型可以为上述图片生成模型，旁支生成模型可以是上述布局生成模型。

其中，主干生成模型可以是扩散模型，如stablediffusion；旁支生成模型可以基于controlnet结构设置。而由于采用了在主干生成模型基础上结合共享权重的多旁支生成不同布局信息(即多个目标区域框，各目标框对应不同的布局生成条件，权重一致)，因此能够完全适配不同社区的不同风格的基础模型，因此，本实施例主干生成模式还可以是与stablediffusion类似的其他生成模型，如civital网站提供的各种图片生成模型。

在实际使用中，由于主干生成模型采用的是如今常用的扩散式图片生成模型，其本身已经处于训练完毕状态，在对初始生成模型训练时，主干生成模型可以不参与训练，因此，可以通过模型样本集对初始生成模型中的旁支生成模型进行训练，并在训练完毕，即旁支生成模型训练至收敛时，将初始生成模型作为分层可控布局模型，此时，可以通过分层可控布局模型中的旁支生成模型根据区域位置信息及图片生成描述生成目标区域框对应的布局生成条件。

其中，若目标区域框有多个，则针对各个目标区域框，可以分别通过分层可控布局模型中的旁支生成模型生成其对应的布局生成条件，互不干扰，在此过程中，各目标区域框可以共享权重，即各目标区域框对应的权重一致。

在具体实现中，为了保证生成的布局生成条件的有效性，本实施例所述步骤S201，可以包括：

需要说明的是，目前，大部分模型在开发时，一般会对某种语言类型的输入数据处理较好，例如：部分模型在处理时，对英文处理相对较好，而对其他语言类型的支持会较差，甚至可能模型无法接收特定语言类型的输入数据。在此基础上，为了保证生成的布局生成条件的有效性，需要保证输入至分层可控布局模型中的旁支生成模型的数据的语言类型与旁支生成模型支持的输入类型一致。

因此，若检测到图片生成描述的语言类型与分层可控布局模型中的旁支生成模型的输入类型不一致(如图片生成描述的语言类型为中文，但是，分层可控布局模型中的旁支生成模型的输入类型为英文)，则需要根据图片生成描述的图片生成语义及分层可控布局模型中的旁支生成模型的输入类型重新生成描述输入信息，再通过分层可控布局模型中的旁支生成模型根据区域位置信息及描述输入信息生成目标区域框对应的布局生成条件，从而确保分层可控布局模型中的旁支生成模型可以正常进行处理，保证生成的布局生成条件有效性。

在实际使用中，对图片生成描述进行语义提取，获得图片生成语义可以是采用智能AI大语言模型对图片生成描述进行语义提取，获得图片生成语义。同理，根据图片生成语义及分层可控布局模型中的旁支生成模型的输入类型生成描述输入信息可以是采用智能AI大语言模型根据图片生成语义及分层可控布局模型中的旁支生成模型的输入类型生成语义与图片生成描述一致，但语言类型与分层可控布局模型中的旁支生成模型的输入类型一致的文本描述，从而获得描述输入信息。其中，智能AI大语言模型可以是ChatGpt或类似的模型，本实施例对此不加以限制。

在具体实现中，为了保证生成的目标图片的效果，本实施例所述步骤S30，可以包括：

将所述布局生成条件融合，获得融合生成条件；

需要说明的是，主干生成模型为图片生成模型，但是，目前，若仅获取到各目标区域框对应的布局生成条件，则此时布局生成条件为零散的布局信息，为了保证图片生成的效果，可以先将各目标区域框对应的布局生成条件进行融合，将其融合为整体的融合生成条件，用于描述整体的布局划分，再将融合生成条件输入至分层可控布局模型中的主干生成模型，令分层可控布局模型中的主干生成模型根据融合生成条件进行图片自动生成，从而获得目标图片。

其中，由于在生成各目标区域框对应的布局生成条件时，采用的是共享权重进行生成，则此时各目标区域框对应的布局生成条件的权重相当，此时进行融合时，若各目标区域框存在区域重叠，则针对重叠区域，可以对其中的布局信息进行平均融合。

在具体实现中，为了保证可应对用户实际的图片生成需求，可以允许在推理获得各目标区域框对应的布局生成条件时，为不同目标区域框的布局信息进行针对性的权重调整，即令不同的目标区域框的权重不同，则此时在进行布局生成条件融合，需要考虑权重，因此，本实施例所述步骤S201，可以包括：

相应的，所述将所述布局生成条件融合，获得融合生成条件的步骤，可以包括：

需要说明的是，区域权重可以是目标区域框中布局信息对应的权重。基于区域权重将布局生成条件融合，获得融合生成条件可以是将各目标区域框中非重叠区域的布局生成条件进行融合，再基于区域权重，将各目标区域框中重叠区域的布局生成条件根据区域权重进行加权求和进行融合，最终生成融合生成条件。

在实际使用中，对布局生成条件融合时，还可以采用模型进行融合，例如：通过Lora模型基于区域权重将各目标区域框对应的布局生成条件融合，获得融合生成条件。

在具体实现中，为了保证分层可控布局模型的生成效果，本实施例所述步骤S30之后，还可以包括：

将所述目标图片进行展示；

接收用户基于展示的所述目标图片提交的生成评价信息；

将所述模型训练样本添加至模型样本集中。

需要说明的是，生成评价信息可以是用户对生成的目标图片的评价信息，可以分为多个级别，如：准确、校准、一般、较差、极差等。

可以理解的是，在获取到目标图片之后，令用户对其进行评价，之后，即可根据获取到的生成评价信息、目标图片及图片生成描述构建模型训练样本，之后，即可将模型训练样本添加至模型样本集中，从而扩大模型样本集的规模，加强对分层可控布局模型的训练，最终使得分层可控布局模型的生成效果逐渐提高。

为了便于理解，现结合图4、5和6进行说明，但不对本方案进行限定。如4为本实施例的分层可控布局模型结构示意图，图5为本实施例的图片生成流程示意图，图6为本实施例的分层可控布局模型多概念示意图。

如图4所示，分层可控布局模型包括主干生成模型及旁支生成模型，其中，主干生成模型为如图4a所示的stablediffusion模型(即图4中左侧多个层组成的模型)，旁支生成模型为如图4b所示的controlnet结构的模型(即图4中右侧多个层组成的模型)。

而在图片生成的流程中，采用共享权重(Weight Share)的方式，通过旁支生成模型(即图5中的Control net)生成各目标区域框对应的布局生成条件(即各目标区域框对应的位置处的布局信息)，最后，融合所有旁支生成的布局信息(即各目标区域框对应的布局生成条件)，并将融合的信息输入至主干生成模型中，由主干生成模型生成目标图片。

基础的stablediffusion模型仅具有单概念嵌入能力，多概念嵌入则会因为不同Lora模型参数直接合并导致模型生成的图片崩坏，而在本实施例中，提出的分层可控布局模型，不仅具有单概念嵌入能力，同时具有多概念嵌入能力。

分层可控布局模型结合单概念嵌入的效果图如图6a和图6b所示，图6a为stablediffusion 1.5基础模型上训练的shrek概念，图6b为stablediffusion 1.5基础模型上训练的blind概念。图6c为blind概念在指定区域处生成的效果，图6d为blind和shrek两个概念同时生成的效果。

本实施例通过获取初始生成模型，所述初始生成模型包括主干生成模型及旁支生成模型；通过模型样本集对所述初始生成模型中的旁支生成模型进行训练，获得分层可控布局模型；通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件。由于是采用主干分支的方式将生成布局生成条件的模型与生成目标图片的模型进行关联，保证了保证两者之间的关联性，确保了分层可控布局模型生成的图片的布局可控。

参考图7，图7为本发明一种图片生成方法第三实施例的流程示意图。

基于上述第一实施例，本实施例图片生成方法的所述步骤S10，包括：

步骤S101：在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式。

需要说明的是，图片生成描述可以是用户在需要进行图片自动生成时，输入的描述信息。

在实际使用中，为了保证用户体验，可以满足用户的实际使用需求，图片生成设备为用户提供了自定义模型及推荐模式两种生成模式。

其中，自定义模式为允许用户根据实际需要自定义设置至少一个目标区域框，并为各目标区域框分别设置对应的图片生成描述；而推荐模式，则是用户设置一个全局的描述信息，之后，由图片生成设备自动推荐生成至少一个目标区域框，并为各目标区域框分别生成对应的图片生成描述。

在实际使用中，确定生成描述信息对应的生成模式可以是从生成描述信息中提取模式指定参数，根据模式指定参数的取值确定生成描述信息对应的生成模式。例如：在生成描述信息设置一个模式指定参数为“type”，若type＝1，则表示采用推荐模式；若type＝0，或生成描述信息中不存在type，则表示采用自定义模式。

步骤S102：若所述生成模式为自定义模式，则根据所述生成描述信息确定至少一个目标区域框对应的图片生成描述及区域位置信息。

可以理解的是，若生成模式为自定义模式，则表示允许用户根据实际需要自定义设置至少一个目标区域框，并为各目标区域框分别设置对应的图片生成描述，此时，生成描述信息中必然包括至少一个目标区域框对应的图片生成描述及区域位置信息，因此，可以对生成描述信息进行解析，从中读取至少一个目标区域框对应的图片生成描述及区域位置信息。

在具体实现中，若生成模式为推荐模式，则表示此时为由图片生成设备自动设置目标区域框，则此时本实施例所述步骤S101之后，还可以包括：

若所述生成模式为推荐模式，则生成至少一个目标区域框；

需要说明的是，生成至少一个目标区域框可以为根据预设模板进行目标区域框划分，其中，预设模板可以由图片生成设备的管理人员预先进行设置。

在实际使用中，获取生成的至少一个目标区域框对应的区域位置信息可以是读取生成的至少一个目标区域框对应的位置信息，获得区域位置信息。而由于采用了推荐模式，此时用户设置的生成描述信息为全局的描述信息，即对所有的目标区域框均生效，因此，可以将生成描述信息直接作为目标区域框对应的图片生成描述。

进一步的，为了尽可能保证划分的目标区域框符合用户的实际需求，本实施例所述生成至少一个目标区域框的步骤，可以包括：

对所述生成描述信息进行语义提取，获得描述语义信息；

根据所述区域相关描述生成至少一个目标区域框。

需要说明的是，对图片生成描述进行语义提取，获得描述语义信息可以是通过智能AI大模型对图片生成描述进行语义提取，并将提取到的语义作为描述语义信息。

可以理解的是，虽然用户设置了作用于全局的生成描述信息，但是，其在进行描述时，可能会带有与区域相关的描述，即区域相关描述，若带有此类描述，则可以尝试根据此类描述进行区域划分。

例如：假设描述语义信息为“晴空下，有人在晾衣架上晾衣服”，则此时其中存在区域相关描述“晴空”、“晾衣架”、“人”，则此时可以根据区域相关描述划分三个目标区域框。

进一步的，为了保证在无区域相关描述时，划分的目标区域框也能尽量满足用户的实际需求，则此时本实施例所述对所述生成描述信息进行语义提取，获得描述语义信息的步骤之后，还可以包括：

需要说明的是，若描述语义信息中不存在区域相关描述，则表示此时无法基于描述语义信息中的内容推导区域划分的相关方式，此时为了保证划分的目标区域框可以尽可能满足用户的实际需求，可以结合用户的历史生成记录进行参考，因此，可以获取用户对应的历史生成记录。

在实际使用中，根据图片生成描述从历史生成记录中选取目标生成记录可以是从历史生成记录中选取一个与生成描述信息相关性最高的历史生成记录作为目标生成记录。

可以理解的是，目标生成记录与生成描述信息的相关性最高，则其进行区域划分时的相似度一致的几率最高，因此，可以根据目标生成记录对应的区域划分信息生成至少一个目标区域框。其中，目标生成记录对应的区域划分信息可以是目标生成记录对应的目标区域框划分时的划分规则，可以包括目标区域框的数量及各目标区域矿对应的区域位置信息。

在实际使用中，为了准确的确定目标生成记录，本实施例所述根据所述生成描述信息从所述历史生成记录中选取目标生成记录的步骤，可以包括：

获取所述历史生成记录对应的历史生成描述；

需要说明的是，历史生成记录对应的历史生成描述可以是生成历史生成记录对应的图片时，用户所输入的生成描述信息。

在实际使用中，根据生成描述信息及历史生成描述确定各历史生成记录对应的描述相似度可以是分别确定生成描述信息与各历史生成记录对应的历史生成描述的相似度，并将获取到的相似度作为历史生成记录对应的描述相似度。

在具体应用中，根据基于描述相似度从历史生成记录中选取目标生成记录可以是将对应的描述相似度最高的历史生成记录作为目标生成记录。

本实施例在接收到用户输入的生成描述信息时，会根据用户输入的生成描述信息对应的生成模式采用不同的方式确定至少一个目标区域框对应的图片生成描述及区域位置信息，使得用户可根据实际需要采用自身需要的方式进行图片生成，提高了用户的实际使用体验。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有图片生成程序，所述图片生成程序被处理器执行时实现如上文所述的图片生成方法的步骤。

参照图8，图8为本发明图片生成装置第一实施例的结构框图。

如图8所示，本发明实施例提出的图片生成装置包括：

获取模块10，用于获取至少一个目标区域框对应的图片生成描述及区域位置信息；

生成模块20，用于根据所述区域位置信息及所述图片生成描述生成目标图片。

可选的，所述生成模块20，还用于获取初始生成模型，所述初始生成模型包括主干生成模型及旁支生成模型；通过模型样本集对所述初始生成模型中的旁支生成模型进行训练，获得分层可控布局模型；

所述生成模块20，还用于通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件；通过所述分层可控布局模型中的主干生成模型根据所述布局生成条件生成目标图片。

可选的，所述生成模块20，还用于若所述图片生成描述的语言类型与所述分层可控布局模型中的旁支生成模型的输入类型不一致，则对所述图片生成描述进行语义提取，获得图片生成语义；根据所述图片生成语义及所述分层可控布局模型中的旁支生成模型的输入类型生成描述输入信息；通过分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述描述输入信息生成所述目标区域框对应的布局生成条件。

可选的，所述生成模块20，还用于将所述布局生成条件融合，获得融合生成条件；通过所述分层可控布局模型中的主干生成模型根据所述融合生成条件生成目标图片。

可选的，所述生成模块20，还用于通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件及区域权重；

所述生成模块20，还用于基于所述区域权重将所述布局生成条件融合，获得融合生成条件。

可选的，所述获取模块10，还用于在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式；若所述生成模式为自定义模式，则根据所述生成描述信息确定至少一个目标区域框对应的图片生成描述及区域位置信息。

可选的，所述获取模块10，还用于若所述生成模式为推荐模式，则生成至少一个目标区域框；获取生成的至少一个目标区域框对应的区域位置信息，并根据所述生成描述信息生成所述至少一个目标区域框对应的图片生成描述。

可选的，所述获取模块10，还用于对所述生成描述信息进行语义提取，获得描述语义信息；若所述描述语义信息中存在区域相关描述，则从所述描述语义信息中提取区域相关描述；根据所述区域相关描述生成至少一个目标区域框。

可选的，所述获取模块10，还用于若所述描述语义信息中不存在区域相关描述，则获取所述用户对应的历史生成记录；根据所述生成描述信息从所述历史生成记录中选取目标生成记录；根据所述目标生成记录对应的区域划分信息生成至少一个目标区域框。

可选的，所述获取模块10，还用于获取所述历史生成记录对应的历史生成描述；根据所述生成描述信息及所述历史生成描述确定各历史生成记录对应的描述相似度；基于所述描述相似度从所述历史生成记录中选取目标生成记录。

可选的，所述生成模块20，还用于将所述目标图片进行展示；接收用户基于展示的所述目标图片提交的生成评价信息；根据所述生成评价信息、所述目标图片及所述图片生成描述生成模型训练样本；将所述模型训练样本添加至模型样本集中。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的图片生成方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

本申请公开了A1、一种图片生成方法，所述图片生成方法包括以下步骤：

根据所述区域位置信息及所述图片生成描述生成目标图片。

A2、如A1所述的图片生成方法，所述根据所述区域位置信息及所述图片生成描述生成目标图片的步骤之前，还包括：

A3、如A2所述的图片生成方法，所述通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件的步骤，包括：

A4、如A2所述的图片生成方法，所述通过所述分层可控布局模型中的主干生成模型根据所述布局生成条件生成目标图片的步骤，包括：

将所述布局生成条件融合，获得融合生成条件；

A5、如A4所述的图片生成方法，所述通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件的步骤，包括：

A6、如A1所述的图片生成方法，所述获取至少一个目标区域框对应的图片生成描述及区域位置信息的步骤，包括：

A7、如A6所述的图片生成方法，所述在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式的步骤之后，还包括：

若所述生成模式为推荐模式，则生成至少一个目标区域框；

A8、如A7所述的图片生成方法，所述生成至少一个目标区域框的步骤，包括：

对所述生成描述信息进行语义提取，获得描述语义信息；

根据所述区域相关描述生成至少一个目标区域框。

A9、如A8所述的图片生成方法，所述对所述生成描述信息进行语义提取，获得描述语义信息的步骤之后，还包括：

A10、如A9所述的图片生成方法，所述根据所述生成描述信息从所述历史生成记录中选取目标生成记录的步骤，包括：

获取所述历史生成记录对应的历史生成描述；

A11、如A1-A10任一项所述的图片生成方法，所述根据所述区域位置信息及所述图片生成描述生成目标图片的步骤之后，还包括：

将所述目标图片进行展示；

接收用户基于展示的所述目标图片提交的生成评价信息；

将所述模型训练样本添加至模型样本集中。

本申请还公开了B12、一种图片生成装置，所述图片生成装置包括以下模块：

B13、如B12所述的图片生成装置，所述生成模块，还用于获取初始生成模型，所述初始生成模型包括主干生成模型及旁支生成模型；通过模型样本集对所述初始生成模型中的旁支生成模型进行训练，获得分层可控布局模型；

B14、如B13所述的图片生成装置，所述生成模块，还用于若所述图片生成描述的语言类型与所述分层可控布局模型中的旁支生成模型的输入类型不一致，则对所述图片生成描述进行语义提取，获得图片生成语义；根据所述图片生成语义及所述分层可控布局模型中的旁支生成模型的输入类型生成描述输入信息；通过分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述描述输入信息生成所述目标区域框对应的布局生成条件。

B15、如B13所述的图片生成装置，所述生成模块，还用于将所述布局生成条件融合，获得融合生成条件；通过所述分层可控布局模型中的主干生成模型根据所述融合生成条件生成目标图片。

B16、如B15所述的图片生成装置，所述生成模块，还用于通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件及区域权重；

B17、如B12所述的图片生成装置，所述获取模块，还用于在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式；若所述生成模式为自定义模式，则根据所述生成描述信息确定至少一个目标区域框对应的图片生成描述及区域位置信息。

B18、如B17所述的图片生成装置，所述获取模块，还用于若所述生成模式为推荐模式，则生成至少一个目标区域框；获取生成的至少一个目标区域框对应的区域位置信息，并根据所述生成描述信息生成所述至少一个目标区域框对应的图片生成描述。

本申请还公开了C19、一种图片生成设备，所述图片生成设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的图片生成程序，所述图片生成程序被处理器执行时实现如上所述的图片生成方法的步骤。

本申请还公开了D20、一种计算机可读存储介质，所述计算机可读存储介质上存储有图片生成程序，所述图片生成程序执行时实现如上所述的图片生成方法的步骤。

Claims

1.一种图片生成方法，其特征在于，所述图片生成方法包括以下步骤：

根据所述区域位置信息及所述图片生成描述生成目标图片。

2.如权利要求1所述的图片生成方法，其特征在于，所述根据所述区域位置信息及所述图片生成描述生成目标图片的步骤之前，还包括：

3.如权利要求2所述的图片生成方法，其特征在于，所述通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件的步骤，包括：

4.如权利要求2所述的图片生成方法，其特征在于，所述通过所述分层可控布局模型中的主干生成模型根据所述布局生成条件生成目标图片的步骤，包括：

将所述布局生成条件融合，获得融合生成条件；

5.如权利要求4所述的图片生成方法，其特征在于，所述通过所述分层可控布局模型中的旁支生成模型根据所述区域位置信息及所述图片生成描述生成所述目标区域框对应的布局生成条件的步骤，包括：

6.如权利要求1所述的图片生成方法，其特征在于，所述获取至少一个目标区域框对应的图片生成描述及区域位置信息的步骤，包括：

7.如权利要求6所述的图片生成方法，其特征在于，所述在接收到用户输入的生成描述信息时，确定所述生成描述信息对应的生成模式的步骤之后，还包括：

若所述生成模式为推荐模式，则生成至少一个目标区域框；

8.一种图片生成装置，其特征在于，所述图片生成装置包括以下模块：

9.一种图片生成设备，其特征在于，所述图片生成设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的图片生成程序，所述图片生成程序被处理器执行时实现如权利要求1-7中任一项所述的图片生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图片生成程序，所述图片生成程序执行时实现如权利要求1-7中任一项所述的图片生成方法的步骤。