CN116012481B

CN116012481B - 图像生成处理方法、装置、电子设备及存储介质

Info

Publication number: CN116012481B
Application number: CN202310079283.2A
Authority: CN
Inventors: 杨虎; 李国豪; 冯知凡; 崔骁鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2024-02-06
Anticipated expiration: 2043-01-17
Also published as: CN116012481A

Abstract

本公开提供了一种图像生成处理方法、装置、电子设备及存储介质，涉及计算机技术和人工智能技术领域，以至少解决了现有技术中传统的图像生成处理方法所生成的图像准确度依赖文本翻译且易出现风格缺失的技术问题。具体实现方案为：获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；对第一图像进行展示。

Description

图像生成处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术和人工智能技术领域，尤其涉及图像生成处理方法、装置、电子设备及存储介质。

背景技术

随着文生图技术的发展，大规模预训练模型被广泛地应用于图像生成场景，例如面部图像生成、风景图像生成等场景。相关技术中提供的图像生成处理方法在写实类和艺术类图像生成场景中具有成效，常用的现有技术为利用一种结合文本条件扩散和跨模态匹配模型的文生图扩散模型来生成图像，这种扩散模型能够基于输入文本生成并输出符合对应语义的图像。然而，上述现有技术存在的缺陷在于：需要将中文文本翻译为英文输入扩散模型进行跨模态引导，因此图像生成的准确度依赖翻译结果的准确度；容易出现某些风格图像生成结果的风格缺失问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开提供了图像生成处理方法、装置、电子设备及存储介质，以至少解决现有技术中传统的图像生成处理方法所生成的图像准确度依赖文本翻译且易出现风格缺失的技术问题。

根据本公开的一个方面，提供了一种图像生成处理方法，包括：获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；对第一图像进行展示。

根据本公开的另一方面，还提供了一种图像生成处理方法，包括：接收来自于客户端的文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；将第一图像反馈至客户端，以使客户端对第一图像进行展示。

根据本公开的另一方面，还提供了一种图像生成处理的装置，包括：获取模块，用于获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；处理模块，用于采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；展示模块，用于对第一图像进行展示。

根据本公开的另一方面，还提供了一种图像生成处理的装置，包括：接收模块，用于接收来自于客户端的文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；处理模块，用于采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；反馈模块，用于将第一图像反馈至客户端，以使客户端对第一图像进行展示。

根据本公开的又一方面，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的图像生成处理方法。

根据本公开的又一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的图像生成处理方法。

根据本公开的又一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的图像生成处理方法。

本公开中，通过获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；对第一图像进行展示，由此，本公开提供的图像生成处理方法达到了利用是采用多模态引导机制进行梯度引导的多语言图像生成模型生成文本信息对应的图像的目的，实现了避免图像生成处理过程中的文本翻译流程、提升图像生成处理结果的风格特点的技术效果，解决了现有技术中传统的图像生成处理方法所生成的图像准确度依赖文本翻译且易出现风格缺失的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据现有技术的一种写实类生成图像的示意图；

图2是根据现有技术的一种艺术类生成图像的示意图；

图3是根据现有技术的一种文生图扩散模型的结构示意图；

图4是根据本公开实施例提供的一种用于实现图像生成处理方法的计算机终端(或移动设备)的硬件结构框图；

图5是根据本公开实施例提供的一种图像生成处理方法的流程图；

图6是根据本公开实施例提供的一种可选的梯度引导过程的示意图；

图7是根据本公开实施例提供的一种可选的输出图像；

图8是根据本公开实施例提供的另一种可选的输出图像；

图9是根据本公开实施例提供的一种可选的原始图像；

图10是根据本公开实施例提供的另一种可选的输出图像；

图11是根据本公开实施例提供的另一种图像生成处理方法的流程图；

图12是根据本公开实施例提供的一种图像生成处理装置的结构框图；

图13是根据本公开实施例提供的另一种图像生成处理装置的结构框图。

具体实施方式

随着文生图技术的发展，大规模预训练模型被广泛地应用于图像生成场景，例如面部图像生成、风景图像生成等场景。相关技术中提供的图像生成处理方法在写实类和艺术类图像生成场景中具有成效，图1是根据现有技术的一种写实类生成图像的示意图，图2是根据现有技术的一种艺术类生成图像的示意图。利用现有技术中的人工智能绘图应用(如DALLE2、DiscoDiffusion等)，能够根据用户输入的文本信息“宇航员骑马、写实”，生成如图1所示的写实类生成图像，根据用户输入的文本信息“大海、艺术”，生成如图2所示的艺术类生成图像。

现有技术提供的常用方法(如上述人工智能绘图应用)中，通常利用一种结合文本条件扩散和跨模态匹配模型的文生图扩散模型来生成图像。图3是根据现有技术的一种文生图扩散模型的结构示意图，如图3所示，由于扩散模型使用英文图文数据进行训练，因此在使用时需要将输入的中文文本翻译为英文文本输入扩散模型进行跨模态引导，生成并输出符合对应语义的图像。具体地，如图3所示，当收到中文的提示词后，将该提示词翻译为英文，再经过文本编码器、图文匹配和条件扩散模型处理，得到对应的图像。

然而，上述现有技术存在的缺陷在于：图像生成的准确度依赖翻译结果的准确度；容易出现某些风格图像生成结果的风格缺失问题(例如图3中，松鼠女孩对应的输出图像中，女孩头部与松鼠身体结合不自然，风格混乱，与输入文本的匹配程度低)。

针对上述的问题，在本公开前尚未提出有效的解决方案。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本公开实施例，提供了一种图像生成处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图4是根据本公开实施例提供的一种用于实现图像生成处理方法的计算机终端(或移动设备)的硬件结构框图。

如图4所示，计算机终端400包括计算单元401，其可以根据存储在只读存储器(Read-Only Memory，ROM)402中的计算机程序或者从存储单元408加载到随机存取器(Random Access Memory，RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM403中，还可存储计算机终端400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

计算机终端400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许计算机终端400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行本文所描述的图像生成处理方法。例如，在一些实施例中，图像生成处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到计算机终端400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行本文描述的图像生成处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像生成处理方法。

本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Parts，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

此处需要说明的是，在一些可选实施例中，上述图4所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图4仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。

在上述运行环境下，本公开提供了如图5所示的图像生成处理方法，该方法可以由图4所示的计算机终端或者类似的电子设备执行。图5是根据本公开实施例提供的一种图像生成处理方法的流程图。如图5所示，该方法可以包括如下步骤：

步骤S51，获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；

上述文本信息为图像生成处理方法中的输入文本，该输入文本可以来自于：用户通过客户端输入的字符、用户通过客户端上传的文档、语音转换得到文字、应用场景中指定的文档等。上述文本信息用于确定待生成的第一图像的视觉属性。视觉属性包括以下至少之一：图像内容属性、图像风格属性、图像布局属性。

步骤S52，采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；

上述目标生成模型为采用多模态引导机制进行梯度引导的多语言图像生成模型，其中，多模态引导机制为利用多个模态数据进行引导模型训练的机制，多个模态数据包括以下至少之二：文本数据、图像数据、音频数据和视频数据。

上述目标图像生成模型为多语言图像生成模型，也就是说，采用目标图像生成模型对文本信息进行图像生成处理得到第一图像的过程能够支持文本信息为多种语言的文本信息，例如：中文、英文、法文、日文等，也即，上述基于文本信息生成第一图像的过程中并未涉及对文本信息的翻译流程，与相关技术相比，采用本公开提供的上述方法所生成的第一图像的图像质量并不会受到文本翻译结果准确度的影响。

具体地，采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像还包括其他方法步骤，可以参照下文中对本公开实施例的进一步说明，不予赘述。

步骤S53，对第一图像进行展示。

上述对第一图像进行展示的具体实现方式可以是通过用户当前使用的电子设备中的显示设备，将包含第一图像的图形用户界面展示给用户。在本公开实施例的其中一种应用场景中，对用户来说，通过客户端输入文本信息后，在该客户端的图形用户界面上能够获取上述第一图像，该第一图像为用户输入的文本信息对应的文生图。

根据本公开上述步骤51至步骤53，通过获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；对第一图像进行展示，由此，本公开提供的图像生成处理方法达到了利用是采用多模态引导机制进行梯度引导的多语言图像生成模型生成文本信息对应的图像的目的，实现了避免图像生成处理过程中的文本翻译流程、提升图像生成处理结果的风格特点的技术效果，解决了现有技术中传统的图像生成处理方法所生成的图像准确度依赖文本翻译且易出现风格缺失的技术问题。

以下对本公开的上述图像生成处理技术方案进行进一步说明。

作为一种可选的实施方式，文本信息包括：内容信息和风格信息，在上述步骤S52中，采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，还包括以下方法步骤：

步骤S521，从第一图像集合中选取风格信息匹配的第二图像，其中，第一图像集合为预先生成的候选图像集合；

步骤S522，采用目标图像生成模型，对第二图像进行扩散处理以得到扩散结果，对内容信息进行图文匹配处理以得到第一匹配结果，以及基于扩散结果与第一匹配结果生成第一图像。

上述内容信息用于确定待生成的第一图像的图像内容属性(如第一图像中显示有哪些对象等)，上述风格信息用于确定待生成的第一图像的图像风格属性(如艺术类、写实类等)。当上述文本信息包括内容信息和风格信息时，从上述第一图像集合中选取风格信息匹配的第二图像，并采用预先训练的上述目标图像生成模型进行如下操作：对风格信息匹配的第二图像进行扩散处理得到扩散结果，对内容信息进行图文匹配处理得到第一匹配结果，基于扩散结果与第一匹配结果生成第一图像。

具体地，上述第一图像集合为预先生成的候选图像集合，候选图像几何包含多种预设风格的多张候选图像。上述第一图像集合由用户预先指定或者由服务端根据当前应用场景需求自动确定。

具体地，对风格信息匹配的第二图像进行扩散处理得到扩散结果的具体实现方式为：采用上述目标图像生成模型中的条件扩散模型，对第二图像进行扩散处理，得到扩散结果，该扩散结果能够表征与该第二图像对应的(也即与风格信息对应的)更加泛化的风格信息，基于该扩散结果生成第一图像能够保证所生成的第一图像与风格信息具有更高的风格匹配度。

具体地，对内容信息进行图文匹配处理得到第一匹配结果的具体实现方式为：采用上述目标图像生成模型中的图文匹配模型，对内容信息进行图文匹配处理，得到第一匹配结果。基于该第一匹配结果生成第一图像能够保证所生成的第一图像所显示的图像内容与内容信息更加贴合。

作为一种可选的实施方式，文本信息包括：内容信息，在上述步骤S52中，采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，还包括以下方法步骤：

步骤S523，获取第三图像，其中，第三图像预先从第一图像集合中选取，第三图像用于确定第一图像的风格，第一图像集合为预先生成的候选图像集合；

步骤S524，采用目标图像生成模型，对第三图像进行扩散处理以得到扩散结果，对内容信息进行图文匹配处理以得到第一匹配结果，以及基于扩散结果与第一匹配结果生成第一图像。

上述内容信息用于确定待生成的第一图像的图像内容属性(如第一图像中显示有哪些对象等)。当上述文本信息包括内容信息时，也即文本信息未确定带生成的第一图像的图像风格属性时(如艺术类、写实类等)，从第一图像集合中选取第三图像以确定第一图像的风格，进一步地，采用预先训练的上述目标图像生成模型进行如下操作：对第三图像进行扩散处理得到扩散结果，对内容信息进行图文匹配处理得到第一匹配结果，基于扩散结果与第一匹配结果生成第一图像。

具体地，对第三图像进行扩散处理得到扩散结果的具体实现方式为：采用上述目标图像生成模型中的条件扩散模型，对第三图像进行扩散处理，得到扩散结果，该扩散结果能够表征与该第三图像对应的更加泛化的风格信息，基于该扩散结果生成第一图像能够保证所生成的第一图像与第三图像具有更高的风格匹配度。

作为一种可选的实施方式，目标图像生成模型包括：目标图文匹配模型，上述图像生成处理方法还包括：

步骤S54，采用训练文本与第四图像对初始图文匹配模型进行训练，得到目标图文匹配模型，其中，第四图像为训练文本的配对图像，初始图文匹配模型中的文本编码器与训练文本的语种相适配，目标图文匹配模型用于对内容信息进行图文匹配处理以得到第一匹配结果。

上述目标图像生成模型至少包括目标图文匹配模型时，目标图像生成模型的训练过程包括：获取训练文本和与训练文本的配对图像(即第四图像)；根据训练文本的语种，确定选定初始图文匹配模型，使得初始图文匹配模型的文本编码器与训练文本的语种相适配；采用训练文本与第四图像对初始图文匹配模型进行训练，得到上述目标图像生成模型中的目标图文匹配模型，其中，目标图文匹配模型为多语言图文匹配模型。

上述目标图文匹配模型用于对内容信息进行图文匹配处理以得到第一匹配结果，也即能够得到与文本信息中内容信息对应的配对图像，第一匹配结果中可以包括至少一张配对图像。

在本公开实施方式的其中一种应用场景中，上述用于训练目标图文匹配模型的训练文本和第四图像可以是二元组，例如，第四图像为样本图像，训练文本为样本图像对应的中文描述，采用多组[训练文本，第四图像]对初始图文匹配模型进行训练，得到上述目标图文匹配模型。

在相关技术中，目标模型通常基于英文样本进行训练，使用的初始模型中的文本编码器为面向英文的编码器，所得到的目标模型也是针对英文文本描述进行图像生成，这导致输入文本为中文(或其他非英文语种)时，需要首先将输入文本翻译成英文，再利用目标模型进行图像生成，上述翻译过程的语义误差容易导致所生成图像的图像质量较低。上述初始图文匹配模型中的文本编码器与训练文本的语种相适配，例如，训练文本的语种为中文时，上述文本编码器为面向中文的编码器，由此，采用训练文本与第四图像对初始图文匹配模型进行训练所得到的目标图文匹配模型即为面向中文文本的图文匹配模型，利用对应的目标图像生成模型生成图像的过程中能够避免翻译过程。

作为一种可选的实施方式，上述步骤S522或者上述步骤524中，基于扩散结果与第一匹配结果生成第一图像，还包括以下方法步骤：

步骤S551，基于扩散结果与第一匹配结果生成第五图像；

步骤S552，利用第五图像与文本信息确定多模态损失；

步骤S553，通过多模态损失对第五图像进行梯度引导，得到第一图像。

采用目标图像生成模型，基于扩散结果与第一匹配结果生成第五图像，第五图像为目标图像生成模型初步生成的与文本信息对应的目标图像；利用第五图像与文本信息，确定多模态损失；通过多模态损失对第五图像进行梯度引导，得到第一图像，第一图像为考虑多模态损失对第五图像进行梯度引导优化后的目标图像。

容易理解的是，根据本公开实施方式的上述步骤S551至步骤S553提供的方法，不但能够在避免文本翻译的情况下，通过采用多模态引导机制进行梯度引导的多语言图像生成模型(也即目标图像生成模型)生成文本信息对应的目标图像，还能够考虑目标图像生成模型对应的多模态损失，多目标图像进行优化，从而得到更加贴图文本信息的第一图像。

作为一种可选的实施方式，上述步骤S552中，利用第五图像与文本信息确定多模态损失，还包括以下方法步骤：

步骤S5521，计算文本信息与第五图像之间的文本引导损失；

步骤S5522，计算第五图像与第六图像之间的图像引导损失，其中，第六图像是基于第五图像从第一图像集合中选取的图像；

步骤S5523，计算预设布局信息与第五图像之间的布局引导损失；

步骤S5524，利用文本引导损失、图像引导损失和布局引导损失中至少之一确定多模态损失。

在本公开实施方式中，多模态损失包括以下至少之一：文本引导损失、图像引导损失和布局引导损失。

具体地，计算文本信息与第五图像之间的文本引导损失的具体实现方式为：获取文本信息的第一特征；对目标图像生成模型初步生成的第五图像进行特征提取，得到第二特征；基于第一特征和第二特征进行文本引导损失计算，得到文本引导损失。上述文本引导损失用于表征第五图像与文本信息之间的机器学习训练损失。

具体地，计算第五图像与第六图像之间的图像引导损失的具体实现方式为：对目标图像生成模型初步生成的第五图像进行特征提取，得到第二特征；基于第五图像从第一图像集合中选取的第六图像；对第六图像进行特征提取，得到第三特征；基于第二特征和第三特征进行图像引导损失计算，得到图像引导损失。上述图像引导损失用于表征第五图像与预先生成的候选图像集合之间的机器学习训练损失。

具体地，计算预设布局信息与第五图像之间的布局引导损失的具体实现方式为：获取预先设定的预设布局信息，其中，预设布局信息用于确定待生成的第一图像的图像布局属性；对目标图像生成模型初步生成的第五图像进行特征提取，得到第二特征；基于所述预设布局信息和第二特征进行布局引导损失计算，得到布局引导损失。上述布局引导损失用于表征第五图像与预设布局信息之间的机器学习训练损失。

容易理解的是，根据本公开实施方式的上述步骤S5521至步骤S5524提供的方法，通过考虑上述目标图像生成模型对应的文本引导损失、图像引导损失和布局引导损失，能够得到多模态损失，进一步地，基于该多模态损失对目标图像生成模型初步生成的目标图像(即第五图像)进行梯度引导优化，能够使得最终得到的第一图像更加贴合文本信息的描述(包括内容描述、风格描述和布局描述)。

作为一种可选的实施方式，上述图像生成处理方法还包括：

步骤S56，采用图文相关性检索方式，从第一图像集合中选取与第五图像的内容与风格相关性最高的图像，得到第六图像。

在本公开实施方式中，计算第五图像与第六图像之间的图像引导损失时，选取第六图像的具体实现方式为：采用图文相关性检索方式，从第一图像集合中选取与第五图像的内容与风格相关性最高的图像，得到第六图像，其中，图文相关性检索方式用于按照图文相关性的排序信息进行图像检索，图文相关性包括内容相关性和风格相关性。

具体地，计算第一图像集合中多张候选图像的每张候选图像与第五图像之间的内容相关性和风格相关性，进而得到第一图像集合中多张候选图像与第五图像之间的图文相关性的排序信息；根据图文相关性的排序信息，从多张候选图像中选取第六图像，其中，第六图像为以下之一：多张候选图像中与第五图像之间的内容相关性最高的候选图像，多张候选图像中与第五图像之间的风格相关性最高的候选图像，多张候选图像中与第五图像之间的内容相关性和风格相关性之和最高的候选图像。

作为一种可选的实施方式，上述步骤S553中，通过多模态损失对第五图像进行梯度引导，得到第一图像，还包括以下方法步骤：

步骤S5531，获取第五图像的原始预测噪音；

步骤S5532，通过多模态损失对原始预测噪音进行梯度引导，得到更新后噪音；

步骤S5533，基于更新后噪音对第五图像进行去噪处理，得到第一图像。

在本公开实施方式中，通过多模态损失对第五图像进行梯度引导，得到第一图像的具体实现方式为：采用目标图像生成模型，获取第五图像的原始预测噪音，其中，原始预测噪音用于表征第五图像与图像生成的预期结果之间的误差；通过多模态损失对上述原始预设噪音进行梯度引导，得到更新后噪音，其中，多模态损失包括以下至少之一：文本引导损失、图像引导损失和布局引导损失；基于更新后噪音对第五图像进行去噪处理，得到第一图像。

进一步地，通过多模态损失对上述原始预设噪音进行梯度引导，得到更新后噪音包括：按照预设梯度引导顺序，利用多模态损失对原始预设噪音进行梯度引导，得到更新后噪音。例如，预设梯度引导顺序依次为文本引导损失、图像引导损失和布局引导损失时：利用文本引导损失对原始预设噪音进行文本引导，得到第一噪音；利用图像引导损失对第一噪音进行图像引导，得到第二噪音；利用布局引导损失对第二噪音进行布局引导，得到更新后噪音。

容易理解的是，根据本公开实施方式的上述步骤S5531至步骤S5533，通过利用多模态损失进行梯度引导得到的更新后噪音，对目标图像生成模型初步生成的目标图像(即第五图像)进行去噪处理，能够针对多模态损失对第五图像进行优化，得到第一图像，从而使得第一图像更加符合文本信息所描述的图像内容、图像风格和图像布局。

作为一种可选的实施方式，上述图像生成处理方法还包括：

步骤S571，采用扩散模型对训练文本进行文本编码处理以得到编码结果，对训练文本进行图文匹配处理以得到第二匹配结果，以及对编码结果与第二匹配结果进行条件扩散，得到第二图像集合；

步骤S572，对第二图像集合进行图像过滤处理，得到第一图像集合。

上述扩散模型为自训练的扩散模型或者现有技术提供的图像生成模型(如UPainting模型)。以现有技术提供的结构如图3所示的UPainting模型作为上述扩散模型为例，采用上述UPainting模型对训练文本进行文本编码处理，得到编码结果，其中，训练文本为指定语种的文本。采用上述UPainting模型对训练文本进行图文匹配处理以得到第二匹配结果，对编码结果与第二匹配结果进行条件扩散，得到第二图像集合。第二图像集合包括多张图像。对第二图像集合进行图像过滤处理，得到上述第一图像集合中的多张候选图像。

作为一种可选的实施方式，上述步骤S572中，对第二图像集合进行图像过滤处理，得到第一图像集合，包括以下方法步骤的其中至少之一：

步骤S5721，采用评分模型对第二图像集合进行图像过滤处理，得到第一图像集合，其中，评分模型用于对第二图像集合中评分低于预设阈值的图像进行过滤；

步骤S5722，采用去水印模型对第二图像集合进行图像过滤处理，得到第一图像集合，其中，去水印模型用于对第二图像集合中固化水印的图像进行过滤。

在本公开实施方式中，图像过滤处理包括以下至少之一：基于评分模型的图像过滤处理和基于去水印模型的图像过滤处理。上述评分模型用于对第二图像集合中评分低于预设阈值的图像进行过滤，其中，评分为按照预设分值计算规则计算得到的分值(如清晰度分值等)。上述去水印模型用于对第二图像集合中固化水印的图像进行过滤，其中，固化水印的图像为无法通过自动去水印操作去除水印的图像。

基于上述第二图像集合中的多张图像，采用评分模型进行图像过滤处理得到第一图像集合，或者采用去水印模型进行图像过滤处理得到第一图像集合；或者采用评分模型进行图像过滤处理得到第一过滤结果，采用去水印模型对第一过滤结果进行图像过滤处理得到第一图像集合。

容易理解的是，将采用现有技术提供的扩散模型所生成的图像集合作为本公开上述方法中提到的第一图像集合，通过本公开提供的上述技术方案，能够通过目标图像生成模型，考虑多模态损失的梯度引导，生成第一图像，也就是说，本公开提供的上述技术方案对现有技术提供的用于基于文本生成图像的扩散模型进行了改进，若干改进和对应的技术效果参见前文中的相关描述，不予赘述。

本公开实施例的上述图像生成处理方法可以但不限于应用于人工智能服务端提供基于文本生成图像的应用场景，以下以上述应用场景为例，对本公开的上述图像生成处理技术方案进行进一步说明。

在人工智能服务端提供基于文本生成图像的应用场景中，利用现有技术提供的结构如图3所示的UPainting模型，基于预先收集的风格查询列表批量生成若干图像，其中，预先收集的风格查询列表可以从相关的开源网络社区、网站或者用户查询历史获取。利用评分模型和去水印模型对若干图像进行图像过滤，得到候选图像集合。经过图像过滤处理，候选图像集合中的多张候选图像均为较高质量的图像。

进一步地，获取用户通过客户端输入的文本信息，例如，用户输入为“火山爆发、树、火石，新海诚风格”；利用预先训练的多语言图文匹配模型，基于上述文本信息生成图像P1(相当于上述第一图像)。上述预先训练的多语言图文匹配模型为中英双语模型。

本例中，基于图文匹配预训练(Contrastive Language-Image Pre-training，CLIP)模型，将CLIP模型的视觉编码器保持不变，将CLIP模型的文本编码器替换为经大量的[中文描述，图像]二元组训练后的文本编码器，将更新后的CLIP模型记为AltCLIP模型，也即上述中英双语模型。上述AltCLIP模型中具有图像与中文文本之间的映射关系。由此，利用AltCLIP模型进行基于中文文本信息的图像生成，能够避免翻译流程。

本例中，用户输入的文本信息“火山爆发、树、火石，新海诚风格”包含内容信息“火山爆发、树、火石”和风格信息“新海诚风格”。此时，根据风格信息，从候选图像集合中选取图像P2(相当于上述第二图像)。利用AltCLIP模型对图像P2进行扩散处理，得到扩散结果；利用AltCLIP模型对内容信息“火山爆发、树、火石”进行图文匹配处理，得到第一匹配结果；利用AltCLIP模型基于扩散结果与第一匹配结果生成图像P3(相当于上述第五图像)；利用图像P3与文本信息确定的多模态损失，对图像P3进行梯度引导，得到图像P1。

本例中，如果用户输入的文本信息包含内容信息“火山爆发、树、火石”，而未包含风格信息，则根据用户信息(例如用户历史偏好信息)从候选图像集合中选取上述图像P2。

图6是根据本公开实施例提供的一种可选的梯度引导过程的示意图，如图6所示，初始化图片也即上述图像P2为用户可选的(通过输入文本选择，或者从给定的候选风格选项中选择)，目标图像生成模型(也即AltCLIP模型)对图像P2进行特征提取，得到特征X0(t)，然后利用扩散模型对特征X0(t)进行扩散处理，得到扩散结果X0(t-1)。

仍然如图6所示，基于用户输入的文本信息中的内容信息“火山爆发、树、火石”，利用目标图像生成模型(也即AltCLIP模型)中的中英双语文本编码器和图像编码器进行图文匹配处理，得到第一匹配结果，此处第一匹配结果为剪切图(Cutouts)。

仍然如图6所示，基于扩散结果X0(t-1)和剪切图，利用目标图像生成模型(也即AltCLIP模型)进行梯度处理、高斯分布处理和采样处理，得到图像P3。图像P3的特征表示为X1(t-1)。基于图像P3的特征表示为X1(t-1)和上述图像P2的特征X0(t)进行多模态损失的梯度引导(本例中为迭代引导，迭代步数取250步)，得到输出图像(也即图像P1)。

图7是根据本公开实施例提供的一种可选的输出图像，图8是根据本公开实施例提供的另一种可选的输出图像。采用本公开实施例中提供的目标图像生成模型，针对用户输入的文本信息“火山爆发、树、火石，新海诚风格”，能够得到如图7所示的输出图像(也即图像P3)。进一步地，基于如图7所示的输出图像，采用本公开实施例中提供的上述通过多模态损失的梯度引导流程，能够得到如图8所示的输出图像(也即图像P1)。可见，上述考虑多模态损失的梯度引导流程能够使得目标图像生成模型所生成的图像具有与文本信息更加贴合的图像风格。

图9是根据本公开实施例提供的一种可选的原始图像，图10是根据本公开实施例提供的另一种可选的输出图像。用户输入的文本信息为“一幅美丽的奇幻景观”，如图9所示，用户还通过上传原始图像指定图像布局信息。基于上述文本信息和上述原始图像指定的图像布局信息，根据本公开实施例提供的上述图像生成处理方法，能够生成如图10所示的输出图像。可见，通过指定文本信息“一幅美丽的奇幻景观”和布局信息，本公开提供的技术方案能够通过图像梯度引导机制，提升输出图像的风格特点，优化输出图像的布局结构。

容易理解的是，根据本公开上述实施例提供的方法步骤，本公开的技术方案能够达到的有益效果包括：

有益效果(1)：通过自训练的多语言图文匹配模型，提醒图像生成模型对中文文本信息的理解，避免图像生成过程中的翻译流程，减少相关技术提供的方法中由于文本翻译带来的损失；

有益效果(2)：提出了基于文本、图像和布局的多模态损失对应的梯度引导机制，提升输出图像在给定风格下的图像质量，提升图像风格与文本描述的贴合程度，优化输出图像的布局结构。

作为一种可选的实施方式，通过终端设备提供一图形用户界面，图形用户界面所显示的内容至少部分地包含一图像生成处理场景，上述图像生成处理方法还包括：

步骤S581，响应作用于图形用户界面的第一触控操作，获取当前输入的内容信息与风格信息；

步骤S582，响应作用于图形用户界面的第二触控操作，从第一图像集合中选取风格信息匹配的第二图像，采用目标图像生成模型对内容信息与第二图像进行图像生成处理，以及在图形用户界面内展示第一图像。

在上述可选的实施方式中，终端设备(客户端)提供的图形用户界面中至少显示有图像生成处理场景，用户通过该图像生成处理场景输入文本信息(包括内容信息和风格信息)并请求从服务端获取第一图像。上述图像生成处理场景可以是人工智能领域中基于文本生成图像的软件及服务(Software as a Service，SaaS)应用场景。

上述图形用户界面还包括第一控件(或第一触控区域)，当检测到作用于第一控件(或第一触控区域)的第一触控操作时，获取当前输入的内容信息与风格信息。上述第一触控操作可以是用户通过触控行为输入文本信息的操作。上述内容信息用于确定待生成的第一图像的图像内容属性，上述风格属性用于确定待生成的第一图像的图像风格属性。

上述图形用户界面还包括第二控件(或第二触控区域)，当检测到作用于第二控件(或第二触控区域)的第二触控操作时，从第一图像集合中选取风格信息匹配的第二图像，采用目标图像生成模型对内容信息与第二图像进行图像生成处理，以及在图形用户界面内展示第一图像。上述第一图像集合为预先生成的候选图像集合，上述目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型。上述第一图像为与内容信息和风格信息相对应的生成图像。

进一步地，在图形用户界面内将上述第一图像展示给用户。通过上述步骤S581至步骤S582，用户通过对显示有图像生成处理场景的图形用户界面进行触控操作，能够输入内容信息和风格信息，还能够触发基于内容信息和风格信息利用目标图像生成模型生成第一图像的过程，由此，用户通过对上述图形用户界面的触控操作能够自动获取所输入的文本信息对应的第一图像。

需要说明的是，上述第一触控操作和上述第二触控操作均可以是用户用手指接触上述终端设备的显示屏并触控该终端设备的操作。该触控操作可以包括单点触控、多点触控，其中，每个触控点的触控操作可以包括点击、长按、重按、划动等。第一触控操作和上述第二触控操还可以是通过鼠标、键盘等输入设备实现的触控操作。

步骤S591，响应作用于图形用户界面的第三触控操作，获取当前输入的内容信息，得到文本信息；

步骤S592，响应作用于图形用户界面的第四触控操作，获取从第一图像集合中选取第三图像；

步骤S593，响应作用于图形用户界面的第五触控操作，采用目标图像生成模型对内容信息和第三图像进行图像生成处理，以及在图形用户界面内展示第一图像。

在上述可选的实施方式中，上述图形用户界面还包括第三控件(或第三触控区域)，当检测到作用于第三控件(或第三触控区域)的第三触控操作时，获取当前输入的内容信息，得到文本信息。上述第三触控操作可以是用户通过触控行为输入文本的操作。上述文本信息用于确定待生成的第一图像的视觉属性。

上述图形用户界面还包括第四控件(或第四触控区域)，当检测到作用于第四控件(或第四触控区域)的第四触控操作时，获取从第一图像集合中选取第三图像。上述第一图像集合为预先生成的候选图像集合，上述第四触控操作可以是用户通过触控行为从第一图像集合中选定第三图像的操作。上述第三图像用于确定待生成的第一图像的图像风格属性。

上述图形用户界面还包括第五控件(或第五触控区域)，当检测到作用于第五控件(或第五触控区域)的第五触控操作时，采用目标图像生成模型对内容信息和第三图像进行图像生成处理，以及在图形用户界面内展示第一图像。上述目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型。上述第一图像为与内容信息和风格信息相对应的生成图像。

进一步地，在图形用户界面内将上述第一图像展示给用户。通过上述步骤S591至步骤S593，用户通过对显示有图像生成处理场景的图形用户界面进行触控操作，能够输入内容信息，能够通过触控操作从多张候选风格图像中选取目标风格图像，还能够触发基于内容信息和目标风格图像利用目标图像生成模型生成第一图像的过程，由此，用户通过对上述图形用户界面的触控操作能够自动获取所输入的内容信息和选定的风格图像对应的第一图像。

需要说明的是，上述第三触控操作、上述第四触控操作和上述第五触控操作均可以是用户用手指接触上述终端设备的显示屏并触控该终端设备的操作。该触控操作可以包括单点触控、多点触控，其中，每个触控点的触控操作可以包括点击、长按、重按、划动等。上述第三触控操作、上述第四触控操作和上述第五触控操作还可以是通过鼠标、键盘等输入设备实现的触控操作。

作为一种可选的实施方式，上述图像生成处理方法中，视觉属性包括：图像内容、图像风格和图像布局。

具体地，上述第一图像的视觉属性包括图像内容(例如，第一图像中显示有哪些对象，第一图像的图像背景等)、图像风格(例如，写实类风格、梵高风格、毕加索风格、扁平风格、小清新风格等)和图像布局(例如，集中布局、分散布局、线性分布、径向分布等)。

在上述运行环境下，本公开还提供了如图11所示的另一种图像生成处理方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图11是根据本公开实施例提供的另一种图像生成处理方法的流程图。如图11所示，该方法可以包括如下步骤：

步骤S111，接收来自于客户端的文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；

步骤S112，采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；

步骤S113，将第一图像反馈至客户端，以使客户端对第一图像进行展示。

本公开实施例提供的上述图像生成处理方法运行于服务端，该服务端可以是集中式服务器、分布式服务器或者部署在云端的云服务器等。服务端接收来自于客户端的文本信息，并采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，进而将该第一图像返回至客户端。客户端收到服务端返回的第一图像后通过图形用户界面将该第一图像展示给用户。

具体地，本公开实施例还包括其他方法步骤，可以参照上述步骤S51至步骤S53以及其他可选的实施方式的说明，不予赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

根据本公开另一实施例，还提供了一种图像生成处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图12是根据本公开实施例提供的一种图像生成处理装置的结构框图，如图12所示，图像生成处理装置1200包括：获取模块1201，用于获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；处理模块1202，用于采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；展示模块1203，用于对第一图像进行展示。

可选地，文本信息包括：内容信息和风格信息，处理模块1202，用于从第一图像集合中选取风格信息匹配的第二图像，其中，第一图像集合为预先生成的候选图像集合；采用目标图像生成模型，对第二图像进行扩散处理以得到扩散结果，对内容信息进行图文匹配处理以得到第一匹配结果，以及基于扩散结果与第一匹配结果生成第一图像。

可选地，文本信息包括：内容信息，处理模块1202，用于获取第三图像，其中，第三图像预先从第一图像集合中选取，第三图像用于确定第一图像的风格，第一图像集合为预先生成的候选图像集合；采用目标图像生成模型，对第三图像进行扩散处理以得到扩散结果，对内容信息进行图文匹配处理以得到第一匹配结果，以及基于扩散结果与第一匹配结果生成第一图像。

可选地，目标图像生成模型包括：目标图文匹配模型，上述图像生成处理装置还包括：训练模块(图中未示出)，用于采用训练文本与第五图像对初始图文匹配模型进行训练，得到目标图文匹配模型，其中，第五图像为训练文本的配对图像，初始图文匹配模型中的文本编码器与训练文本的语种相适配，目标图文匹配模型用于对内容信息进行图文匹配处理以得到第一匹配结果。

可选地，处理模块1202，用于基于扩散结果与第一匹配结果生成第五图像；利用第五图像与文本信息确定多模态损失；通过多模态损失对第五图像进行梯度引导，得到第一图像。

可选地，处理模块1202，用于计算文本信息与第五图像之间的文本引导损失；计算第五图像与第六图像之间的图像引导损失，其中，第六图像是基于第五图像从第一图像集合中选取的图像；计算预设布局信息与第五图像之间的布局引导损失；利用文本引导损失、图像引导损失和布局引导损失中至少之一确定多模态损失。

可选地，上述图像生成处理装置1200还包括：选取模块1205，用于采用图文相关性检索方式，从第一图像集合中选取与第五图像的内容与风格相关性最高的图像，得到第六图像。

可选地，处理模块1202，用于获取第五图像的原始预测噪音；通过多模态损失对原始预测噪音进行梯度引导，得到更新后噪音；基于更新后噪音对第五图像进行去噪处理，得到第一图像。

可选地，上述图像生成处理装置1200还包括：扩散模块(图中未示出)，用于采用扩散模型对训练文本进行文本编码处理以得到编码结果，对训练文本进行图文匹配处理以得到第二匹配结果，以及对编码结果与第二匹配结果进行条件扩散，得到第二图像集合；过滤模块(图中未示出)，用于对第二图像集合进行图像过滤处理，得到第一图像集合。

可选地，过滤模块，用于对第二图像集合进行图像过滤处理，得到第一图像集合包括以下至少之一：采用评分模型对第二图像集合进行图像过滤处理，得到第一图像集合，其中，评分模型用于对第二图像集合中评分低于预设阈值的图像进行过滤；采用去水印模型对第二图像集合进行图像过滤处理，得到第一图像集合，其中，去水印模型用于对第二图像集合中固化水印的图像进行过滤。

可选地，通过终端设备提供一图形用户界面，图形用户界面所显示的内容至少部分地包含一图像生成处理场景，上述图像生成处理装置1200还包括：第一响应模块(图中未示出)，用于响应作用于图形用户界面的第一触控操作，获取当前输入的内容信息与风格信息；第二响应模块(图中未示出)，用于响应作用于图形用户界面的第二触控操作，从第一图像集合中选取风格信息匹配的第二图像，采用目标图像生成模型对内容信息与第二图像进行图像生成处理，以及在图形用户界面内展示第一图像。

可选地，通过终端设备提供一图形用户界面，图形用户界面所显示的内容至少部分地包含一图像生成处理场景，上述图像生成处理装置1200还包括：第三响应模块(图中未示出)，用于响应作用于图形用户界面的第三触控操作，获取当前输入的内容信息，得到文本信息；第四响应模块(图中未示出)，用于响应作用于图形用户界面的第四触控操作，获取从第一图像集合中选取第三图像；第五响应模块(图中未示出)，用于响应作用于图形用户界面的第五触控操作，采用目标图像生成模型对内容信息和第三图像进行图像生成处理，以及在图形用户界面内展示第一图像。

可选地，在图像生成处理装置1200中，视觉属性包括：图像内容、图像风格和图像布局。

图13是根据本公开实施例提供的另一种图像生成处理装置的结构框图，如图13所示，图像生成处理装置1300包括：接收模块1301，用于接收来自于客户端的文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；处理模块1302，用于采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；反馈模块1303，用于将第一图像反馈至客户端，以使客户端对第一图像进行展示。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本公开另一实施例，还提供了一种电子设备，包括至少一个处理器，以及与至少一个处理器通信连接的存储器，该存储器中存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，获取文本信息，其中，文本信息用于确定待生成的第一图像的视觉属性；

步骤S2，采用目标图像生成模型，对文本信息进行图像生成处理，得到第一图像，其中，目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；

步骤S3，对第一图像进行展示。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

根据本公开另一实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以被设置为存储用于使计算机执行以下步骤的计算机程序：

步骤S3，对第一图像进行展示。

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开另一实施例，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述的图像生成处理方法。

需要说明的是，用于实施本公开的图像生成处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开所提供的几个实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像生成处理方法，包括：

获取文本信息，其中，所述文本信息用于确定待生成的第一图像的视觉属性；

采用目标图像生成模型，对所述文本信息进行图像生成处理，得到所述第一图像，其中，所述目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；

对所述第一图像进行展示；

所述文本信息包括：内容信息和风格信息；

采用所述目标图像生成模型，对所述文本信息进行图像生成处理，得到所述第一图像包括：从第一图像集合中选取所述风格信息匹配的第二图像，其中，所述第一图像集合为预先生成的候选图像集合；采用所述目标图像生成模型，对所述第二图像进行扩散处理以得到扩散结果，对所述内容信息进行图文匹配处理以得到第一匹配结果，以及基于所述扩散结果与所述第一匹配结果生成所述第一图像。

2.根据权利要求1所述的图像生成处理方法，其中，采用所述目标图像生成模型，对所述文本信息进行图像生成处理，得到所述第一图像还包括：

获取第三图像，其中，所述第三图像预先从第一图像集合中选取，所述第三图像用于确定所述第一图像的风格，所述第一图像集合为预先生成的候选图像集合；

采用所述目标图像生成模型，对所述第三图像进行扩散处理以得到扩散结果，对所述内容信息进行图文匹配处理以得到第一匹配结果，以及基于所述扩散结果与所述第一匹配结果生成所述第一图像。

3.根据权利要求1或2所述的图像生成处理方法，其中，所述目标图像生成模型包括：目标图文匹配模型，所述图像生成处理方法还包括：

采用训练文本与第四图像对初始图文匹配模型进行训练，得到所述目标图文匹配模型，其中，所述第四图像为所述训练文本的配对图像，所述初始图文匹配模型中的文本编码器与所述训练文本的语种相适配，所述目标图文匹配模型用于对所述内容信息进行图文匹配处理以得到所述第一匹配结果。

4.根据权利要求1或2所述的图像生成处理方法，其中，基于所述扩散结果与所述第一匹配结果生成所述第一图像包括：

基于所述扩散结果与所述第一匹配结果生成第五图像；

利用所述第五图像与所述文本信息确定多模态损失；

通过所述多模态损失对所述第五图像进行梯度引导，得到所述第一图像。

5.根据权利要求4所述的图像生成处理方法，其中，利用所述第五图像与所述文本信息确定所述多模态损失包括：

计算所述文本信息与所述第五图像之间的文本引导损失；

计算所述第五图像与第六图像之间的图像引导损失，其中，所述第六图像是基于所述第五图像从所述第一图像集合中选取的图像；

计算预设布局信息与所述第五图像之间的布局引导损失；

利用所述文本引导损失、所述图像引导损失和所述布局引导损失中至少之一确定所述多模态损失。

6.根据权利要求5所述的图像生成处理方法，其中，所述图像生成处理方法还包括：

采用图文相关性检索方式，从所述第一图像集合中选取与所述第五图像的内容与风格相关性最高的图像，得到所述第六图像。

7.根据权利要求4所述的图像生成处理方法，其中，通过所述多模态损失对所述第五图像进行梯度引导，得到所述第一图像包括：

获取所述第五图像的原始预测噪音；

通过所述多模态损失对所述原始预测噪音进行梯度引导，得到更新后噪音；

基于所述更新后噪音对所述第五图像进行去噪处理，得到所述第一图像。

8.根据权利要求1或2所述的图像生成处理方法，其中，所述图像生成处理方法还包括：

采用扩散模型对训练文本进行文本编码处理以得到编码结果，对所述训练文本进行图文匹配处理以得到第二匹配结果，以及对所述编码结果与所述第二匹配结果进行条件扩散，得到第二图像集合；

对所述第二图像集合进行图像过滤处理，得到所述第一图像集合。

9.根据权利要求8所述的图像生成处理方法，其中，对所述第二图像集合进行图像过滤处理，得到所述第一图像集合包括以下至少之一：

采用评分模型对所述第二图像集合进行图像过滤处理，得到所述第一图像集合，其中，所述评分模型用于对所述第二图像集合中评分低于预设阈值的图像进行过滤；

采用去水印模型对所述第二图像集合进行图像过滤处理，得到所述第一图像集合，其中，所述去水印模型用于对所述第二图像集合中固化水印的图像进行过滤。

10.根据权利要求1所述的图像生成处理方法，其特征在于，通过终端设备提供一图形用户界面，所述图形用户界面所显示的内容至少部分地包含一图像生成处理场景，所述图像生成处理方法还包括：

响应作用于所述图形用户界面的第一触控操作，获取当前输入的所述内容信息与所述风格信息；

响应作用于所述图形用户界面的第二触控操作，从所述第一图像集合中选取所述风格信息匹配的所述第二图像，采用所述目标图像生成模型对所述内容信息与所述第二图像进行图像生成处理，以及在所述图形用户界面内展示所述第一图像。

11.根据权利要求2所述的图像生成处理方法，其特征在于，通过终端设备提供一图形用户界面，所述图形用户界面所显示的内容至少部分地包含一图像生成处理场景，所述图像生成处理方法还包括：

响应作用于所述图形用户界面的第三触控操作，获取当前输入的所述内容信息，得到所述文本信息；

响应作用于所述图形用户界面的第四触控操作，获取从所述第一图像集合中选取所述第三图像；

响应作用于所述图形用户界面的第五触控操作，采用所述目标图像生成模型对所述内容信息和所述第三图像进行图像生成处理，以及在所述图形用户界面内展示所述第一图像。

12.根据权利要求1所述的图像生成处理方法，其中，所述视觉属性包括：图像内容、图像风格和图像布局。

13.一种图像生成处理方法，包括：

接收来自于客户端的文本信息，其中，所述文本信息用于确定待生成的第一图像的视觉属性；

将所述第一图像反馈至所述客户端，以使所述客户端对所述第一图像进行展示；

所述文本信息包括：内容信息和风格信息；

14.一种图像生成处理装置，包括：

获取模块，用于获取文本信息，其中，所述文本信息用于确定待生成的第一图像的视觉属性；

处理模块，用于采用目标图像生成模型，对所述文本信息进行图像生成处理，得到所述第一图像，其中，所述目标图像生成模型是采用多模态引导机制进行梯度引导的多语言图像生成模型；

展示模块，用于对所述第一图像进行展示；

所述文本信息包括：内容信息和风格信息，所述处理模块，用于从第一图像集合中选取所述风格信息匹配的第二图像，其中，所述第一图像集合为预先生成的候选图像集合；采用所述目标图像生成模型，对所述第二图像进行扩散处理以得到扩散结果，对所述内容信息进行图文匹配处理以得到第一匹配结果，以及基于所述扩散结果与所述第一匹配结果生成所述第一图像。

15.根据权利要求14所述的图像生成处理装置，其中，所述文本信息包括：内容信息，所述处理模块，用于获取第三图像，其中，所述第三图像预先从第一图像集合中选取，所述第三图像用于确定所述第一图像的风格，所述第一图像集合为预先生成的候选图像集合；采用所述目标图像生成模型，对所述第三图像进行扩散处理以得到扩散结果，对所述内容信息进行图文匹配处理以得到第一匹配结果，以及基于所述扩散结果与所述第一匹配结果生成所述第一图像。

16.根据权利要求14或15所述的图像生成处理装置，其中，所述目标图像生成模型包括：目标图文匹配模型，所述图像生成处理装置还包括：

训练模块，用于采用训练文本与第四图像对初始图文匹配模型进行训练，得到所述目标图文匹配模型，其中，所述第四图像为所述训练文本的配对图像，所述初始图文匹配模型中的文本编码器与所述训练文本的语种相适配，所述目标图文匹配模型用于对所述内容信息进行图文匹配处理以得到所述第一匹配结果。

17.根据权利要求14或15所述的图像生成处理装置，其中，所述处理模块，用于基于所述扩散结果与所述第一匹配结果生成第五图像；利用所述第五图像与所述文本信息确定多模态损失；通过所述多模态损失对所述第五图像进行梯度引导，得到所述第一图像。

18.根据权利要求17所述的图像生成处理装置，其中，所述处理模块，用于计算所述文本信息与所述第五图像之间的文本引导损失；计算所述第五图像与第六图像之间的图像引导损失，其中，所述第六图像是基于所述第五图像从所述第一图像集合中选取的图像；计算预设布局信息与所述第五图像之间的布局引导损失；利用所述文本引导损失、所述图像引导损失和所述布局引导损失中至少之一确定所述多模态损失。

19.根据权利要求18所述的图像生成处理装置，其中，所述图像生成处理装置还包括：

选取模块，用于采用图文相关性检索方式，从所述第一图像集合中选取与所述第五图像的内容与风格相关性最高的图像，得到所述第六图像。

20.根据权利要求17所述的图像生成处理装置，其中，所述处理模块，用于获取所述第五图像的原始预测噪音；通过所述多模态损失对所述原始预测噪音进行梯度引导，得到更新后噪音；基于所述更新后噪音对所述第五图像进行去噪处理，得到所述第一图像。

21.根据权利要求14或15所述的图像生成处理装置，其中，所述图像生成处理装置还包括：

扩散模块，用于采用扩散模型对训练文本进行文本编码处理以得到编码结果，对所述训练文本进行图文匹配处理以得到第二匹配结果，以及对所述编码结果与所述第二匹配结果进行条件扩散，得到第二图像集合；

过滤模块，用于对所述第二图像集合进行图像过滤处理，得到所述第一图像集合。

22.根据权利要求21所述的图像生成处理装置，其中，所述过滤模块，用于对所述第二图像集合进行图像过滤处理，得到所述第一图像集合包括以下至少之一：

23.根据权利要求14所述的图像生成处理装置，其特征在于，通过终端设备提供一图形用户界面，所述图形用户界面所显示的内容至少部分地包含一图像生成处理场景，所述图像生成处理装置还包括：

第一响应模块，用于响应作用于所述图形用户界面的第一触控操作，获取当前输入的所述内容信息与所述风格信息；

第二响应模块，用于响应作用于所述图形用户界面的第二触控操作，从所述第一图像集合中选取所述风格信息匹配的所述第二图像，采用所述目标图像生成模型对所述内容信息与所述第二图像进行图像生成处理，以及在所述图形用户界面内展示所述第一图像。

24.根据权利要求15所述的图像生成处理装置，其特征在于，通过终端设备提供一图形用户界面，所述图形用户界面所显示的内容至少部分地包含一图像生成处理场景，所述图像生成处理装置还包括：

第三响应模块，用于响应作用于所述图形用户界面的第三触控操作，获取当前输入的所述内容信息，得到所述文本信息；

第四响应模块，用于响应作用于所述图形用户界面的第四触控操作，获取从所述第一图像集合中选取所述第三图像；

第五响应模块，用于响应作用于所述图形用户界面的第五触控操作，采用所述目标图像生成模型对所述内容信息和所述第三图像进行图像生成处理，以及在所述图形用户界面内展示所述第一图像。

25.根据权利要求14所述的图像生成处理装置，其中，所述视觉属性包括：图像内容、图像风格和图像布局。

26.一种图像生成处理装置，包括：

接收模块，用于接收来自于客户端的文本信息，其中，所述文本信息用于确定待生成的第一图像的视觉属性；

反馈模块，用于将所述第一图像反馈至所述客户端，以使所述客户端对所述第一图像进行展示；

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的图像生成处理方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的图像生成处理方法。