CN116958323A

CN116958323A - 图像生成方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN116958323A
Application number: CN202310820471.6A
Authority: CN
Inventors: 王州霞; 王鑫涛; 谢良彬; 祁仲昂; 单瀛; 罗平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-10-27

Abstract

本申请提供了一种基于人工智能的图像生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品；方法包括：获取内容文本，并获取具有目标风格的风格图像；对所述内容文本进行文本编码处理，得到内容文本的内容文本编码，并从所述风格图像中提取风格编码；基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到目标图像；其中，所述目标图像与所述内容文本的内容匹配，且所述目标图像具有所述目标风格。通过本申请，能够高效生成兼具指定语义以及参考风格的图像。

Description

图像生成方法、装置、电子设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的图像生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

风格迁移技术已经应用到各种图像编辑场景以及图像生成场景，相关技术中风格迁移方案所涉及到的图像内容通常涉及到指定的内容图像，即针对已有图像的图像本身进行风格迁移，从而导致无法高效生成符合内容要求以及风格要求的图像。

发明内容

本申请实施例提供一种基于人工智能的图像生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够高效生成兼具指定语义以及参考风格的图像。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的图像生成方法，包括：

获取内容文本，并获取具有目标风格的风格图像；

对所述内容文本进行文本编码处理，得到内容文本的内容文本编码，并从所述风格图像中提取风格编码；

基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到目标图像；

其中，所述目标图像与所述内容文本的内容匹配，且所述目标图像具有所述目标风格。

本申请实施例提供一种基于人工智能的图像生成装置，包括：

获取模块，用于获取内容文本，并获取具有目标风格的风格图像；

编码模块，用于对所述内容文本进行文本编码处理，得到内容文本的内容文本编码，并从所述风格图像中提取风格编码；

逆扩散模块，用于基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到目标图像；其中，所述目标图像与所述内容文本的内容匹配，且所述目标图像具有所述目标风格。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的基于人工智能的图像生成方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的基于人工智能的图像生成方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的基于人工智能的图像生成方法。

本申请实施例具有以下有益效果：

获取内容文本，并获取具有目标风格的风格图像，对内容文本进行文本编码处理，得到内容文本的内容文本编码，并对风格图像进行风格编码处理，得到风格编码，通过双路交叉注意力机制将内容文本编码以及风格编码融入到对噪声图像进行逆扩散处理的过程中，从而可以一次性得到兼具与内容文本匹配以及目标风格的目标图像，提高图像生成效率。

附图说明

图1是本申请实施例提供的基于人工智能的图像生成系统的结构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A-图3D是本申请实施例提供的基于人工智能的图像生成方法的流程示意图；

图4是本申请实施例提供的基于人工智能的图像生成方法的模型示意图；

图5是本申请实施例提供的基于人工智能的图像生成方法的模型示意图；

图6A至图6C是本申请实施例提供的基于人工智能的图像生成方法的效果示意图；

图7是本申请实施例提供的基于人工智能的图像生成方法的效果示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例涉及人工智能(Artificial Intelligence，AI)、机器学习(MachineLearning，ML)技术、自然语言处理和计算机视觉技术。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

自动驾驶技术，指车辆在无驾驶员操作的情况下实现自行驾驶。通常包括高精地图、环境感知、计算机视觉、行为决策、路径规划、运动控制等技术。自动驾驶包括单车智能、车路协同、联网云控等多种发展路径。自动驾驶技术有着广泛的应用前景，目前的领域为物流、公共交通、出租车、智慧交通领域外，未来将得到进一步发展。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)U-Net：一种常用的基于卷积的深度学习网络架构，具有U型的特征连接方式，U-Net常用于执行图像分割任务。

2)扩散模型(stable diffusion，SD)：扩散模型的工作原理是学习由于噪声引起的信息衰减，然后使用学习到的模式来生成图像。

相关技术包括传统风格迁移方法和基于扩散模型的风格生成方法。传统风格迁移方法的输入由内容图像和风格图像组成，分别提取两者的特征后，通过额外风格映射器实现风格图像的风格到内容图像的迁移。基于扩散模型的风格生成方法通过学习一张或者多张风格图像在文本空间中的占位符，或者这些风格图像被输入扩散模型以反复微调该扩散模型，以训练得到对应某个风格的扩散模型，从而可以调用对应某个风格的扩散模型，以提示词为输入生成具有该风格的图像。

传统风格迁移方法内容来自于指定的内容图像，其风格迁移的效果比较粗粒度，主要为颜色层面，而且是针对已有图像的图像本身进行风格迁移。而基于扩散模型的风格生成方法则需要对每种风格训练一个模型，导致训练成本比较高。因此相关技术的方案无法兼具好的效果和较高的效率。

基于上述技术问题，本申请实施例提供一种图像生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够高效生成兼具指定语义以及参考风格的图像。

本申请实施例所提供的图像生成方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文的图像生成方法，或者，终端向服务器发送针对图像生成请求(携带有内容文本以及风格图像)，服务器根据接收的图像生成请求执行图像生成方法，对内容文本进行文本编码处理，得到内容文本的内容文本编码，并对风格图像进行风格编码处理，得到风格编码；基于对应风格编码以及内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到与内容文本的内容匹配且具有目标风格的目标图像，服务器返回目标图像至终端。

本申请实施例提供的用于执行图像生成方法的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

参见图1，图1是本申请实施例提供的图像生成系统的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400(运行有剪辑客户端)可以被用来获取图像生成请求，例如，用户通过终端400的输入界面输入内容文本以及风格图像(通过选择操作触发对应不同风格的控件，触发任意风格的控件之后会获取对应该风格的多个风格图像)以生成图像生成请求，终端400将图像生成请求发送至服务器200，服务器200对内容文本进行文本编码处理，得到内容文本的内容文本编码，并对风格图像进行风格编码处理，得到风格编码；基于对应风格编码以及内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到与内容文本的内容匹配且具有目标风格的目标图像，服务器200返回目标图像至终端400。

在一些实施例中，终端中运行的客户端中可以植入有图像生成插件，用以在客户端本地实现图像生成方法。例如，终端400获取图像生成请求后，调用图像生成插件，以实现图像生成方法，对内容文本进行文本编码处理，得到内容文本的内容文本编码，并对风格图像进行风格编码处理，得到风格编码；基于对应风格编码以及内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到与内容文本的内容匹配且具有目标风格的目标图像。

参见图2，图2是本申请实施例提供的电子设备的结构示意图，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的图像生成装置可以采用软件方式实现，图2示出了存储在存储器450中的图像生成装置455，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块4551、编码模块4552、逆扩散模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

如前，本申请实施例提供的图像生成方法可以由各种类型的电子设备实施。参见图3A，图3A是本申请实施例提供的图像生成方法的流程示意图，结合图3A示出的步骤101至步骤103进行说明。

在步骤101中，获取内容文本，并获取具有目标风格的风格图像。

作为示例，这里的内容文本用于控制图像生成的内容，例如内容文本是“摩托车”，那么内容文本可以用来指导生成包括摩托车的目标图像，即目标图像与内容文本的内容匹配，例如目标图像包括内容文本所提到的对象。

作为示例，这里的风格图像可以是一张或者是多张，如果是多张风格图像，这些风格图像均具有相同的风格，例如漫画风格、梵高风格、油画风格等等，从而可以指导具有目标风格的目标图像。

在一些实施例中，参见图3B，步骤101中所述获取具有目标风格的风格图像，可以通过图3B示出的步骤1011至步骤1013实现。

在步骤1011中，获取具有所述目标风格的至少一个原始风格图像。

针对每个所述原始风格图像执行步骤1012至步骤1013。

在步骤1012中，对所述原始风格图像进行块分割处理，得到所述原始风格图像的多个图像块。

在步骤1013中，对所述原始风格图像的多个图像块进行打乱拼接处理，得到具有所述目标风格的风格图像。

通过本申请实施例对原始风格图像进行基于图像块的打乱，在保留原始风格图像中纹理笔触等风格细节的时候，干扰原始风格图像的语义信息。

在步骤102中，对所述内容文本进行文本编码处理，得到内容文本的内容文本编码，并从所述风格图像中提取风格编码。

在一些实施例中，参见图3C，步骤102中从所述风格图像中提取风格编码可以通过针对每个所述风格图像执行图3C示出的步骤1021至步骤1024实现。

在步骤1021中，对所述风格图像进行图像编码处理，得到所述风格图像的图像编码。

在一些实施例中，步骤1021中对所述风格图像进行图像编码处理，得到所述风格图像的图像编码，可以通过以下技术方案实现：针对每个所述风格图像执行以下处理：获取表征所述风格图像的语义类型的语义编码；获取所述风格图像的多个图像块；对每个所述图形块进行视觉嵌入编码处理，得到每个所述图像块的视觉嵌入编码，并对每个所述图像块进行位置嵌入编码处理，得到每个所述图像块的位置嵌入编码；将所述语义编码与多个所述图像块的视觉嵌入编码进行拼接处理，得到第二拼接结果；将所述第二拼接结果与每个所述图像块的位置嵌入编码进行对应所述图像块的叠加处理，得到图像编码。通过本申请实施例对风格图像进行语义、位置以及视觉层面的编码，从而得到的图像编码可以起到较好的指导效果。

作为示例，通过视觉模型对风格图像进行映射处理，这里视觉模型来自于文本图像对比模型，视觉模型是预训练得到的，通过视觉模型对风格图像进行映射后会输出表征风格图像的语义类型的类嵌入(语义编码)以及每个图像块的视觉嵌入编码，具体的图像编码处理可以参考公式(1)实施：

其中，E_cls是表征风格图像的语义类型的语义编码，E_pos是每个图像块的位置嵌入编码，是对风格图像划分得到的没有重叠的图像块，E表征是视觉嵌入编码处理。

在一些实施例中，在对所述风格图像的图像编码进行基于注意力机制的编码处理，得到所述风格图像的注意力图像编码之前，针对每个所述风格图像执行以下处理：将表征所述风格图像的语义类型的语义编码从所述风格图像的图像编码中移除，并将移除结果更新为所述风格图像的图像编码。

作为示例，语义编码E_cls和风格图像中的语义信息紧密关联，故本申请实施例通过移除语义编码E_cls以丢弃风格图像中的语义信息，通过本申请实施例可以提高风格特性的表征能力，降低语义信息对于图像生成的影响。

在步骤1022中，对所述风格图像的图像编码进行基于注意力机制的编码处理，得到所述风格图像的注意力图像编码。

作为示例，这里基于注意力机制的编码处理是通过transformer网络结构实现的，transformer网络结构是由多个自注意力模块级联组成的，自注意力模块的数据处理是通过自注意力机制的Attention公式实现的。

在步骤1023中，当所述风格图像的数目为多个时，将多个所述风格图像的注意力图像编码进行拼接处理，得到第一拼接结果，并对所述第一拼接结果进行风格嵌入处理，得到所述风格编码。

在步骤1024中，当所述风格图像的数目为一个时，对所述风格图像的注意力图像编码进行风格嵌入处理，得到所述风格编码。

作为示例，参见图4，当风格图像的数目为多个时，将多个风格图像的注意力图像编码进行拼接处理，得到第一拼接结果f_r，再对第一拼接结果f_r进行风格嵌入处理，得到风格编码，当风格图像的数目为一个时，可以直接对风格图像的注意力图像编码进行风格嵌入处理，得到风格编码。

作为示例，结合图5介绍本申请实施例涉及到的风格嵌入网络(Style Emb)，它是由多个注意力模块构成的Transformer结构。它的输入由第一拼接结果f_r和一个可学习的嵌入特征f_m拼接组成。通过Transformer结构后，生成和/>通过可学习矩阵M_s映射成f_s(风格编码)以参与后续生成过程。通过本申请实施例可以实现类别嵌入抑制，由于我们的目标是抑制风格图像中的语义信息，以避免损害输出图像的内容保真度。因此在用视觉模型提取风格图像的特征时消除语义相关的信息。

在一些实施例中，所述文本编码处理以及所述图像编码处理是通过调用文本图像对比模型实现的，获取多个第一文本样本以及与每个所述第一文本样本匹配的第一图像样本；通过所述文本图像对比模型的视觉模型对每个所述第一图像样本进行图像编码处理，得到每个所述第一图像样本的图像编码；通过所述文本图像对比模型的文本模型对每个所述第一文本样本进行文本编码处理，得到每个所述第一文本样本的文本编码；基于每个所述第一文本样本的文本编码、每个所述第一图像样本的图像编码、以及每个所述第一文本样本与每个所述第一图像样本之间的匹配关系，确定文本图像对比损失；基于所述文本图像对比损失更新所述文本图像对比模型的参数。

作为示例，文本图像对比模型将互相匹配的第一图像样本和第一文本样本先分别输入一个视觉模型image_encoder和一个文本模型text_encoder，得到第一图像样本和第一文本样本的向量表示I-f和T_f。然后将第一图像样本和第一文本样本的向量表示映射到一个多模态空间，得到可直接进行比较的第一图像样本和第一文本样本的向量表示I_e和T_e，这是多模态学习中的方法，不同模态的数据表示之间可能存在鸿沟，从而无法进行直接比较，因此先将不同模态的数据映射到同一个多模态空间，有利于后续的相似度计算等操作。计算第一图像样本和第一文本样本的向量表示之间的余弦相似度。对比学习的目标函数就是让正样本对(互相匹配的第一图像样本和第一文本样本)的相似度较高，负样本对(互相不匹配的第一图像样本和第一文本样本)的相似度较低。

在步骤103中，基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到目标图像。

作为示例，所述目标图像与所述内容文本的内容匹配，且所述目标图像具有所述目标风格。

在一些实施例中，参见图3D，步骤103中所述基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到目标图像，可以通过图3D示出的步骤1031至步骤1032。

在步骤1031中，通过N个级联的逆扩散网络中第n逆扩散网络，对所述第n逆扩散网络的输入进行基于所述双路交叉注意力机制的逆扩散处理，并将所述第n逆扩散网络输出的第n逆扩散结果传输到第n+1逆扩散网络以继续进行基于所述双路交叉注意力机制的逆扩散处理，得到对应所述第n+1逆扩散网络的第n+1逆扩散结果。

在步骤1032中，基于对应第N逆扩散网络的第N逆扩散结果生成所述目标图像。

作为示例，n为取值从1开始递增的整数变量，n的取值范围为1≤n<N，当n取值为1时，所述第n逆扩散网络的输入为所述噪声图像、所述内容文本编码以及所述风格编码，当n取值为2≤n<N时，所述第n逆扩散网络的输入为第n-1逆扩散网络输出的第n-1逆扩散结果、所述内容文本编码以及所述风格编码。

作为示例，有N个逆扩散网络级联，从而相当于执行了T次逆扩散处理，每次都是根据前一次逆扩散得到的噪声图像(即前一次逆扩散得到的逆扩散结果)进行逆扩散处理以及随机采样处理，再输入到下一个逆扩散网络中进行逆扩散处理以及随机采样处理，n为取值从1开始递增的整数变量，n的取值范围为1≤n<N，当n取值为1时，第n逆扩散网络的输入为噪声图像(或者是隐噪声图像编码)、内容文本编码以及风格编码，当n取值为2≤n<N时，第n逆扩散网络的输入为第n-1逆扩散网络输出的第n-1逆扩散结果、内容文本编码以及风格编码。

作为示例，以N为3举例进行说明，通过第1逆扩散网络对噪声图像(或者隐空间噪声编码)、内容文本编码以及风格编码进行逆扩散处理，得到第1逆扩散结果，通过第2逆扩散网络对第1逆扩散结果以及内容文本编码进行逆扩散处理，得到第2逆扩散结果，通过第3逆扩散网络对第2逆扩散结果、内容文本编码以及风格编码进行逆扩散处理，得到第3逆扩散结果，通过上述方式得到的每个逆扩散结果也均是图像(或者是隐空间编码)，每个逆扩散网络所执行的逆扩散处理相当于是一个时间步的逆扩散处理。

作为示例，当第N逆扩散结果是隐空间编码时，基于第N逆扩散结果生成随机分布，再从随机分布中进行采样得到隐空间图像编码，再通过解码器对隐空间图像编码进行解码处理，得到目标图像。通过逆扩散网络每次执行逆扩散处理之后，会将得到数据作为随机分布的均值，方差是设定数据，从而得到对应逆扩散结果的随机分布，再对随机分布进行采样得到逆扩散结果，以输入到下一个逆扩散网络，当第N逆扩散结果是图像时，直接将第N逆扩散结果作为目标图像。

通过本申请实施例可以对隐空间噪声编码或者噪声图像逐步进行去噪处理，从而得到隐空间的去噪结果或者真实空间的去噪结果，在隐空间上实现去噪流程，降低数据处理量并提高去噪速度，在真实空间去噪可以在去噪过程中进行可视化评估，优化去噪效果并且节约计算资源。

在一些实施例中，所述第n逆扩散网络包括级联的M个采样网络，M的取值满足2≤M；步骤1031中通过N个级联的逆扩散网络中第n逆扩散网络，对所述第n逆扩散网络的输入进行基于所述双路交叉注意力机制的逆扩散处理，可以通过以下技术方案实现：通过M个级联的采样网络中的第m采样网络，对所述第m采样网络的输入进行采样处理，得到对应所述第m采样网络的采样结果，将对应所述第m采样网络的采样结果传输到第m+1采样网络以继续进行采样处理，得到对应所述第m+1采样网络的第m+1采样结果；将所述第M采样网络输出的采样结果作为所述第n逆扩散结果。

作为示例，m为取值从1开始递增的整数变量，m的取值范围为1≤m≤M-1，当m取值为1时，所述第m采样网络的输入为所述第n逆扩散网络的输入、所述内容文本编码以及所述风格编码，当m取值为2≤m<M时，所述第m采样网络的输入为第m-1采样网络输出的第m-1采样结果、所述内容文本编码以及所述风格编码。

作为示例，以第2逆扩散网络为例进行说明，逆扩散网络可以包括3个下采样网络以及3个上采样网络，通过3个级联的下采样网络对第1逆扩散结果、内容文本编码以及风格编码进行下采样处理，得到第2逆扩散网络的下采样结果；通过3个级联的上采样网络对第2逆扩散网络的下采样结果、内容文本编码以及风格编码进行上采样处理，得到第2逆扩散网络的上采样结果作为第2逆扩散网络的噪声估计结果；基于第2逆扩散网络的噪声估计结果对第1逆扩散结果进行噪声消除处理，得到对应第2逆扩散网络的第2逆扩散结果。

作为示例，通过第1下采样网络，对第1下采样网络的输入进行下采样处理，得到对应第1下采样网络的下采样结果，将对应第1下采样网络的下采样结果传输到第2下采样网络以继续进行下采样处理，得到对应第2下采样网络的第2下采样结果；通过第2下采样网络，对第2下采样网络的输入进行下采样处理，得到对应第2下采样网络的下采样结果，将对应第2下采样网络的下采样结果传输到第3下采样网络以继续进行下采样处理，得到对应第3下采样网络的第3下采样结果，将第3下采样网络输出的第3下采样结果作为第2逆扩散结果，这里每个下采样网络的输入除包括前一个网络的输出之外，还包括内容文本编码以及风格编码。

在一些实施例中，上述将对应所述第m采样网络的采样结果传输到第m+1采样网络以继续进行采样处理，得到对应所述第m+1采样网络的第m+1采样结果，可以通过以下技术方案实现：对所述第m采样网络的第m采样结果进行自注意力处理，得到所述第m+1采样网络的自注意力处理结果；对所述第m+1采样网络的自注意力处理结果以及所述内容文本编码进行交叉注意力处理，得到所述第m+1采样网络的文本交叉注意力处理结果；对所述第m+1采样网络的自注意力处理结果以及所述风格编码进行交叉注意力处理，得到所述第m+1采样网络的风格交叉注意力处理结果；对所述第m+1采样网络的风格交叉注意力处理结果与所述第m+1采样网络的文本交叉注意力处理结果进行融合处理，得到对应所述第m+1采样网络的第m+1采样结果。通过本申请实施例可以融合风格指导以及内容指导，从而可以在两个方面确保目标图像的生成效果。

作为示例，自注意力处理是通过自注意力机制的Attention公式实现的，后续分别将自注意力处理结果与内容文本编码以及风格编码进行交叉注意力处理，得到两路交叉注意力处理结果，再通过参数λ对两路交叉注意力处理结果进行融合，得到第m+1采样网络的第m+1采样结果，参见公式(2)：

其中，是第m+1采样网络的第m+1采样结果，λ是可训练的融合参数，Attention(Q_s，K_s，V_s)是风格交叉注意力处理结果，Attention(Q_t，K_t，V_t)是文本交叉注意力处理结果。

在一些实施例中，上述对所述第m+1采样网络的自注意力处理结果以及所述内容文本编码进行交叉注意力处理，得到所述第m+1采样网络的文本交叉注意力处理结果，可以通过以下技术方案实现：对所述第m+1采样网络的自注意力处理结果进行基于第一查询参数的映射处理，得到第一查询矩阵；对所述内容文本编码进行基于第一键参数的映射处理，得到第一键矩阵；对所述内容文本编码进行基于第一值参数的映射处理，得到第一值矩阵；对所述第一查询矩阵、所述第一键矩阵以及所述第一值矩阵进行注意力计算，得到所述第m+1采样网络的文本交叉注意力处理结果。

作为示例，参见公式(3)：

其中，W_Qt是第一查询参数，y是自注意力模块的输出，W_Kt是第一键参数，W_Vt是第一值参数，f_t是风格特征，d是维度，Q_t是第一查询矩阵，K_t是第一键矩阵，V_t是第一值矩阵，Attention(Q_t，K_t，V_t)是文本交叉注意力模块的输出(文本交叉注意力处理结果)。

在一些实施例中，上述对所述第m+1采样网络的自注意力处理结果以及所述风格编码进行交叉注意力处理，得到所述第m+1采样网络的风格交叉注意力处理结果，可以通过以下技术方案实现：对所述第m+1采样网络的自注意力处理结果进行基于第二查询参数的映射处理，得到第二查询矩阵；对所述风格编码进行基于第二键参数的映射处理，得到第二键矩阵；对所述风格编码进行基于第二值参数的映射处理，得到第二值矩阵；对所述第二查询矩阵、所述第二键矩阵以及所述第二值矩阵进行注意力计算，得到所述第m+1采样网络的风格交叉注意力处理结果。

作为示例，参见公式(4)：

其中，W_Qs是第二查询参数，y是自注意力模块的输出，W_Ks是第二键参数，W_Vs是第二值参数，f_s是文本特征，d是维度，Q_s是第二查询矩阵，K_s是第二键矩阵，V_s是第二值矩阵，Attention(Q_s，K_s，V_s)是风格交叉注意力模块的输出。

本申请实施例涉及到的参数均是经过训练得到的参数，例如第二键参数、第一键参数等参数。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

终端(运行有图像编辑客户端)可以被用来获取图像生成请求，例如，用户通过终端的输入界面输入内容文本以及风格图像(通过选择操作触发对应不同风格的控件，触发任意风格的控件之后会获取对应该风格的多个风格图像)以生成图像生成请求，终端将图像生成请求发送至服务器，服务器对内容文本进行文本编码处理，得到内容文本的内容文本编码，并对风格图像进行风格编码处理，得到风格编码；基于对应风格编码以及内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到与内容文本的内容匹配且具有目标风格的目标图像，服务器返回目标图像至终端。

本申请实施例主要提供用于风格图像生成的风格适配器，基于双路交叉注意力机制实现的扩散模型和风格图像的语义风格解耦策略使得风格适配器根据内容文本(提示词)和风格参照图像(即前文所述的风格图像)生成用户期望内容以及用户期望风格的图像。

下面结合图4介绍本申请实施例提供的风格适配器的架构示意图。

风格适配器包括用于解析内容文本的文本模型(text model)，解析风格参照图像的视觉模型(vision model)，可学习的风格嵌入网络(Style Emb)以及基于两路注意力机制实现的扩散模型。

给定内容文本P和一系列的风格参照图像R＝{I₀，I₁，…，I_K-1}，它们首先被textmodel和vision model分别解析成文本特征f_t和视觉特征{f₀，f₁，…，f_K-1}。然后风格嵌入网络将视觉特征{f₀，f₁，…，f_K-1}融合成风格特征f_s。将f_t和f_s分别输入到扩散模型中两路交叉注意力模块中，具体而言，将f_t输入至T-CrossA，T-CrossA表示文本交叉注意力模块，将f_s输入至S-Cross A，S-CrossA表示风格交叉注意力模块，使得扩散模型可以生成内容和内容文本一致，风格和风格参考图像一致的图像I_o。

在训练阶段需要进行参数更新的网络结构是风格交叉注意力模块以及风格嵌入网络，其余网络结构均是在预训练中训练完成后得到的。

本申请实施例所涉及的text model和vision model可以是语言-图像对比预训练模型(Contrastive Language-Image Pre-training Model，CLIP)，通过简单的图文双塔对比学习和大量的图文语料，使模型具有了显著的图文特征对齐能力，在零样本图像分类、跨模态检索中效果拔群。

本申请实施例涉及到的扩散模型由多个逆扩散(去噪)网络级联而成，每个逆扩散网络包括多个采样层(上采样层以及下采样层)，每个采样层包括自注意力模块以及两路交叉注意力模块。两路交叉注意力模块由两个并行得交叉注意力模块T-CrossA和S-CrossA组成，分别处理文本特征f_t和风格特征f_t。他们的处理结果通过参数λ进行结合，参见公式(5)至公式(7)：

其中，W_Qt是第一查询参数，y是自注意力模块的输出，W_Kt是第一键参数，W_Vt是第一值参数，f_t是风格特征，d是维度，Q_t是第一查询矩阵，K_t是第一键矩阵，V_t是第一值矩阵，Attention(Q_t，K_t，V_t)是文本交叉注意力模块的输出。

其中，是两路交叉注意力模块的输出，λ是可训练的融合参数，Attention(Q_s，K_s，V_s)是风格交叉注意力模块的输出，Attention(Q_t，K_t，V_t)是文本交叉注意力模块的输出。

下面结合图5介绍本申请实施例涉及到的风格嵌入网络(Style Emb)，它是由多个注意力模块构成的Transformer结构。它的输入由风格参照图的视觉特征{f₀，f₁，…，f_K-1}拼接成的特征f_r和一个可学习的嵌入特征f_m拼接组成。通过Transformer结构后，生成和通过可学习矩阵M_s映射成f_s以参与后续生成过程。

下面介绍风格图像的语义风格解耦策略。

为了解耦风格图像中的语义和风格，缓解风格图像中语义对生成图像内容得干扰，本申请实施例提出三个有效解耦策略。

第一、对风格参照图像进行基于块的打乱。在保留参照图像中纹理笔触等风格细节的时候，干扰风格参考图像的语义信息。

第二、移除用于解析风格图像的视觉模型中的类嵌入(class embedding)信息，参见公式(8)：

其中，E_cls是通过视觉模型得到的类嵌入(与类别相关联)，E_pos表征每个图像块的位置信息，是对风格参照图划分得到的没有重叠的图像块，公式(8)为视觉模型处理风格参照图像的公式，E_cls和风格图像中的语义信息紧密关联，故本申请实施例通过移除E_cls以丢弃风格图像中的语义信息。

第三、提供语义多样性强的多张风格参照图像，即风格参照图由多张同一风格的图像组成，而每张图像中的语义尽可能不同。这一做法使得模型在生成图像的时候更倾向于获取这些参照图中共同的风格特征，而丢弃参差不齐的语义特征。

本申请实施例提出的风格适配器，通过两路交叉注意力机制和三个解耦策略实现使用同一模型生成各种各样和内容文本的内容一致，且和参照图风格一致的图像。

下面介绍本申请实施例提供的风格适配器的试验效果。

参见图6A，给定多个风格的风格图，本申请实施例提供的风格适配器能够在一次传递过程中生成符合风格和内容文本的目标图像。此外，本申请实施例具有与其他可控条件的兼容性，这里的其他可控条件可以是草图，如图6A最后一列的结果显示，在附加草图的指导下，生成内容的形状更加可控。

参见图6B以及表1，表1示出了各个相关技术以及本方案在文本相似度以及风格相似度两个层面的评分，相关技术1和相关技术2仅执行粗粒度的颜色转换。相关技术3未能产生令人满意的风格化，因为从风格图像中提取的文本表现不佳。相关技术4依赖于文本倒置，在基于内容的风格转换方面比基于提示的风格转换取得了更好的结果，但其风格与风格图像仍有较大差距。相比之下，本申请实施例提供的风格适配器生成的目标图像更忠实于风格图像的目标风格，特别是在笔触、线条等方面。本申请实施例也产生与内容文本更匹配的目标图像，且在内容保真度和风格保真度之间取得了更好的平衡。

/>

表1各个方案的文本相似度以及风格相似度评分表

参见图6C，本申请实施例进行实验来评估TPCA模块和三个解耦策略的有效性。非本方案得到的目标图像是利用单个风格图像获得的，对应本方案的目标图像是用多个风格图像获得的。相关技术无法基于内容文本生成猫，而采取双路交叉注意力机制可以生成猫。进一步通过丢失语义信息的方式，猫变得更加可见。通过图像块打乱的方式，本申请实施例实现了高保真的生成效果。本申请实施例引入可训练的参数λ，可以在内容保真度和风格保真度之间产生更好的平衡。

参见图7，本申请实施例提供的双路径交叉注意模块将内容文本和风格参考的信息通过λ相融合，λ是自适应参数，它控制来自内容文本的指导和来自风格图像的指导之间的权衡。当以小于1.0的因子缩小λ时，来自风格图像的指导逐渐消失，生成的目标图像变得更加自然。另一方面，当以大于1.0的因子放大λ时，生成的目标图像中的风格变得更加突出，然而图像中的狗也失去了它的自然外观。因此，本申请实施例可以根据偏好调整λ来定制生成的目标图像。

可以理解的是，在本申请实施例中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的图像生成装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的图像生成装置455中的软件模块可以包括：获取模块4551，用于获取内容文本，并获取具有目标风格的风格图像；编码模块4552，用于对所述内容文本进行文本编码处理，得到内容文本的内容文本编码，并从所述风格图像中提取风格编码；逆扩散模块4553，用于基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到目标图像；其中，所述目标图像与所述内容文本的内容匹配，且所述目标图像具有所述目标风格。

在上述方案中，所述获取模块，还用于：获取具有所述目标风格的至少一个原始风格图像；针对每个所述原始风格图像执行以下处理：对所述原始风格图像进行块分割处理，得到所述原始风格图像的多个图像块；对所述原始风格图像的多个图像块进行打乱拼接处理，得到具有所述目标风格的风格图像。

在上述方案中，所述编码模块，还用于：针对每个所述风格图像执行以下处理：对所述风格图像进行图像编码处理，得到所述风格图像的图像编码；对所述风格图像的图像编码进行基于注意力机制的编码处理，得到所述风格图像的注意力图像编码；当所述风格图像的数目为多个时，将多个所述风格图像的注意力图像编码进行拼接处理，得到第一拼接结果，并对所述第一拼接结果进行风格嵌入处理，得到所述风格编码；当所述风格图像的数目为一个时，对所述风格图像的注意力图像编码进行风格嵌入处理，得到所述风格编码。

在上述方案中，所述文本编码处理以及所述图像编码处理是通过调用文本图像对比模型实现的，所述编码模块，还用于：获取多个第一文本样本以及与每个所述第一文本样本匹配的第一图像样本；通过所述文本图像对比模型的视觉模型对每个所述第一图像样本进行图像编码处理，得到每个所述第一图像样本的图像编码；通过所述文本图像对比模型的文本模型对每个所述第一文本样本进行文本编码处理，得到每个所述第一文本样本的文本编码；基于每个所述第一文本样本的文本编码、每个所述第一图像样本的图像编码、以及每个所述第一文本样本与每个所述第一图像样本之间的匹配关系，确定文本图像对比损失；基于所述文本图像对比损失更新所述文本图像对比模型的参数。

在上述方案中，所述编码模块，还用于：针对每个所述风格图像执行以下处理：获取表征所述风格图像的语义类型的语义编码；获取所述风格图像的多个图像块；对每个所述图形块进行视觉嵌入编码处理，得到每个所述图像块的视觉嵌入编码，并对每个所述图像块进行位置嵌入编码处理，得到每个所述图像块的位置嵌入编码；将所述语义编码与多个所述图像块的视觉嵌入编码进行拼接处理，得到第二拼接结果；将所述第二拼接结果与每个所述图像块的位置嵌入编码进行对应所述图像块的叠加处理，得到所述风格图像的图像编码。

在上述方案中，在对所述风格图像的图像编码进行基于注意力机制的编码处理，得到所述风格图像的注意力图像编码之前，所述编码模块，还用于：针对每个所述风格图像执行以下处理：将表征所述风格图像的语义类型的语义编码从所述风格图像的图像编码中移除，并将移除结果更新为所述风格图像的图像编码。

在上述方案中，所述逆扩散模块，还用于：通过N个级联的逆扩散网络中第n逆扩散网络，对所述第n逆扩散网络的输入进行基于所述双路交叉注意力机制的逆扩散处理，并将所述第n逆扩散网络输出的第n逆扩散结果传输到第n+1逆扩散网络以继续进行基于所述双路交叉注意力机制的逆扩散处理，得到对应所述第n+1逆扩散网络的第n+1逆扩散结果；基于对应第N逆扩散网络的第N逆扩散结果生成所述目标图像；其中，n为取值从1开始递增的整数变量，n的取值范围为1≤n<N，当n取值为1时，所述第n逆扩散网络的输入为所述噪声图像、所述内容文本编码以及所述风格编码，当n取值为2≤n<N时，所述第n逆扩散网络的输入为第n-1逆扩散网络输出的第n-1逆扩散结果、所述内容文本编码以及所述风格编码。

在上述方案中，所述第n逆扩散网络包括级联的M个采样网络，M的取值满足2≤M；所述逆扩散模块，还用于：通过M个级联的采样网络中的第m采样网络，对所述第m采样网络的输入进行采样处理，得到对应所述第m采样网络的采样结果，将对应所述第m采样网络的采样结果传输到第m+1采样网络以继续进行采样处理，得到对应所述第m+1采样网络的第m+1采样结果；将所述第M采样网络输出的采样结果作为所述第n逆扩散结果；其中，m为取值从1开始递增的整数变量，m的取值范围为1≤m≤M-1，当m取值为1时，所述第m采样网络的输入为所述第n逆扩散网络的输入，当m取值为2≤m<M时，所述第m采样网络的输入为第m-1采样网络输出的第m-1采样结果、所述内容文本编码以及所述风格编码。

在上述方案中，所述逆扩散模块，还用于：对所述第m采样网络的第m采样结果进行自注意力处理，得到所述第m+1采样网络的自注意力处理结果；对所述第m+1采样网络的自注意力处理结果以及所述内容文本编码进行交叉注意力处理，得到所述第m+1采样网络的文本交叉注意力处理结果；对所述第m+1采样网络的自注意力处理结果以及所述风格编码进行交叉注意力处理，得到所述第m+1采样网络的风格交叉注意力处理结果；对所述第m+1采样网络的风格交叉注意力处理结果与所述第m+1采样网络的文本交叉注意力处理结果进行融合处理，得到对应所述第m+1采样网络的第m+1采样结果。

在上述方案中，所述逆扩散模块，还用于：对所述第m+1采样网络的自注意力处理结果进行基于第一查询参数的映射处理，得到第一查询矩阵；对所述内容文本编码进行基于第一键参数的映射处理，得到第一键矩阵；对所述内容文本编码进行基于第一值参数的映射处理，得到第一值矩阵；对所述第一查询矩阵、所述第一键矩阵以及所述第一值矩阵进行注意力计算，得到所述第m+1采样网络的文本交叉注意力处理结果。

在上述方案中，所述逆扩散模块，还用于：对所述第m+1采样网络的自注意力处理结果进行基于第二查询参数的映射处理，得到第二查询矩阵；对所述风格编码进行基于第二键参数的映射处理，得到第二键矩阵；对所述风格编码进行基于第二值参数的映射处理，得到第二值矩阵；对所述第二查询矩阵、所述第二键矩阵以及所述第二值矩阵进行注意力计算，得到所述第m+1采样网络的风格交叉注意力处理结果。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或者计算机可执行指令，该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的图像生成方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将被处理器执行本申请实施例提供的图像生成方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例获取内容文本，并获取具有目标风格的风格图像，对内容文本进行文本编码处理，得到内容文本的内容文本编码，并对风格图像进行风格编码处理，得到风格编码，通过双路交叉注意力机制将内容文本编码以及风格编码融入到对噪声图像进行逆扩散处理的过程中，从而可以一次性得到兼具与内容文本匹配以及目标风格的目标图像，提高图像生成效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的图像生成方法，其特征在于，所述方法包括：

获取内容文本，并获取具有目标风格的风格图像；

对所述内容文本进行文本编码处理，得到所述内容文本的内容文本编码，并从所述风格图像中提取风格编码；

2.根据权利要求1所述的方法，其特征在于，所述获取具有目标风格的风格图像，包括：

获取具有所述目标风格的至少一个原始风格图像；

针对每个所述原始风格图像执行以下处理：

对所述原始风格图像进行块分割处理，得到所述原始风格图像的多个图像块；

对所述原始风格图像的多个图像块进行打乱拼接处理，得到具有所述目标风格的风格图像。

3.根据权利要求1所述的方法，其特征在于，所述从所述风格图像中提取风格编码，包括：

针对每个所述风格图像执行以下处理：

对所述风格图像进行图像编码处理，得到所述风格图像的图像编码；

对所述风格图像的图像编码进行基于注意力机制的编码处理，得到所述风格图像的注意力图像编码；

当所述风格图像的数目为多个时，将多个所述风格图像的注意力图像编码进行拼接处理，得到第一拼接结果，并对所述第一拼接结果进行风格嵌入处理，得到所述风格编码；

当所述风格图像的数目为一个时，对所述风格图像的注意力图像编码进行风格嵌入处理，得到所述风格编码。

4.根据权利要求3所述的方法，其特征在于，所述文本编码处理以及所述图像编码处理是通过调用文本图像对比模型实现的，所述方法还包括：

获取多个第一文本样本以及与每个所述第一文本样本匹配的第一图像样本；

通过所述文本图像对比模型的视觉模型对每个所述第一图像样本进行图像编码处理，得到每个所述第一图像样本的图像编码；

通过所述文本图像对比模型的文本模型对每个所述第一文本样本进行文本编码处理，得到每个所述第一文本样本的文本编码；

基于每个所述第一文本样本的文本编码、每个所述第一图像样本的图像编码、以及每个所述第一文本样本与每个所述第一图像样本之间的匹配关系，确定文本图像对比损失；

基于所述文本图像对比损失更新所述文本图像对比模型的参数。

5.根据权利要求3所述的方法，其特征在于，所述对所述风格图像进行图像编码处理，得到所述风格图像的图像编码，包括：

针对每个所述风格图像执行以下处理：

获取表征所述风格图像的语义类型的语义编码；

获取所述风格图像的多个图像块；

对每个所述图形块进行视觉嵌入编码处理，得到每个所述图像块的视觉嵌入编码，并对每个所述图像块进行位置嵌入编码处理，得到每个所述图像块的位置嵌入编码；

将所述语义编码与多个所述图像块的视觉嵌入编码进行拼接处理，得到第二拼接结果；

将所述第二拼接结果与每个所述图像块的位置嵌入编码进行对应所述图像块的叠加处理，得到所述风格图像的图像编码。

6.根据权利要求5所述的方法，其特征在于，在对所述风格图像的图像编码进行基于注意力机制的编码处理，得到所述风格图像的注意力图像编码之前，所述方法还包括：

针对每个所述风格图像执行以下处理：

将表征所述风格图像的语义类型的语义编码从所述风格图像的图像编码中移除，并将移除结果更新为所述风格图像的图像编码。

7.根据权利要求1所述的方法，其特征在于，所述基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制，对噪声图像进行逆扩散处理，得到目标图像，包括：

通过N个级联的逆扩散网络中第n逆扩散网络，对所述第n逆扩散网络的输入进行基于所述双路交叉注意力机制的逆扩散处理，并将所述第n逆扩散网络输出的第n逆扩散结果传输到第n+1逆扩散网络以继续进行基于所述双路交叉注意力机制的逆扩散处理，得到对应所述第n+1逆扩散网络的第n+1逆扩散结果；

基于对应第N逆扩散网络的第N逆扩散结果生成所述目标图像；

其中，n为取值从1开始递增的整数变量，n的取值范围为1≤n<N，当n取值为1时，所述第n逆扩散网络的输入为所述噪声图像、所述内容文本编码以及所述风格编码，当n取值为2≤n<N时，所述第n逆扩散网络的输入为第n-1逆扩散网络输出的第n-1逆扩散结果、所述内容文本编码以及所述风格编码。

8.根据权利要求7所述的方法，其特征在于，所述第n逆扩散网络包括级联的M个采样网络，M的取值满足2≤M；

所述通过N个级联的逆扩散网络中第n逆扩散网络，对所述第n逆扩散网络的输入进行基于所述双路交叉注意力机制的逆扩散处理，包括：

通过M个级联的采样网络中的第m采样网络，对所述第m采样网络的输入进行采样处理，得到对应所述第m采样网络的采样结果，将对应所述第m采样网络的采样结果传输到第m+1采样网络以继续进行采样处理，得到对应所述第m+1采样网络的第m+1采样结果；

将所述第M采样网络输出的采样结果作为所述第n逆扩散结果；

其中，m为取值从1开始递增的整数变量，m的取值范围为1≤m≤M-1，当m取值为1时，所述第m采样网络的输入为所述第n逆扩散网络的输入、所述内容文本编码以及所述风格编码，当m取值为2≤m<M时，所述第m采样网络的输入为第m-1采样网络输出的第m-1采样结果、所述内容文本编码以及所述风格编码。

9.根据权利要求8所述的方法，其特征在于，所述将对应所述第m采样网络的采样结果传输到第m+1采样网络以继续进行采样处理，得到对应所述第m+1采样网络的第m+1采样结果，包括：

对所述第m采样网络的第m采样结果进行自注意力处理，得到所述第m+1采样网络的自注意力处理结果；

对所述第m+1采样网络的自注意力处理结果以及所述内容文本编码进行交叉注意力处理，得到所述第m+1采样网络的文本交叉注意力处理结果；

对所述第m+1采样网络的自注意力处理结果以及所述风格编码进行交叉注意力处理，得到所述第m+1采样网络的风格交叉注意力处理结果；

对所述第m+1采样网络的风格交叉注意力处理结果与所述第m+1采样网络的文本交叉注意力处理结果进行融合处理，得到对应所述第m+1采样网络的第m+1采样结果。

10.根据权利要求9所述的方法，其特征在于，所述对所述第m+1采样网络的自注意力处理结果以及所述内容文本编码进行交叉注意力处理，得到所述第m+1采样网络的文本交叉注意力处理结果，包括：

对所述第m+1采样网络的自注意力处理结果进行基于第一查询参数的映射处理，得到第一查询矩阵；

对所述内容文本编码进行基于第一键参数的映射处理，得到第一键矩阵；

对所述内容文本编码进行基于第一值参数的映射处理，得到第一值矩阵；

对所述第一查询矩阵、所述第一键矩阵以及所述第一值矩阵进行注意力计算，得到所述第m+1采样网络的文本交叉注意力处理结果。

11.根据权利要求9所述的方法，其特征在于，所述对所述第m+1采样网络的自注意力处理结果以及所述风格编码进行交叉注意力处理，得到所述第m+1采样网络的风格交叉注意力处理结果，包括：

对所述第m+1采样网络的自注意力处理结果进行基于第二查询参数的映射处理，得到第二查询矩阵；

对所述风格编码进行基于第二键参数的映射处理，得到第二键矩阵；

对所述风格编码进行基于第二值参数的映射处理，得到第二值矩阵；

对所述第二查询矩阵、所述第二键矩阵以及所述第二值矩阵进行注意力计算，得到所述第m+1采样网络的风格交叉注意力处理结果。

12.一种基于人工智能的图像生成装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至11任一项所述的基于人工智能的图像生成方法。

14.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的基于人工智能的图像生成方法。

15.一种计算机程序产品，包括计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的基于人工智能的图像生成方法。