CN117392260B

CN117392260B - 一种图像生成方法及装置

Info

Publication number: CN117392260B
Application number: CN202311705941.0A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Jiezi Yuntu Space Technology Co ltd; Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Jiezi Yuntu Space Technology Co ltd; Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-04-16
Anticipated expiration: 2043-12-13
Also published as: CN117392260A

Abstract

本申请涉及图像生成技术领域，尤其涉及一种图像生成方法及装置。该方法包括：获取待处理图像和目标文本，将待处理图像和目标文本输入至图像文本处理模型，目标文本与待处理图像相关联；对待处理图像依序进行多次图像特征提取，得到待处理图像的多个特征图像；对待处理图像进行高级语义特征提取，获取待处理图像的图像条件特征和概念文本特征，概念文本特征表征待处理图像的文本语义特征；融合概念文本特征与目标文本的文本特征，得到文本条件特征；基于多个特征图像、图像条件特征、以及文本条件特征，生成目标图像。本申请实施例充分利用图像本身的信息训练并生成新的图像，生成图像更加真实，细节更加完整。

Description

一种图像生成方法及装置

技术领域

本申请涉及图像生成技术领域，尤其涉及一种图像生成方法及装置。

背景技术

随着AI的不断发展，AI的应用也变得越来越广泛。对于不同的应用场景，人们往往需要使用适用于相应应用场景特点的AI模型。经过不同应用场景的数据训练后的不同的AI模型可以用于执行相应应用场景的特定任务。在图像生成技术中，如基于姿态的人体或动物图像生成、基于表情的人脸图像合成和基于视角的新视角合成等，都是基于特定概念进行训练，让网络具备生成该概念图像的能力。

现有的图像生成技术，如采用dreambooth、lora网络生成图像，在生成图像的过程中并未充分利用图像本身的信息，训练生成的图像存在细节缺失、不够真实等缺陷。

发明内容

有鉴于此，本申请实施例提供了一种图像生成方法、装置、电子设备及可读存储介质，以解决现有技术中在生成图像的过程中并未充分利用图像本身的信息，训练生成的图像存在的细节缺失、不够真实的问题。

本申请实施例的第一方面，提供了一种图像生成方法，包括：

获取待处理图像和目标文本，将待处理图像和目标文本输入至图像文本处理模型，目标文本与待处理图像相关联；对待处理图像依序进行多次图像特征提取，得到待处理图像的多个特征图像；对待处理图像进行高级语义特征提取，获取待处理图像的图像条件特征和概念文本特征，概念文本特征表征待处理图像的文本语义特征；融合概念文本特征与目标文本的文本特征，得到文本条件特征；基于多个特征图像、图像条件特征、以及文本条件特征，生成目标图像。

本申请实施例的第二方面，提供了一种图像生成装置，包括：

获取模块，用于获取待处理图像和目标文本，将待处理图像和目标文本输入至图像文本处理模型，对待处理图像依序进行多次图像特征提取，得到待处理图像的多个特征图像；提取模块，用于对待处理图像进行高级语义特征提取，获取待处理图像的图像条件特征和概念文本特征，概念文本特征表征待处理图像的文本语义特征；融合模块，用于融合概念文本特征与目标文本的文本特征，得到文本条件特征；生成模块，用于基于多个特征图像、图像条件特征、以及文本条件特征，生成目标图像。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：通过提取待处理图像的高级语义信息，与目标文本融合，并对待处理图像进行多次特征图像提取，用于图像文本处理。将提取得到的多次特征图像和高级语义等信息与不同的层次上与去噪网络进行适配结合，充分地利用了图像本身的信息生成新的图像，生成图像的细节会更加完整和真实，从而提高图像文本处理模型生成图像的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景示意图；

图2是本申请实施例提供的一种图像生成方法的流程示意图；

图3是本申请实施例提供的一种图像文本处理模型的处理方法流程示意图；

图4是本申请实施例中图像训练网络U-Net的第一计算单元的计算方法流程示意图；

图5是本申请实施例中残差卷积网络ResNet50对待处理图像进行特征提取的方法流程示意图；

图6是本申请实施例中文本编码器text-encoder对概念文本特征与目标文本的文本特征融合得到文本条件特征的方法流程示意图；

图7是本申请实施例中基于多个特征图像、图像条件特征、以及文本条件特征，生成目标图像的方法流程示意图；

图8是本申请实施例中通过潜在高斯分布噪声特征，对多个特征图像、图像条件特征、以及文本条件特征进行去噪处理，得到预测图像特征矩阵的方法流程示意图；

图9是本申请实施例中通过下采样计算模块对潜在高斯分布噪声特征、多个特征图像、图像条件特征、以及文本条件特征进行下采样处理，得到下采样图像矩阵的方法流程示意图；

图10是本申请实施例中通过上采样计算模块对下采样图像矩阵、多个特征图像、图像条件特征、以及文本条件特征进行上采样处理，得到预测图像特征矩阵的方法流程示意图；

图11是本申请实施例提供的一种图像生成装置的结构示意图；

图12是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面将结合附图详细说明根据本申请实施例的一种图像生成方法和装置。

图1是本申请实施例的应用场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上所述的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本申请实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。具体地，本发明的技术方案中，服务器4可以获取终端设备1、2或3采集到的待处理图像和目标文本，并根据获取到的待处理图像和目标文本生成新的图像。

在用户将收集到的兴趣点的数据导入到服务器4之后，服务器4获取待处理兴趣点的第一数据，该第一数据包括待处理兴趣点的第一经纬度和第一分类，并根据第一经纬度和第一分类，对待处理兴趣点进行冲突校验；进一步地，在确定冲突的情况下，服务器4对待处理兴趣点进行冲突处理，以避免数据库中存在大量的重复数据和不可用数据。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

图2为本申请实施例提供的一种图像生成方法的流程示意图。如图1所示，该方法包括：

步骤S201，获取待处理图像和目标文本，将待处理图像和目标文本输入至图像文本处理模型，目标文本与待处理图像相关联。

步骤S202，对待处理图像依序进行多次图像特征提取，得到待处理图像的多个特征图像。

步骤S203，对待处理图像进行高级语义特征提取，获取待处理图像的图像条件特征和概念文本特征，概念文本特征表征待处理图像的文本语义特征。

步骤S204，融合概念文本特征与目标文本的文本特征，得到文本条件特征。

步骤S205，基于多个特征图像、图像条件特征、以及文本条件特征，生成目标图像。

该方法可以通过提取待处理图像的高级语义信息，与目标文本融合，并对待处理图像进行多次特征图像提取，用于图像文本处理。将提取得到的多次特征图像和高级语义等信息与不同的层次上与去噪网络进行适配结合，充分地利用了图像本身的信息生成新的图像，生成图像的细节会更加完整和真实，从而提高图像文本处理模型生成图像的准确度。

具体地，本申请实施例构建了一种图像文本处理模型，用于训练特定概念图像，并根据输入的图像条件特征和文本条件特征生成新的特定概念图像。通过获取待处理图像和目标文本信息，经过图像文本处理模型的处理生成与目标文本相匹配的新图像。在用户使用过程中，向图像文本处理模型中输入一幅图像和一段特定概念文本，通过图像文本处理模型的处理生成一幅基于输入图像的特定概念图像。例如，用户向图像处理模型中输入一幅拉布拉多狗的图片，并输入“狗在草地上奔跑”的概念文本，通过图像文本模型的处理得到了一幅“拉布拉多在草地上奔跑”的图片。

该图像文本处理模型包括残差卷积网络ResNet50、高级语义提取网络CLIP、图像训练网络U-Net、文本编码器text-encoder、和解码器Decoder。

如图3所示，残差卷积网络ResNet50包括四个阶段（R1、R2、R3、R4），总计50层，每一层均由卷积、归一化或线性变换等操作构成。通过ResNet50的四个阶段分别提取输入图像的多个特征图像（r1、r2、r3、r4），特征图像被提取并输入到图像训练网络进行处理。r1、r2、r3、r4的维度分别为（64，64，64）、（128，32，32）、（256，16，16）、（512，8，8）。

高级语义提取网络CLIP包括用于提取图像特征的CLIP-I和用于提取文本特征的CLIP-T。CLIP通过图像高级语义提取、文本语义对齐等操作提取输入图像的图像条件特征和概念文本特征。图像条件特征的维度是（196，768），概念文本特征的维度是（768，）。概念文本特征用以表征输入图像的某一概念，如输入图像为狗的图像，则概念文本特征为狗；如输入图像为水杯，则概念文本特征为水杯。通过CLIP提取的图像条件特征被输入图像训练网络中进行处理。

文本编码器text-encoder用于将概念文本特征与输入文本进行编码，生成文本条件特征。文本条件特征的维度是（77，768）文本条件特征被输入至图像训练网络中，与特征图像、图像条件特征一起通过图像训练网络进行处理。

图像训练网络U-Net包括2个计算模块，分别是下采样计算模块和上采样计算模块，每个计算模块均包括四个结构相同计算单元。通过下采样计算模块计算得到一个计算结果，再将通过下采样计算模块计算得到的计算结果输入到上采样计算模块中计算，最终得到基于输入图像和输入文本的预测图像特征矩阵。

具体地，下采样计算模块包括第一计算单元、第二计算单元、第三计算单元和第四计算单元。上采样计算模块包括第五计算单元、第六计算单元、第七计算单元和第八计算单元。每个计算单元都包括卷积计算层、自注意力计算层、适配器计算层、交叉注意力和低秩分解计算层、以及交叉注意力计算层。

解码器用于对上述预测图像特征矩阵进行解码，得到基于输入图像和输入文本的目标图像。

本申请实施例的图像文本处理模型在训练阶段，通过输入多种参考图像和参考文本训练该模型，首先通过残差卷积网络ResNet50和高级语义提取网络CLIP分别提取参考图像在ResNet50各个阶段的特征图像，以及参考图像的图像条件特征和概念文本特征。通过文本编码器将概念文本特征与参考文本一起编码，得到文本条件特征。将特征图像、图像条件特征以及文本条件特征输入图像训练网络U-Net中训练。

在图像训练网络U-Net中训练时，需要预先向U-Net中输入潜在高斯分布噪声用于训练图像。输入的潜在高斯分布噪声首先经过第一计算单元的卷积层进行第一次下采样，计算潜在高斯分布噪声的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R1阶段提取的参考图像的特征图像r1加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的第一图像特征矩阵。

图4是本申请实施例中图像训练网络U-Net的第一计算单元的计算方法流程示意图。如图4所示，第一计算单元的计算方法包括如下步骤：

步骤S401，通过U-Net网络卷积层计算输入的潜在高斯分布噪声的局部相关性，采用如下公式。

式中z为输入的潜在高斯分布噪声，z₁为卷积特征。

步骤S402，通过U-Net网络自注意力计算层计算z₁自身的长距离依赖和长距离的信息关联，采用如下公式：

式中z₂为自注意力特征。

步骤S403，通过U-Net网络适配器计算层对多个所述特征图像进行训练，采用如下公式：

式中为参考图像的第i次采样结果，第i次采样包括上采样或下采样；z₃为适配器特征。

步骤S404，通过U-Net网络交叉注意力与低秩分解融合计算层训练图像条件特征与z₃之间的交叉注意力，采用如下公式：

式中，to_q、to_k、to_v为参考图像的特征图像、图像条件特征以及文本条件特征的映射矩阵，d为系数，本实施例中d取768，为图像条件特征矩阵，z₄为交叉低秩特征。

步骤S405，通过U-Net网络交叉注意力计算层训练文本条件特征与z₄之间的交叉注意力，采用如下公式：

式中，to_q、to_k、to_v为参考图像的特征图像、图像条件特征以及文本条件特征的映射矩阵，d为系数，本实施例中d取768，为文本条件特征矩阵，z₅为第一图像特征矩阵。

通过上述的计算单元完成了一次去噪过程，一般地，如需得到细节完整且图像真实的图像需对参考图像进行多次去噪过程的处理。

将经过第一计算单元计算后得到的第一图像特征矩阵输入至第二计算单元进行计算。根据与第一计算单元相同的计算方法，依序通过第二计算单元、第三计算单元和第四计算单元的计算，得到下采样图像矩阵。

需要说明的是，在第二计算单元中，卷积计算层对第一图像特征矩阵进行第二次下采样，计算第一图像特征矩阵的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R2阶段提取的参考图像的特征图像r2加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的第二图像特征矩阵。

在第三计算单元中，卷积计算层对第二图像特征矩阵进行第三次下采样，计算第一图像特征矩阵的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R3阶段提取的参考图像的特征图像r3加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的第三图像特征矩阵。

在第四计算单元中，卷积计算层对第三图像特征矩阵进行第四次下采样，计算第一图像特征矩阵的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R4阶段提取的参考图像的特征图像r4加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的下采样图像矩阵。

将下采样图像矩阵输入上采样计算模块，依序通过第五计算单元、第六计算单元、第七计算单元和第八计算单元的计算，得到预测图像特征矩阵。

具体地，在第五计算单元中，卷积计算层对下采样图像矩阵进行第一次上采样，计算第一图像特征矩阵的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R4阶段提取的参考图像的特征图像r4加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的第五图像特征矩阵。

在第六计算单元中，卷积计算层对下采样图像矩阵进行第二次上采样，计算第一图像特征矩阵的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R3阶段提取的参考图像的特征图像r3加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的第六图像特征矩阵。

在第七计算单元中，卷积计算层对下采样图像矩阵进行第三次上采样，计算第一图像特征矩阵的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R2阶段提取的参考图像的特征图像r2加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的第七图像特征矩阵。

在第八计算单元中，卷积计算层对下采样图像矩阵进行第四次上采样，计算第一图像特征矩阵的局部相关性，再通过自注意力计算层计算自身的长距离依赖和长距离的信息关联关系。再将残差卷积网络ResNet50中R1阶段提取的参考图像的特征图像r1加入到自注意力计算层的计算结果中，经过适配器计算层计算，将计算得到的结果输入交叉注意力和低秩分解计算层。在交叉注意力和低秩分解计算层中，输入高级语义提取网络CLIP提取的参考图像的图像条件特征，对图像条件特征和经过适配器计算层的计算结果进行交叉注意力计算，在此过程中，引入Lora矩阵进行网络参数的训练与优化。最后在交叉注意力计算层中输入文本条件特征，对文本条件特征进行训练，得到基于参考图像的预测图像特征矩阵。

通过解码器将经过U-Net网络训练得到的预测图像特征矩阵进行解码，得到训练图像。

本申请提供了一种全新的网络构架，基于该网络构架的图像文本处理模型提供了一种对特定概念文本与图像的处理技术，图像经过残差网络不同阶段的特征提取，引入到去噪网络不同层中进行处理，使用CLIP_I提取图像的高级语义信息，并引入低秩分解与去噪网络进行交叉注意力计算。充分地利用了图像本身的信息生成新的图像，生成图像的细节更加完整和真实。

本申请实施例的图像文本处理模型在使用阶段，通过获取待处理图像和目标文本，经过图像文本处理模型的处理，生成新的目标图像。用户向图像文本处理模型中输入待处理图像和目标文本，得到目标图像。图像文本处理模型处理待处理图像和目标文本的方法，与图像文本处理模型在训练阶段对参考图像和参考文本的训练方法相同，因此不再赘述。

图5是本申请实施例中残差卷积网络ResNet50对待处理图像进行特征提取的方法流程示意图。如图5所示，ResNet50对待处理图像依序进行多次图像特征提取，得到待处理图像的多个特征图像包括：

步骤S501，通过残差卷积网络对待处理图像进行第一次图像特征提取，得到第一特征图像。

步骤S502，基于残差卷积网络对第一特征图像进行第二次图像特征提取，得到第二特征图像。

步骤S503，基于残差卷积网络对第二特征图像进行第三次图像特征提取，得到第三特征图像。

步骤S504，基于残差卷积网络对第三特征图像进行第四次图像特征提取，得到第四特征图像。

ResNet50是一种表现出色的深度卷积神经网络。它的结构主要基于残差学习，通过引入短路连接的方式，解决了深度学习模型在计算机视觉领域中出现的过拟合问题。ResNet50被广泛应用于图像分类和对象检测，其预训练模型也为其他诸如图像分割等任务提供了有力的支持。本申请实施例中ResNet50包括4个阶段，共计50层。

本实施例中，ResNet50对待处理图像的特征提取分四个阶段，从第二阶段开始，每个阶段均对前次经过特征提取的图像进行再提取，并分别将四个阶段提取的特征图像输入图像训练网络U-Net中分阶段进行训练，充分利用了待处理图像各个阶段的图像特征，使得图像训练网络训练得到的图像细节更加完整，生成的图像更加真实。

图6是本申请实施例中文本编码器text-encoder对概念文本特征与目标文本的文本特征融合得到文本条件特征的方法流程示意图。如图6所示，融合概念文本特征与目标文本的文本特征，得到文本条件特征包括：

步骤S601，通过文本编码器对目标文本进行特征提取，得到目标文本的文本特征。

步骤S602，通过文本编码器对概念文本特征与目标文本的文本特征进行融合处理，得到文本条件特征。

本实施例中，文本编码器具有文本特征提取功能，通过对输入文本进行特征提取，得到文本特征。通常用户输入的目标文本计算机并不能识别，因此需通过文本编码器将目标文本转换为计算机可识别的文本向量（文本特征）。概念文本特征是通过高级语义提取网络CLIP文本特征提取部分提取的，概念文本特征用于表征待处理图像的主要特征，如前文所述的狗或水杯，概念文本特征可以表征主要特征的具体类型，如狗的种类或水杯的种类。将具有具体的概念特征的文本向量与用户输入的目标文本向量结合，一起通过文本编码器的再编码，形成一个新的文本向量，即包含了目标文本信息与待处理图像特征信息的文本条件特征。该文本条件特征本用于训练得到目标图像。

如图7所示，基于多个特征图像、图像条件特征、以及文本条件特征，生成目标图像包括：

步骤S701，获取潜在高斯分布噪声特征。

步骤S702，通过潜在高斯分布噪声特征，对多个特征图像、图像条件特征、以及文本条件特征进行去噪处理，得到预测图像特征矩阵。

步骤S703，通过解码器对预测图像特征矩阵进行解码处理，得到目标图像。

本实施例中，潜在高斯噪声特征用于训练预测图像特征矩阵，高斯噪声是深度学习中广泛使用的技术，在图像分类训练时可以在图像中加入高斯噪声，提高图像分类模型的泛化能力和鲁棒性，称为数据扩充。通过向输入数据添加噪声，模型被迫学习对输入中的微小变化具有鲁棒性的特征，可以帮助它在新的、看不见的数据上表现更好，以提高神经网络的性能。

如图8所示，通过潜在高斯分布噪声特征，对多个特征图像、图像条件特征、以及文本条件特征进行去噪处理，得到预测图像特征矩阵包括：

步骤S801，将潜在高斯分布噪声特征与多个特征图像、图像条件特征、以及文本条件特征输入U-Net网络，其中，U-Net网络包括下采样计算模块和上采样计算模块。

步骤S802，通过下采样计算模块对潜在高斯分布噪声特征、多个特征图像、图像条件特征、以及文本条件特征进行下采样处理，得到下采样图像矩阵。

步骤S803，通过上采样计算模块对下采样图像矩阵、多个特征图像、图像条件特征、以及文本条件特征进行上采样处理，得到预测图像特征矩阵。

本实施例中，U-Net网络的特征提取部分是一个收缩网络，通过四个下采样，使图片尺寸减小，在这不断下采样的过程中，特征提取到的是图像的浅层信息。上采样部分，也叫扩张网络，通过四个上采样，使图片尺寸变大，提取的是图像的深层信息。本申请实施例充分利用了待处理图像的深层信息及浅层信息训练生成目标图像，生成的目标图像的细节完整，图像更加真实。

图像训练网络U-Net包括2个计算模块，分别是下采样计算模块和上采样计算模块，每个计算模块均包括四个结构相同计算单元。每个计算单元都包括卷积计算层、自注意力计算层、适配器计算层、交叉注意力和低秩分解计算层、以及交叉注意力计算层。

通过一个计算单元的计算完成了一步去噪过程，一般地，如需得到细节完整且图像真实的图像需对参考图像进行多次去噪处理，在一个示例中，需要经过1000步的去噪过程。最后将U-Net网络预测出来的潜在向量（即预测图像特征矩阵）进行解码，生成目标图像。

如图9所示，通过下采样计算模块对潜在高斯分布噪声特征、多个特征图像、图像条件特征、以及文本条件特征进行下采样处理，得到下采样图像矩阵的方法包括：

步骤S901，通过第一计算单元对潜在高斯分布噪声特征、第一特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到第一图像特征矩阵。

步骤S902，通过第二计算单元对第一图像特征矩阵、第二特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到第二图像特征矩阵。

步骤S903，通过第三计算单元对第二图像特征矩阵、第三特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到第三图像特征矩阵。

步骤S904，通过第四计算单元对第三图像特征矩阵、第四特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到下采样图像矩阵。

本方法将提取得到的多次特征图像和高级语义等信息与不同的层次上与去噪网络进行适配结合，处理过程中充分地利用了图像本身的信息，能够提高图像文本处理模型生成图像的准确度。

如图10所示，上采样计算模块对下采样图像矩阵、多个特征图像、图像条件特征、以及文本条件特征进行上采样处理，得到预测图像特征矩阵的方法包括：

步骤1001，通过第五计算单元对下采样图像矩阵、第四特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到第五图像特征矩阵；

步骤1002，通过第六计算单元对第五图像特征矩阵、第三特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到第六图像特征矩阵；

步骤1003，通过第七计算单元对第六图像特征矩阵、第二特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到第七图像特征矩阵；

步骤1004，通过第八计算单元对第七图像特征矩阵、第一特征图像、图像条件特征、以及文本条件特征进行降噪处理，得到预测图像特征矩阵。

本方法将提取得到的多次特征图像和高级语义等信息与不同的层次上与去噪网络进行适配结合，充分地利用了图像本身的信息生成新的图像，生成图像的细节会更加完整和真实，从而提高了图像文本处理模型生成图像的准确度。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图11是本申请实施例提供的一种图像生成装置的结构示意图。如图11所示，图像生成装置1100包括：

获取模块1101，用于获取待处理图像和目标文本，将待处理图像和目标文本输入至图像文本处理模型，对待处理图像依序进行多次图像特征提取，得到待处理图像的多个特征图像；

提取模块1102，用于对待处理图像进行高级语义特征提取，获取待处理图像的图像条件特征和概念文本特征，概念文本特征表征待处理图像的文本语义特征；

融合模块1103，用于融合概念文本特征与目标文本的文本特征，得到文本条件特征；

生成模块1104，用于基于多个特征图像、图像条件特征、以及文本条件特征，生成目标图像。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图12是本申请实施例提供的电子设备的示意图。如图12所示，该实施例的电子设备12包括：处理器1201、存储器1202以及存储在该存储器1202中并且可在处理器1201上运行的计算机程序1203。处理器1201执行计算机程序1203时实现上述各个方法实施例中的步骤。或者，处理器1201执行计算机程序1203时实现上述各装置实施例中各模块/单元的功能。

电子设备12可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备12可以包括但不仅限于处理器1201和存储器1202。本领域技术人员可以理解，图12仅仅是电子设备12的示例，并不构成对电子设备12的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器1201可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器1202可以是电子设备12的内部存储单元，例如，电子设备12的硬盘或内存。存储器1202也可以是电子设备12的外部存储设备，例如，电子设备12上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（FlashCard）等。存储器1202还可以既包括电子设备12的内部存储单元也包括外部存储设备。存储器1202用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质（例如计算机可读存储介质）中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，包括：

获取待处理图像和目标文本，将所述待处理图像和所述目标文本输入至图像文本处理模型，所述目标文本与所述待处理图像相关联；

对所述待处理图像依序进行多次图像特征提取，得到所述待处理图像的多个特征图像；其中，所述对所述待处理图像依序进行多次图像特征提取步骤包括：通过残差卷积网络对所述待处理图像进行第一次图像特征提取，得到第一特征图像；基于所述残差卷积网络对所述第一特征图像进行第二次图像特征提取，得到第二特征图像；基于所述残差卷积网络对所述第二特征图像进行第三次图像特征提取，得到第三特征图像；基于所述残差卷积网络对所述第三特征图像进行第四次图像特征提取，得到第四特征图像；

通过CLIP模型对所述待处理图像进行高级语义特征提取，获取所述待处理图像的图像条件特征和概念文本特征，所述概念文本特征表征所述待处理图像的文本语义特征；

融合所述概念文本特征与所述目标文本的文本特征，得到文本条件特征；

基于所述第一特征图像、所述第二特征图像、所述第三特征图像、所述第四特征图像、所述图像条件特征、以及所述文本条件特征，生成目标图像。

2.根据权利要求1所述的图像生成方法，其特征在于，所述融合所述概念文本特征与所述目标文本的文本特征，得到文本条件特征包括：

通过文本编码器对所述目标文本进行特征提取，得到所述目标文本的文本特征；

通过所述文本编码器对所述概念文本特征与所述目标文本的文本特征进行融合处理，得到所述文本条件特征。

3.根据权利要求1所述的图像生成方法，其特征在于，所述基于所述多个特征图像、所述图像条件特征、以及所述文本条件特征，生成目标图像包括：

获取潜在高斯分布噪声特征；

通过所述潜在高斯分布噪声特征，对所述多个特征图像、所述图像条件特征、以及所述文本条件特征进行去噪处理，得到预测图像特征矩阵；

通过解码器对所述预测图像特征矩阵进行解码处理，得到所述目标图像。

4.根据权利要求3所述的图像生成方法，其特征在于，所述通过所述潜在高斯分布噪声特征，对所述多个特征图像、所述图像条件特征、以及所述文本条件特征进行去噪处理，得到预测图像特征矩阵包括：

将所述潜在高斯分布噪声特征与所述多个特征图像、所述图像条件特征、以及所述文本条件特征输入U-Net网络，其中，所述U-Net网络包括下采样计算模块和上采样计算模块；

通过下采样计算模块对所述潜在高斯分布噪声特征、所述多个特征图像、所述图像条件特征、以及所述文本条件特征进行下采样处理，得到下采样图像矩阵；

通过上采样计算模块对所述下采样图像矩阵、所述多个特征图像、所述图像条件特征、以及所述文本条件特征进行上采样处理，得到所述预测图像特征矩阵；

其中，所述下采样计算模块和上采样计算模块均包括四个计算单元，所述计算单元的结构均相同，所述计算单元包括：卷积计算层、自注意力计算层、适配器计算层、交叉注意力和低秩分解计算层、以及交叉注意力计算层。

5.根据权利要求4所述的图像生成方法，其特征在于，所述通过下采样计算模块对所述潜在高斯分布噪声特征、所述多个特征图像、所述图像条件特征、以及所述文本条件特征进行下采样处理，得到下采样图像矩阵包括：

通过第一计算单元对所述潜在高斯分布噪声特征、所述第一特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到第一图像特征矩阵；

通过第二计算单元对所述第一图像特征矩阵、所述第二特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到第二图像特征矩阵；

通过第三计算单元对所述第二图像特征矩阵、所述第三特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到第三图像特征矩阵；

通过第四计算单元对所述第三图像特征矩阵、所述第四特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到所述下采样图像矩阵。

6.根据权利要求4所述的图像生成方法，其特征在于，所述通过上采样计算模块对所述下采样图像矩阵、所述多个特征图像、所述图像条件特征、以及所述文本条件特征进行上采样处理，得到所述预测图像特征矩阵包括：

通过第五计算单元对所述下采样图像矩阵、所述第四特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到第五图像特征矩阵；

通过第六计算单元对所述第五图像特征矩阵、所述第三特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到第六图像特征矩阵；

通过第七计算单元对所述第六图像特征矩阵、所述第二特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到第七图像特征矩阵；

通过第八计算单元对所述第七图像特征矩阵、所述第一特征图像、所述图像条件特征、以及所述文本条件特征进行降噪处理，得到所述预测图像特征矩阵。

7.一种图像生成装置，其特征在于，包括：

获取模块，用于获取待处理图像和目标文本，将所述待处理图像和所述目标文本输入至图像文本处理模型，对所述待处理图像依序进行多次图像特征提取，得到所述待处理图像的多个特征图像；其中，所述对所述待处理图像依序进行多次图像特征提取步骤包括：通过残差卷积网络对所述待处理图像进行第一次图像特征提取，得到第一特征图像；基于所述残差卷积网络对所述第一特征图像进行第二次图像特征提取，得到第二特征图像；基于所述残差卷积网络对所述第二特征图像进行第三次图像特征提取，得到第三特征图像；基于所述残差卷积网络对所述第三特征图像进行第四次图像特征提取，得到第四特征图像；

提取模块，用于通过CLIP模型对所述待处理图像进行高级语义特征提取，获取所述待处理图像的图像条件特征和概念文本特征，所述概念文本特征表征所述待处理图像的文本语义特征；

融合模块，用于融合所述概念文本特征与所述目标文本的文本特征，得到文本条件特征；

生成模块，用于基于所述第一特征图像、所述第二特征图像、所述第三特征图像、所述第四特征图像、所述图像条件特征、以及所述文本条件特征，生成目标图像。

8.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述方法的步骤。

9.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。