CN118015144A

CN118015144A - 图像生成方法和图像生成模型的训练方法、装置

Info

Publication number: CN118015144A
Application number: CN202410309735.6A
Authority: CN
Inventors: 张琦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-05-10

Abstract

本公开提供了一种图像生成方法和图像生成模型的训练方法、装置，涉及人工智能领域，具体涉及深度学习、图像处理、自然语言处理和计算机视觉领域，可以应用于人工智能生成内容等场景。图像生成方法的具体实现方案为：提取参考图像的特征，得到参考图像特征；参考图像包括第一目标对象；提取提示文本的特征，得到文本特征；以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，以生成目标图像；目标图像包括与第一目标对象相似的第二目标对象，且目标图像与提示文本相匹配；其中，在至少一次更新过程中：将参考图像特征和文本特征分别与当前噪声图像融合，得到融合特征；以及基于融合特征，更新当前噪声图像。

Description

图像生成方法和图像生成模型的训练方法、装置

技术领域

本公开涉及人工智能领域，具体涉及深度学习、图像处理、自然语言处理和计算机视觉领域，可以应用于人工智能生成内容等场景。

背景技术

随着计算机技术和网络技术的发展，深度学习模型的应用越来越广泛，且深度学习模型在各个领域也都取得了突破性的进展。其中，人工智能生成内容(AI generatedcontent，AIGC)为深度学习的一个重要方向，需要重点关注的点包括：如何使得生成的内容更为符合用户需求。

发明内容

本公开旨在提供一种利于提高生成图像的真实性且利于提高用户体验的图像生成方法和图像生成模型的训练方法、装置、设备、介质和程序产品。

根据本公开的第一个方面，提供了一种图像生成方法，包括：提取参考图像的特征，得到参考图像特征；参考图像包括第一目标对象；提取提示文本的特征，得到文本特征；以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，以生成目标图像；目标图像包括与第一目标对象相似的第二目标对象，且目标图像与提示文本相匹配；其中，依据文本特征和参考图像特征迭代地更新噪声图像，包括在至少一次更新过程中：将参考图像特征和文本特征分别与当前噪声图像融合，得到融合特征；以及基于融合特征，更新当前噪声图像，其中，目标图像是通过解码最终的噪声图像获得的。

根据本公开的第二个方面，提供了一种图像生成模型的训练方法，其中，图像生成模型包括特征提取网络和文生图模型；文生图模型包括文本理解网络、图像信息创建网络和图像解码网络；方法包括：采用特征提取网络提取参考图像的特征，得到参考图像特征；参考图像包括第一目标对象；采用文本理解网络提取第一样本数据中样本文本的特征，得到文本特征；采用图像信息创建网络，以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，得到更新后噪声图像；采用图像解码网络对更新后噪声图像进行解码，得到目标图像，目标图像包括与第一目标对象相似的第二目标对象，且目标图像与样本文本相匹配；以及根据目标图像和第一样本数据中的第一样本图像，对文生图模型进行训练。

根据本公开的第三个方面，提供了一种图像生成装置，包括：图像特征提取模块，用于提取参考图像的特征，得到参考图像特征；参考图像包括第一目标对象；文本特征提取模块，用于提取提示文本的特征，得到文本特征；噪声图像更新模块，用于以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，以生成目标图像；目标图像包括与第一目标对象相似的第二目标对象，且目标图像与提示文本相匹配；其中，噪声图像更新模块包括：融合子模块，用于在至少一次更新过程中，将参考图像特征和文本特征分别与当前噪声图像融合，得到融合特征；以及更新子模块，用于基于融合特征，更新当前噪声图像，其中，目标图像是通过解码最终的噪声图像获得的。

根据本公开的第四个方面，提供了一种图像生成模型的训练装置，其中，图像生成模型包括特征提取网络和文生图模型；文生图模型包括文本理解网络、图像信息创建网络和图像解码网络；装置包括：图像特征提取模块，用于采用特征提取网络提取参考图像的特征，得到参考图像特征；参考图像包括第一目标对象；文本特征提取模块，用于采用文本理解网络提取第一样本数据中样本文本的特征，得到文本特征；噪声图像更新模块，用于采用图像信息创建网络，以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，得到更新后噪声图像；解码模块，用于采用图像解码网络对更新后噪声图像进行解码，得到目标图像，目标图像包括与第一目标对象相似的第二目标对象，且目标图像与样本文本相匹配；以及第一训练模块，用于根据目标图像和第一样本数据中的第一样本图像，对文生图模型进行训练。

根据本公开的第五个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的图像生成方法或图像生成模型的训练方法。

根据本公开的第六个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的图像生成方法或图像生成模型的训练方法。

根据本公开的第七个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现本公开提供的图像生成方法或图像生成模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的图像生成方法和图像生成模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的图像生成方法的流程示意图；

图3是根据本公开实施例的图像生成方法的原理示意图；

图4是根据本公开第一实施例的融合特征的原理示意图；

图5是根据本公开第二实施例的融合特征的原理示意图；

图6是根据本公开实施例的图像生成模型的训练方法的流程示意图；

图7是根据本公开实施例的图像生成装置的结构框图；

图8是根据本公开实施例的图像生成模型的训练装置的结构框图；以及

图9是用来实施本公开实施例的图像生成方法或图像生成模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在AIGC大方向下，根据文本生成图像(text2img，简称文生图)、根据图像生成图像(img2img)、根据图像生成视频(img2video)和根据文本生成视频(text2video)的技术越来越火。由此提出了更多的需求，例如生成与参考图像的画面构图、色彩相似的图像的需求。但在文生图场景中，通常无法兼顾该需求及同时保持文生图网络原本的语义理解能力的需求。

为了解决上述问题，本公开提供了一种图像生成方法和图像生成模型的训练方法、装置、设备、介质和程序产品，以期在保持语义理解能力的同时，基于参考图像生成目标图像，使得目标图像中的对象与参考图像中的对象相似。以下先结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的图像生成方法和图像生成模型的训练方法、装置的应用场景示意图。

如图1所示，该应用场景100中可以包括电子设备110。电子设备110可以为智能手机、平板电脑、便携式计算机、台式计算机或服务器等任意具有处理能力的电子设备。

在一实施例中，电子设备110可以根据用户提供的提示文本101和参考图像102，来生成目标图像103。该目标图像103例如可以在画面构图、色彩上与参考图像102类似，且该目标图像103与提示文本101相匹配。具体地，目标图像103中的目标对象可以与参考图像102中的目标对象相似。目标对象例如可以为人、猫、狗等任意对象，本公开对此不做限定。

示例性地，提示文本101可以为“一个男孩，穿白T恤”，参考图像102可以为男孩a穿棕色风衣的图像，生成的目标图像103中，例如可以包括穿T恤、且外貌与男孩a相似的男孩。

在一实施例中，电子设备110可以安装有各种客户端应用，例如图像处理类应用、即时通信类应用、网页浏览类应用、智能生成类应用等。电子设备110可以采用安装的智能生成类应用来对用户提供的提示文本101和参考图像102进行处理，从而生成目标图像103。

在一实施例中，电子设备110可以采用预先生成的图像生成模型104来对提示文本101和参考图像102进行处理，从而生成目标图像103。此处的图像生成模型104可以设置有提取参考图像102的图像特征的特征提取网络，还可以设置有改进的文生图模型，以基于特征提取网络提取的特征和提示文本101生成目标图像103。

在一实施例中，该应用场景100还可以包括服务器120。该服务器120例如可以基于公开数据集中的数据训练图像生成模型104，并直接或间接地将图像生成模型104发送给电子设备110。例如，服务器120可以是为电子设备11 0中安装的智能生成类应用的运行提供支持的后台管理服务器，也可以为与后台管理服务器通信连接的任意服务器，本公开对此不做限定。

需要说明的是，本公开提供的图像生成方法可以由电子设备110执行。相应地，本公开提供的图像生成装置可以设置在电子设备110中。本公开提供的图像生成模型的训练方法可以由服务器120执行。相应地，本公开提供的图像生成模型的训练装置可以设置在服务器120中。

应该理解，图1中的电子设备110和服务器120的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器120。

以下将结合图2～图5对本公开提供的图像生成方法进行详细描述。

图2是根据本公开实施例的图像生成方法的流程示意图。

如图2所示，该实施例的图像生成方法200可以包括操作S210～操作S230，其中，实现操作S230的迭代更新过程中，部分的迭代更新过程可以通过操作S231～操作S232来实现。

在操作S210，提取参考图像的特征，得到参考图像特征。

例如，参考图像可以包括有第一目标对象，该第一目标对象可以为人、猫、狗等，且该参考图像可以是公开数据集中的任意图像，也可以是用户经许可后提供的图像，本公开对此不做限定。

例如，可以采用任意的特征提取网络来对参考图像进行处理，从而提取得到参考图像特征。其中，特征提取网络可以包括ResNet、基于Transformer的骨干网络、DenseNet或U-Net等。该特征提取网络例如可以包括编码器和/或解码器，本公开对此不做限定。

在操作S220，提取提示文本的特征，得到文本特征。

例如，提示文本可以为文生图技术中输入文生图模型的文本，文本内容例如可以响应于用户输入而确定。例如，提示文本可以为“一个男孩，穿白T恤”等。

例如，可以先采用分词器对提示文本进行分词，并将分词得到的每个词转换为令牌token，得到token序列。随后将token序列中的每个token转换为一个嵌入向量(例如768维的向量)。最后将转换得到的多个嵌入向量拼接为一个矩阵，从而得到文本特征。例如，还可以采用文本转换器(例如Text transformer)对拼接得到的矩阵进行处理，将处理结果作为文本特征。

例如，可以采用文生图模型中包括的文本理解网络来提取文本特征。该文本理解网络与相关技术中文生图模型所包括的文本理解网络类似，在此不再赘述。

在操作S230，以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，以生成目标图像。

根据本公开的实施例，该操作S230的实施过程可以理解为是文生图过程。其中，文生图过程是指给定一个提示文本，可以反馈一个与文本匹配的AI图像的过程。该操作S230可以理解为是一个逆向扩散过程，即从嘈杂、无异议的图像(随机噪声图像)开始，反向扩散进行图像恢复，以得到包括目标对象的图像。与该逆向扩散过程相对的是前向扩散进程，即为一张图像增加噪声，逐渐将图像转变为一帧无特征的噪声图像的过程。

例如，随机噪声图像可以理解为一个随机张量。可以通过根据实际需求设置随机数生成器中的种子，由随机数生成器生成随机噪声图像。例如，该随机噪声图像可以服从高斯分布。

为了逆向扩散，可以预先训练一个神经网络模型来预测添加的噪声，在稳态扩散中，该神经网络模型被称为噪声预测器。噪声预测器的训练过程如下：先选择一个训练图像(例如有一只猫的图像)；随后产生一个随机噪声图像并添加至训练图像；通过一定数量的步骤来添加噪声图像，以破坏训练图像；最后教导噪声预测器反馈添加了多少噪声。这是通过调整噪声预测器的权重并向其展示正确答案来实现的。经过训练，可以得到能够估计向图像所添加噪声的噪声预测器。

其中，稳态扩散(Stab1ediffusion)是一个潜在扩散模型(LatentDiffusionModel)，它先将图像压缩到潜在空间，潜在空间比像素空间小48倍。稳态扩散可以通过变分自编码器(Variationa1 Auto encoder，VAE)来实现。变分自编码器包括两部分，一个编码器和一个解码器。编码器将一张图像压缩为潜在空间中更低维的表示，解码器从潜在空间恢复图像。在训练过程中，稳态扩散不是产生噪声图像，而是在潜在空间中生成随机张量(潜在噪声)。添加噪声的过程不是用噪声破坏图像的过程，而是用潜在噪声破坏图像在潜在空间中的表达的过程。

在操作S230中，文本特征和参考图像特征可以作为提示信息，引导噪声预测器预测噪声。从随机噪声图像中减去预测的噪声后，经转换即可得到想要的图像(例如猫的图像或狗的图像)。

在一实施例中，操作S230的整体流程可以如下：

第一步，稳定扩散在潜在空间中产生随机张量，作为噪声图像的初始图像。

第二步，噪声预测器将潜在的噪声图像、文本特征和参考图像特征作为输入，并预测潜在空间中的噪声(一个4*64*64的张量)。

第三步，从当前噪声图像中减去潜在噪声，得到新的噪声图像。

重复第二步和第三步，以进行一定数量的采样，例如20次。该采样次数可以根据实际需求进行设定，本公开对此不做限定。

第四步，变分自编码器中的解码器将最终得到的噪声图像转换回像素空间，得到运行稳定扩散后的图像，即目标图像。

在一实施例中，在进行一定数量的采样时，即迭代地更新噪声图像的过程中，可以在其中的部分或全部的迭代过程中引入参考图像特征，以引导噪声预测器预测噪声。

具体地，至少一次更新过程可以包括操作S231～操作S232。

在操作S231，将参考图像特征和文本特征分别与当前噪声图像融合，得到融合特征。

该操作S231例如可以是将参考图像特征、文本特征和当前噪声图像输入噪声预测器，由噪声预测器预测得到一个潜在噪声，该潜在噪声可以理解为是融合特征。

该操作S231中，分别将参考图像特征和文本特征与当前噪声图像进行了融合，可以使得噪声预测过程同等地考虑参考图像特征和文本特征。例如，可以同步地融合参考图像特征与当前噪声图像，以及融合文本特征与当前噪声图像，最后基于两部分融合结果来得到融合特征。或者，也可以先对参考图像特征和文本特征进行concat()运算，即在通道维度拼接，随后再与当前噪声图像进行融合。

在操作S232，基于融合特征，更新当前噪声图像。例如，该实施例可以在当前噪声图像的基础上减去融合特征，从而得到更新后的噪声图像，完成对当前噪声图像的更新。

本公开实施例通过在图像生成过程中引入参考图像，并基于参考图像和提示文本来更新噪声图像，可以使得解码噪声图像得到的目标图像不仅与提示文本相匹配，还可以使得目标图像的生成过程借鉴参考图像，使得生成的目标图像中的目标对象与参考图像中的目标对象类似。再者，通过在至少一次迭代中，将参考图像特征和文本特征分别与当前噪声图像融合，可以使得噪声预测过程可以分别考虑提示文本和参考图像对预测噪声的影响，利于提高预测得到的噪声的精度，并因此利于提高用户对最终生成的目标图像的满意度，提高图像的生成效果。

在一实施例中，可以在部分的迭代更新过程中引入参考图像特征，以此提高图像生成效率。也可以在每次迭代更新过程中均引入参考图像特征，以使得每次噪声预测过程均考虑参考图像特征，利于提高恢复得到的目标图像与参考图像的相似程度。

例如，可以在多次迭代中预定迭代次数之后的迭代更新过程中引入参考图像特征，即前述的至少一次更新过程包括迭代地更新噪声图像的过程中预定迭代次数之后的更新过程。例如，设定总更新次数为20，则可以从第6次更新过程开始，在每次更新过程中引入参考图像特征。如此，可以在保证恢复得到的目标图像与参考图像的相似程度的基础上，提高图像生成效率。这是由于，前若干次的更新过程中，噪声较大，即使引入参考图像特征，参考图像特征提供的引导作用有限。

图3是根据本公开实施例的图像生成方法的原理示意图。

在一实施例中，提取参考图像特征的特征提取网络例如可以包括多个采样层，每个采样层用于对参考图像进行不同分辨率的采样。前述的噪声预测器例如可以为文生图模型中的图像信息创建网络，且该噪声预测器可以为多层网络结构，用于逐级地进行特征处理(例如特征融合)。

在一实施例中，特征提取网络中的采样层个数例如可以与噪声预测器中的网络层级个数相等。特征提取网络的多个采样层提取的多个参考图像特征例如可以逐层地引导噪声预测器进行特征处理，或者也可以采用部分采样层提取的参考图像特征来引导噪声预测器中对应层级的网络进行特征处理。

以特征提取网络的多个采样层提取的多个参考图像特征逐层地引导噪声预测器进行特征处理为例，设定特征提取网络中多个采样层的数量与噪声预测器(即图像信息创建网络)中网络层的数量均为N，该实施例在需要引入参考图像特征的单次更新过程中，图像信息创建网络中第i个网络层可以对其中的第(i-1)个网络层输出的特征(即处理当前噪声图像得到的输入第i个网络层的特征，即第i个图像特征)、特征提取网络中第i个采样层提取的第i个参考图像特征和文本特征进行处理。具体地，该第i个网络层可以将第i个参考图像特征和文本特征分别与第i个图像特征融合。对于图像信息创建网络中的第1个网络层而言，输入的特征为当前迭代中需要更新的噪声图像。可以理解的是，在逐层引导的技术方案中，i的取值范围为大于等于1且小于等于N的所有整数。而在无需逐层引导的技术方案中，i的取值范围则为大于等于1且小于等于N的整数中的部分整数。

如图3所示，在实施例300中，特征提取网络310可以为包括编码器和解码器的U-Net，该特征提取网络310可以包括四个下采样层(作为编码器)和四个上采样层(作为解码器)。参考图像301输入该特征提取网络310，可以逐层地提取到8个参考图像特征。图像信息创建网络320对应地可以包括四个下采样层和四个上采样层，图像信息创建网络320中第i个采样层的输入包括：其前一采样层的输出特征(第i个图像特征)、特征提取网络310中第i个采样层输出的第i个参考图像特征，以及对提示文本302进行特征提取所得到的文本特征303。图像信息创建网络320中第i个采样层可以将第i个参考图像特征和文本特征分别与第i个图像特征进行融合，得到的融合特征可以作为第(i+1)个图像特征。可以理解的是，第1个图像特征即为本次迭代中需要更新的噪声图像331。图像信息创建网络320最终输出的特征可以为作为更新依据的融合特征，具体可以为预测的噪声。从噪声图像331中减去预测的噪声，即可得到更新后的噪声图像332。至此，可以完成一次迭代更新。

该实施例通过逐层引导的方式来预测噪声，可以提高预测得到的噪声与参考图像的关联性，可以使得参考图像在高层语义特征和底层视觉特征上都能对图像生成过程进行指导，从而可以使得生成的目标图像更好地保留参考图像在构图和色彩上的特征(例如目标对象的特征)。

在一实施例中，在引入参考图像特征的迭代过程中，可以采用交叉注意力机制来将参考图像特征和文本特征分别与当前噪声图像融合。以此可以提高图像的融合效果。

图4是根据本公开第一实施例的融合特征的原理示意图。

根据本公开的实施例，在进行特征融合时，例如可以先采用交叉注意力机制来融合参考图像特征与当前噪声图像，得到第一子融合特征。同时根据任意的先后顺序，采用交叉注意力机制融合文本特征与当前噪声图像，得到第二子融合特征。最后，基于第一子融合特征和第二子融合特征来得到最终的融合特征。

其中，在采用交叉注意力机制时，例如可以将当前噪声图像作为query，将参考图像特征和文本特征作为key和value，进行交叉注意力运算。该实施例可以对第一子融合特征和第二子融合特征进行concat()运算，从而得到最终的融合特征。

可以理解的是，在前述的特征提取网络和噪声预测器为单层结构的情况下，可以将该融合特征作为单次迭代中预测的噪声。

如图4所示，在特征提取网络410和噪声预测器420为多层结构、且特征提取网络410提取的参考图像特征对噪声生成过程进行逐层引导的实施例400中，可以将特征提取网络410中第i个采样层从参考图像401中提取的参考图像特征和从提示文本402中提取的文本特征403输入噪声预测器420中的第i层网络。该噪声预测器420中的第i层网络先采用交叉注意力机制融合输入的参考图像特征和当前噪声图像，以及融合输入的文本特征和当前噪声图像。随后基于得到的第一子融合特征和第二子融合特征，来得到融合特征。

可以理解的是，在特征融合过程中，输入噪声预测器的第1层网络的当前噪声图像为当前更新过程需要更新的噪声图像431。之后可以将噪声预测器中第i层网络输出的融合特征作为输入噪声预测器中第(i+1)层的当前噪声图像(即第(i+1)个图像特征)。以此类推，最终将噪声预测器中最后一层输出的融合特征作为预测的噪声。在噪声图像431的基础上减去预测的噪声，即可得到更新后的噪声图像432。

可以理解的是，在特征提取网络提取的参考图像特征对噪声生成过程进行选层引导的情况下，则噪声预测器中未被选择的网络层可以仅采用交叉注意力机制来融合文本特征和输入其的图像特征。

在一实施例中，在基于第一子融合特征和第二子融合特征得到融合特征时，例如还可以为基于参考图像特征融合得到的第一子融合特征添加权重，且随着迭代次数的增多，相应地增大对该第一子融合特征添加的权重。具体地，可以先采用预定权重对第一子融合特征进行加权，得到加权后特征。其中的预定权重的取值与当次迭代的迭代次数正相关。随后拼接加权后特征和第二子融合特征，得到融合特征。对特征进行拼接的过程可以理解为进行concat()运算的过程。如此，可以随着迭代次数的增多，使得参考图像特征对噪声预测过程的引导作用逐渐增大，利于提高最终生成的目标图像的满意度。这是由于随着迭代次数的增多，噪声图像所表达的内容逐渐增多，为参考图像特征设置较大的权重，可以使得更新的噪声图像与参考图像更为相似。

图5是根据本公开第二实施例的融合特征的原理示意图。

根据本公开的实施例，在进行特征融合时，例如可以先基于参考图像特征和文本特征得到一个整体的引导特征，随后再采用交叉注意力机制来融合该整体的引导特征和当前噪声图像，从而得到融合特征。

其中，在采用交叉注意力机制时，例如可以将当前噪声图像作为query，将整体的引导特征作为key和value，进行交叉注意力运算。该实施例可以通过先将参考图像特征转换至文本特征所在的特征空间，随后拼接转换后的特征与文本特征，从而得到一个整体的引导特征。对特征进行拼接的过程可以理解为进行concat()运算的过程。

可以理解的是，在前述的特征提取网络和噪声预测器为单层结构的情况下，可以将融合拼接特征和当前噪声图像得到的融合特征作为单次迭代中预测的噪声。

如图5所示，在特征提取网络510和噪声预测器520为多层结构、且特征提取网络510提取的参考图像特征对噪声生成过程进行逐层引导的实施例500中，可以将特征提取网络510中第i个采样层从参考图像501中提取的参考图像特征和从提示文本502中提取的文本特征503输入噪声预测器520的第i层网络。该噪声预测器520中的第i层网络先对输入的参考图像特征进行转换，并拼接转换后特征和文本特征，得到拼接特征。最后采用交叉注意力机制融合拼接特征和当前噪声图像，来得到融合特征。

可以理解的是，在特征融合过程中，输入噪声预测器的第1层网络的当前噪声图像为当前更新过程需要更新的噪声图像531。之后可以将噪声预测器中第i层网络输出的融合特征作为输入噪声预测器中第(i+1)层的当前噪声图像(即第(i+1)个图像特征)。以此类推，最终将噪声预测器中最后一层输出的融合特征作为预测的噪声。在噪声图像531的基础上减去预测的噪声，即可得到更新后的噪声图像532。

在一实施例中，在基于参考图像特征和文本特征得到一个整体的引导特征时，例如可以先对参考图像特征添加权重，且随着迭代次数的增多，相应地增大对参考图像特征添加的权重。具体地，可以先采用预定权重对参考图像特征进行加权，得到加权后特征。随后将加权后特征转换至文本特征所在的特征空间，得到转换后特征。最后拼接转换后特征和文本特征，得到作为整体引导特征的拼接特征。如此，可以随着迭代次数的增多，使得参考图像特征对噪声预测过程的引导作用逐渐增大，利于提高最终生成的目标图像的满意度。这是由于随着迭代次数的增多，噪声图像所表达的内容逐渐增多，为参考图像特征设置较大的权重，可以使得更新的噪声图像与参考图像更为相似。

在一实施例中，为了便于上文描述的图像生成方法的实施，本公开实施例还提供了一种改进的图像生成模型。该图像生成模型包括文本理解组件、特征提取网络和图像生成器。其中，文本理解组件用于将提示文本转换成数字表示，具体可以包括前述的分词器、用于将token序列转换为嵌入向量的嵌入网络以及前述的文本转换器。特征提取网络例如可以为前述的包括编码器和解码器的U-Net。图像生成器可以包括图像信息创建网络和图像解码器。其中，图像信息创建网络中包括用于引入文本理解组件提取的文本特征的网络层、用于引入特征提取网络所提取的参考图像特征的网络层。图像信息创建网络中引入文本特征的网络层和引入参考图像特征的网络层例如可以为注意力层，该注意力层用于采用交叉注意力机制融合引入的特征和噪声图像。该图像信息创建网络中还可以包括融合文本特征和噪声图像得到的融合特征以及融合参考图像特征和噪声图像得到的融合特征进行concat()运算的计算层，以得到预测噪声。或者，图像信息创建网络中可以包括用于转换参考图像特征，并拼接参考图像特征和文本特征的网络层，还可以包括注意力层，用于对前述的整体的引导特征和噪声图像进行交叉注意力运算，以得到预测噪声。图像信息创建网络还可以包括根据预测的噪声对噪声图像进行更新的网络层。通过将图像信息创建网络运行多次，可以得到最终的噪声图像。图像解码器用于对最终的噪声图像进行解码，生成目标图像。

为了使得改进的图像生成模型更好地生成图像，本公开实施例还可以对改进的图像生成模型进行训练。经过训练，改进的图像生成模型中注意力层的权重与相关技术中文生图模型中注意力层的权重不共享，以此使得改进的图像生成模型中权重的设置更为符合实际场景，以期提高生成图像的效果。以下将结合图6对图像生成模型的训练进行详细描述。

图6是根据本公开实施例的图像生成模型的训练方法的流程示意图。

如图6所示，该实施例600的图像生成模型的训练方法包括操作S610～操作S650。其中的图像生成模型包括特征提取网络和文生图模型。特征提取网络可以前述的ResNet、基于Transformer的骨干网络、DenseNet或U-Net等。文生图模型包括文本理解网络、图像信息创建网络和图像解码网络，其中的图像信息创建网络是前述增加了相应网络层的网络，在此不再详述。

在操作S610，采用特征提取网络提取参考图像的特征，得到参考图像特征。

其中，参考图像例如可以为用户提供的任一图像，也可以为随机获取的任一图像，本公开对此不做限定，只要该参考图像包括第一目标对象即可。该操作S610的实现原理与前文描述的操作S210的实现原理类似，在此不再赘述。

在操作S620，采用文本理解网络提取第一样本数据中样本文本的特征，得到文本特征。

根据本公开的实施例，文本理解网络可以包括分词器、嵌入向量转换器和文本转换器(例如Text transformer)等，该操作S620的实现原理与上文描述的操作S220的实现原理类似，在此不再赘述。

在操作S630，采用图像信息创建网络，以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，得到更新后噪声图像。

在操作S640，采用图像解码网络对更新后噪声图像进行解码，得到目标图像，目标图像包括与第一目标对象相似的第二目标对象，且目标图像与所述样本文本相匹配。

根据本公开的实施例，操作S630中更新噪声图像的原理与前述操作S230中更新噪声图像的原理类似，区别在于，该操作S630不涉及对更新后噪声图像进行解码的过程。操作S640则用于实现对更新后噪声图像进行解码的过程。该解码原理与相关技术中文生图模型中图像解码网络的解码原理类似，在此不再详述。

在一实施例中，实现操作S630的迭代更新过程中，部分的迭代更新过程可以通过以下操作来实现。例如，操作S630所涉及的迭代地更新过程中，至少一次更新过程可以包括以下操作：将参考图像特征和文本特征分别与当前噪声图像融合，得到融合特征；基于融合特征，更新当前噪声图像。该两部分操作的实现原理分别与上文描述的操作S231～操作S232的实现原理类似，在此不再赘述。

在操作S650，根据目标图像和第一样本数据中的第一样本图像，对文生图模型进行训练。

根据本公开的实施例，第一样本数据例如可以包括从公开数据集中获取的text-image数据对，text即为样本文本，image为与样本文本匹配的样本图像。该实施例可以将第一样本数据中的第一样本图像与目标图像进行比较，以最小化两者地差异为目标，对文生图模型进行训练。训练过程中，可以调节图像信息创建网络中的权重。在一实施例中，对文生图模型进行训练的原理与相关技术类似。

在一实施例中，在训练文生图模型之前，例如可以先对特征提取网络进行训练。具体地，可以先从公开数据集中获取图像数据作为第二样本图像，并利用特征提取网络来提取第二样本图像特征，同时根据提取的特征预测图像，根据该预测图像与原图像(即第二样本图像)的差异，来对特征提取网络进行训练。

具体地，可以先采用特征提取网络提取第二样本图像的特征，得到预测图像特征。该预测图像特征可以理解为是特征提取网络中最后一个采样层输出的图像特征。随后，根据该预测图像特征，生成第二样本图像的预测图像。例如，该实施例可以采用与相关技术中的文生图模型类似的模型，作为图生图模型，该图生图模型包括前述的特征提取网络，图生图模型与相关技术中的文生图模型的区别在于，图生图模型中没有注意力层。则此处的预测图像可以理解为是图生图模型以第二样本图像作为输入所输出的图像。最后，可以根据第二样本图像和预测图像，来对特征提取网络进行训练。具体地，可以根据第二样本图像和预测图像，采用L2损失函数计算图生图模型的损失。随后采用梯度下降算法来以最小化损失为目标，调整图生图模型中的网络参数，从而实现对特征提取网络的训练。

根据本公开的实施例，图像生成模型的训练整体例如可以包括两个阶段。第一个阶段为对特征提取网络进行训练的阶段。第二个阶段为固定特征提取网络的网络参数不变，对文生图模型进行训练的阶段。

在一实施例中，文生图模型例如可以包括稳定扩散模型(Stab1eDiffusionModel)，本公开实施例的图像生成模型是基于该稳定扩散模型构建的。

在一实施例中，图像生成模型中图像信息创建网络的结构例如可以参见图4中的噪声预测器420或者参见图5中的噪声预测器520。

基于本公开提供的图像生成方法，本公开还提供了一种图像生成装置。以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的图像生成装置的结构框图。

如图7所示，该实施例的图像生成装置700可以包括第一图像特征提取模块710、第一文本特征提取模块720、第一噪声图像更新模块730。其中，第一噪声图像更新模块730可以包括第一融合子模块731和第一更新子模块732。

第一图像特征提取模块710用于提取参考图像的特征，得到参考图像特征；参考图像包括第一目标对象。在一实施例中，第一图像特征提取模块71 0可以用于执行上文描述的操作S210，在此不再赘述。

第一文本特征提取模块720用于提取提示文本的特征，得到文本特征。在一实施例中，第一文本特征提取模块720可以用于执行上文描述的操作S220，在此不再赘述。

第一噪声图像更新模块730用于以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，以生成目标图像。其中，目标图像包括与第一目标对象相似的第二目标对象，且目标图像与提示文本相匹配。其中，目标图像是通过解码最终的噪声图像获得的。在一实施例中，第一噪声图像更新模块730可以用于执行上文描述的操作S230，在此不再赘述。

第一融合子模块731用于在至少一次更新过程中，将参考图像特征和文本特征分别与当前噪声图像融合，得到融合特征。在一实施例中，第一融合子模块731可以用于执行上文描述的操作S231，在此不再赘述。

第一更新子模块732用于基于融合特征，更新当前噪声图像。在一实施例中，第一更新子模块732可以用于执行上文描述的操作S232，在此不再赘述。

根据本公开的实施例，上述第一图像特征提取模块710具体可以用于将参考图像输入由多个采样层构成的特征提取网络中，将多个采样层中每个采样层输出的特征作为一个参考图像特征。上述第一融合子模块731可以包括：特征获得单元，用于将当前噪声图像输入文生图模型中的图像信息创建网络，得到输入图像信息创建网络中第i个网络层的特征，作为第i个图像特征；以及融合单元，用于将特征提取网络中第i个采样层输出的特征和文本特征分别与第i个图像特征融合。其中，i为大于等于1的整数，输入图像信息创建网络中第1个网络层的特征为当前噪声图像。

根据本公开的实施例，融合单元可以包括第一融合子单元、第二融合子单元和特征获得子单元。第一融合子单元用于采用交叉注意力机制融合第i个采样层输出的特征与第i个图像特征，得到第一子融合特征。第二融合子单元用于采用交叉注意力机制融合文本特征与第i个图像特征，得到第二子融合特征。特征获得子单元用于基于第一子融合特征和第二子融合特征，得到第i+1个图像特征。

根据本公开的实施例，融合单元可以包括融合单元包括转换子单元、拼接子单元和融合子单元。转换子单元用于将第i个采样层输出的特征转换至文本特征所在的特征空间，得到转换后特征。拼接子单元用于拼接转换后特征和文本特征，得到拼接特征。融合子单元用于采用交叉注意力机制融合拼接特征与第i个图像特征，得到第i+1个图像特征。

根据本公开的实施例，特征提取网络中采样层的数量与图像信息创建网络中网络层的数量均为N，N为大于1的整数。i为大于等于1且小于等于N的所有整数中的部分或全部的整数；融合特征为图像信息创建网络中第N个网络层输出的特征。

根据本公开的实施例，至少一次更新过程包括迭代地更新噪声图像的过程中较后次数的更新过程。

根据本公开的实施例，特征获得子单元用于：采用预定权重对第一子融合特征进行加权，得到加权后特征；以及拼接加权后特征和第二子融合特征，得到第i+1个图像特征，其中，预定权重的取值与当次迭代的迭代次数正相关。

基于本公开提供的图像生成模型的训练方法，本公开还提供了一种图像生成模型的训练装置。以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的图像生成模型的训练装置的结构框图。

如图8所示，该实施例的图像生成模型的训练装置800可以包括第二图像特征提取模块810、第二文本特征提取模块820、第二噪声图像更新模块830、解码模块840和第一训练模块850。图像生成模型包括特征提取网络和文生图模型，文生图模型包括文本理解网络、图像信息创建网络和图像解码网络。

第二图像特征提取模块810用于采用特征提取网络提取参考图像的特征，得到参考图像特征。其中，参考图像包括第一目标对象。在一实施例中，第二图像特征提取模块810可以用于执行上文描述的操作S610，在此不再赘述。

第二文本特征提取模块820用于采用文本理解网络提取第一样本数据中样本文本的特征，得到文本特征。在一实施例中，第二文本特征提取模块820可以用于执行上文描述的操作S620，在此不再赘述。

第二噪声图像更新模块830用于采用图像信息创建网络，以随机噪声图像作为噪声图像的初始图像，依据文本特征和参考图像特征迭代地更新噪声图像，得到更新后噪声图像。在一实施例中，第二噪声图像更新模块830可以用于执行上文描述的操作S630，在此不再赘述。

在一实施例中，第二噪声图像更新模块830可以包括第二融合子模块和第二更新子模块。第二融合子模块用于在至少一次更新过程中，将参考图像特征和文本特征分别与当前噪声图像融合，得到融合特征。第二更新子模块用于基于融合特征，更新当前噪声图像。

解码模块840用于采用图像解码网络对更新后噪声图像进行解码，得到目标图像。其中，目标图像包括与第一目标对象相似的第二目标对象，且目标图像与样本文本相匹配。在一实施例中，解码模块840可以用于执行上文描述的操作S640，在此不再赘述。

第一训练模块850用于根据目标图像和第一样本数据中的第一样本图像，对文生图模型进行训练。在一实施例中，第一训练模块850可以用于执行上文描述的操作S650，在此不再赘述。

根据本公开的实施例，上述第二图像特征提取模块810还可以用于：采用特征提取网络提取第二样本图像的特征，得到预测图像特征。上述图像生成模型的训练装置800还可以包括图像生成模块和第二训练模块。图像生成模块用于根据预测图像特征，生成第二样本图像的预测图像。第二训练模块用于根据第二样本图像和预测图像，对特征提取网络进行训练。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9是用来实施本公开实施例的图像生成方法或图像生成模型的训练方法的电子设备900的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图像生成方法或图像生成模型的训练方法。例如，在一些实施例中，图像生成方法或图像生成模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的图像生成方法或图像生成模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像生成方法或图像生成模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像生成方法，包括：

提取参考图像的特征，得到参考图像特征；所述参考图像包括第一目标对象；

提取提示文本的特征，得到文本特征；

以随机噪声图像作为噪声图像的初始图像，依据所述文本特征和所述参考图像特征迭代地更新噪声图像，以生成目标图像；所述目标图像包括与所述第一目标对象相似的第二目标对象，且所述目标图像与所述提示文本相匹配；

其中，依据所述文本特征和所述参考图像特征迭代地更新噪声图像，包括在至少一次更新过程中：

将所述参考图像特征和所述文本特征分别与当前噪声图像融合，得到融合特征；以及

基于所述融合特征，更新所述当前噪声图像，

其中，所述目标图像是通过解码最终的噪声图像获得的。

2.根据权利要求1所述的方法，其中：

所述提取参考图像的特征，得到参考图像特征包括：将所述参考图像输入由多个采样层构成的特征提取网络中，将多个采样层中每个采样层输出的特征作为一个参考图像特征。

3.根据权利要求2所述的方法，其中，所述将所述参考图像特征和所述文本特征分别与当前噪声图像融合，得到融合特征包括：

将当前噪声图像输入文生图模型中的图像信息创建网络，得到输入所述图像信息创建网络中第i个网络层的特征，作为第i个图像特征；以及

将所述特征提取网络中第i个采样层输出的特征和所述文本特征分别与所述第i个图像特征融合，

其中，i为大于等于1的整数，输入所述图像信息创建网络中第1个网络层的特征为所述当前噪声图像。

4.根据权利要求3所述的方法，其中，所述将所述特征提取网络中第i个采样层输出的特征和所述文本特征分别与所述第i个图像特征融合包括：

采用交叉注意力机制融合所述第i个采样层输出的特征与所述第i个图像特征，得到第一子融合特征；

采用交叉注意力机制融合所述文本特征与所述第i个图像特征，得到第二子融合特征；以及

基于所述第一子融合特征和所述第二子融合特征，得到第i+1个图像特征。

5.根据权利要求3所述的方法，其中，所述将所述特征提取网络中第i个采样层输出的特征和所述文本特征分别与所述第i个图像特征融合包括：

将所述第i个采样层输出的特征转换至所述文本特征所在的特征空间，得到转换后特征；

拼接所述转换后特征和所述文本特征，得到拼接特征；以及

采用交叉注意力机制融合所述拼接特征与所述第i个图像特征，得到第i+1个图像特征。

6.根据权利要求3所述的方法，其中：

所述特征提取网络中采样层的数量与所述图像信息创建网络中网络层的数量均为N，N为大于1的整数；

i为大于等于1且小于等于N的所有整数中的部分或全部的整数；所述融合特征为所述图像信息创建网络中第N个网络层输出的特征。

7.根据权利要求1所述的方法，其中，所述至少一次更新过程包括迭代地更新噪声图像的过程中预定迭代次数之后的更新过程。

8.根据权利要求4所述的方法，其中，所述基于所述第一子融合特征和所述第二子融合特征，得到第i+1个图像特征包括：

采用预定权重对所述第一子融合特征进行加权，得到加权后特征；以及

拼接所述加权后特征和所述第二子融合特征，得到第i+1个图像特征，

其中，所述预定权重的取值与当次迭代的迭代次数正相关。

9.一种图像生成模型的训练方法，其中，所述图像生成模型包括特征提取网络和文生图模型；所述文生图模型包括文本理解网络、图像信息创建网络和图像解码网络；所述方法包括：

采用所述特征提取网络提取参考图像的特征，得到参考图像特征；所述参考图像包括第一目标对象；

采用所述文本理解网络提取第一样本数据中样本文本的特征，得到文本特征；

采用所述图像信息创建网络，以随机噪声图像作为噪声图像的初始图像，依据所述文本特征和所述参考图像特征迭代地更新噪声图像，得到更新后噪声图像；

采用所述图像解码网络对所述更新后噪声图像进行解码，得到目标图像，所述目标图像包括与所述第一目标对象相似的第二目标对象，且所述目标图像与所述样本文本相匹配；以及

根据所述目标图像和所述第一样本数据中的第一样本图像，对所述文生图模型进行训练。

10.根据权利要求9所述的方法，其中，所述图像信息创建网络用于在至少一次更新过程中：

基于所述融合特征，更新所述当前噪声图像。

11.根据权利要求9所述的方法，还包括在对所述文生图模型进行训练之前：

采用所述特征提取网络提取第二样本图像的特征，得到预测图像特征；

根据所述预测图像特征，生成所述第二样本图像的预测图像；以及

根据所述第二样本图像和所述预测图像，对所述特征提取网络进行训练。

12.一种图像生成装置，包括：

图像特征提取模块，用于提取参考图像的特征，得到参考图像特征；所述参考图像包括第一目标对象；

文本特征提取模块，用于提取提示文本的特征，得到文本特征；

噪声图像更新模块，用于以随机噪声图像作为噪声图像的初始图像，依据所述文本特征和所述参考图像特征迭代地更新噪声图像，以生成目标图像；所述目标图像包括与所述第一目标对象相似的第二目标对象，且所述目标图像与所述提示文本相匹配；

其中，所述噪声图像更新模块包括：

融合子模块，用于在至少一次更新过程中，将所述参考图像特征和所述文本特征分别与当前噪声图像融合，得到融合特征；以及

更新子模块，用于基于所述融合特征，更新所述当前噪声图像，其中，所述目标图像是通过解码最终的噪声图像获得的。

13.根据权利要求12所述的装置，其中，所述图像特征提取模块用于：

将所述参考图像输入由多个采样层构成的特征提取网络中，将多个采样层中每个采样层输出的特征作为一个参考图像特征。

14.根据权利要求13所述的装置，其中，所述融合子模块包括：

特征获得单元，用于将当前噪声图像输入文生图模型中的图像信息创建网络，得到输入所述图像信息创建网络中第i个网络层的特征，作为第i个图像特征；以及

融合单元，用于将所述特征提取网络中第i个采样层输出的特征和所述文本特征分别与所述第i个图像特征融合，

15.根据权利要求14所述的装置，其中，所述融合单元包括：

第一融合子单元，用于采用交叉注意力机制融合所述第i个采样层输出的特征与所述第i个图像特征，得到第一子融合特征；

第二融合子单元，用于采用交叉注意力机制融合所述文本特征与所述第i个图像特征，得到第二子融合特征；以及

特征获得子单元，用于基于所述第一子融合特征和所述第二子融合特征，得到第i+1个图像特征。

16.根据权利要求14所述的装置，其中，所述融合单元包括：

转换子单元，用于将所述第i个采样层输出的特征转换至所述文本特征所在的特征空间，得到转换后特征；

拼接子单元，用于拼接所述转换后特征和所述文本特征，得到拼接特征；以及

融合子单元，用于采用交叉注意力机制融合所述拼接特征与所述第i个图像特征，得到第i+1个图像特征。

17.根据权利要求14所述的装置，其中：

18.根据权利要求12所述的装置，其中，所述至少一次更新过程包括迭代地更新噪声图像的过程中预定迭代次数之后的更新过程。

19.根据权利要求15所述的装置，其中，所述特征获得子单元用于：

其中，所述预定权重的取值与当次迭代的迭代次数正相关。

20.一种图像生成模型的训练装置，其中，所述图像生成模型包括特征提取网络和文生图模型；所述文生图模型包括文本理解网络、图像信息创建网络和图像解码网络；所述装置包括：

图像特征提取模块，用于采用所述特征提取网络提取参考图像的特征，得到参考图像特征；所述参考图像包括第一目标对象；

文本特征提取模块，用于采用所述文本理解网络提取第一样本数据中样本文本的特征，得到文本特征；

噪声图像更新模块，用于采用所述图像信息创建网络，以随机噪声图像作为噪声图像的初始图像，依据所述文本特征和所述参考图像特征迭代地更新噪声图像，得到更新后噪声图像；

解码模块，用于采用所述图像解码网络对所述更新后噪声图像进行解码，得到目标图像，所述目标图像包括与所述第一目标对象相似的第二目标对象，且所述目标图像与所述样本文本相匹配；以及

第一训练模块，用于根据所述目标图像和所述第一样本数据中的第一样本图像，对所述文生图模型进行训练。

21.根据权利要求20所述的装置，其中，所述噪声图像更新模块包括：

更新子模块，用于基于所述融合特征，更新所述当前噪声图像。

22.根据权利要求20所述的装置，其中：

所述图像特征提取模块还用于：采用所述特征提取网络提取第二样本图像的特征，得到预测图像特征；

所述装置还包括：

图像生成模块，用于根据所述预测图像特征，生成所述第二样本图像的预测图像；以及

第二训练模块，用于根据所述第二样本图像和所述预测图像，对所述特征提取网络进行训练。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法，或者执行权利要求9～11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法，或者执行根据权利要求9～11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现根据权利要求1～8中任一项所述方法的步骤，或者实现根据权利要求9～11中任一项所述方法的步骤。