CN116933854B

CN116933854B - 图像生成模型的处理方法、装置、设备和存储介质

Info

Publication number: CN116933854B
Application number: CN202311198245.5A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2024-03-29
Anticipated expiration: 2043-09-18
Also published as: CN116933854A

Abstract

本申请涉及一种图像生成模型的处理方法、装置、设备和存储介质。该方法涉及人工智能技术，方法包括：获取输入图像，输入图像是属于目标类别的实例图像；根据目标类别进行图像检索，得到多个检索图像；基于图像语义对多个检索图像进行聚类，得到多个聚类簇；基于图像相似度从多个检索图像中筛选出输入图像的相似图像；从各聚类簇中选取图像，作为本次训练的类别相关正则化图像，从相似图像中选取图像，作为本次训练的实例相关正则化图像；根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。这样，能够提升图像生成效果。

Description

图像生成模型的处理方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像生成模型的处理方法、装置、设备和存储介质。

背景技术

随着机器学习技术的发展，出现了图像生成技术，该技术可以基于用户输入的信息，利用生成模型来生成相关的图像。在此之前，需要对用于图像生成的开源模型进行微调，以得到最终的生成模型。

在相关技术中，在进行微调的过程中，利用用户上传的训练图像，对该开源模型进行微调。然而，用户上传的训练图像较少，容易出现语言漂移的现象，例如，训练图图像包含猫，该微调好的生成模型只能够生成这只猫，而无法生成猫抓蝴蝶等其他属性的图像，即，图像生成效果不好。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升图像生成效果的图像生成模型的处理方法、装置、设备和存储介质。

第一方面，本申请提供了一种图像生成模型的处理方法。所述方法包括：

获取输入图像，所述输入图像是属于目标类别的实例图像；

根据所述目标类别进行图像检索，得到多个检索图像；

基于图像语义对所述多个检索图像进行聚类，得到多个聚类簇；

基于图像相似度从所述多个检索图像中筛选出所述输入图像的相似图像；

从各所述聚类簇中选取图像，作为本次训练的类别相关正则化图像，从所述相似图像中选取图像，作为本次训练的实例相关正则化图像；

根据所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带所述实例图像的实例信息的图像。

第二方面，本申请还提供了一种图像生成模型的处理装置。所述装置包括：

图像输入模块，用于获取输入图像，所述输入图像是属于目标类别的实例图像；

图像检索模块，用于根据所述目标类别进行图像检索，得到多个检索图像；

聚类模块，用于基于图像语义对所述多个检索图像进行聚类，得到多个聚类簇；

图像筛选模块，用于基于图像相似度从所述多个检索图像中筛选出所述输入图像的相似图像；

图像选取模块，用于从各所述聚类簇中选取图像，作为本次训练的类别相关正则化图像，从所述相似图像中选取图像，作为本次训练的实例相关正则化图像；

微调模块，用于根据所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带所述实例图像的实例信息的图像。

在一些实施例中，所述图像检索模块，用于根据所述目标类别生成包含所述目标类别的检索词条；根据所述检索词条从多模态数据集中进行检索，得到多个检索图像。

在一些实施例中，所述聚类模块，用于提取所述多个检索图像中各所述检索图像的图像语义表征；根据各所述检索图像的图像语义表征，对所述多个检索图像进行聚类处理，得到多个聚类簇，每个聚类簇包括至少一个检索图像，聚类簇中检索图像的图像语义表征到所在聚类簇的聚类中心的距离小于其到其它聚类簇的聚类中心的距离，聚类中心是聚类簇包括的至少一个检索图像的图像语义表征的平均值。

在一些实施例中，所述聚类模块，用于利用图像语义提取模型，分别对多个检索图像中各所述检索图像的图像语义进行提取，得到各所述检索图像的图像语义表征。

在一些实施例中，所述图像筛选模块，用于提取所述输入图像的图像语义表征；提取所述多个检索图像中各所述检索图像的图像语义表征；分别计算所述输入图像的图像语义表征与各所述检索图像的图像语义表征的相似度，所述相似度表征所述输入图像与所述检索图像的图像相似度；根据所述输入图像的图像语义表征与各所述检索图像的图像语义表征的相似度，从所述多个检索图像中筛选出所述输入图像的相似图像。

在一些实施例中，每轮训练包括Q次样本训练，所述图像选取模块，用于在首次训练的样本抽取阶段，从所述多个聚类簇中随机选中一个目标聚类簇，从所述目标聚类簇中随机选取M个检索图像，从所述多个聚类簇中除所述目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的所述M个检索图像和所述N个检索图像，作为首次训练的类别相关正则化图像，从所述相似图像中随机选取K个图像，将所述K个图像作为首次训练的实例相关正则化图像；在第i次训练的样本抽取阶段，从所述多个聚类簇中在前次训练均未被选择过的聚类簇中随机选中一个目标聚类簇，从所述目标聚类簇中随机选取M个检索图像，从所述多个聚类簇中除所述目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的所述M个检索图像和所述N个检索图像，作为本次训练的类别相关正则化图像，从所述相似图像中随机选取K个图像，将所述K个图像作为本次训练的实例相关正则化图像；其中，Q为大于1的自然数，/>，且i为自然数；M、N、K均为大于1的自然数，且/>，/>。

在一些实施例中，所述微调模块，用于根据所述类别相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与所述类别相关正则化图像对应的第一预测图像；根据所述实例相关正则化图像和对应的图像描述文本，利用所述预训练的图像生成模型，生成与实例相关正则化图像对应的第二预测图像；根据所述第一预测图像与所述类别相关正则化图像间的差异、以及所述第二预测图像与所述实例相关正则化图像间的差异，构建目标损失；根据所述目标损失，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

在一些实施例中，所述微调模块，用于对所述类别相关正则化图像进行加噪，得到加噪图像；将所述加噪图像和所述类别相关正则化图像对应的图像描述文本输入至预训练的图像生成模型，分别对所述加噪图像和所述图像描述文本进行编码，得到各自对应的特征；根据所述图像描述文本对应的特征，对所述加噪图像对应的特征降噪后解码处理，得到与所述类别相关正则化图像对应的第一预测图像。

在一些实施例中，所述微调模块，用于生成随机数种子；根据所述随机数种子，生成所述类别相关正则化图像对应的噪声图像；将所述噪声图像与所述类别相关正则化图像进行叠加，得到加噪图像。

在一些实施例中，所述装置还包括图像生成模块，所述图像生成模块，用于从所述多个检索图像中随机选择预设数量的图像，并根据选择出的图像对应的描述文本，利用预训练的图像生成模型进行图像生成，得到生成图像。

在一些实施例中，所述微调模块，用于根据所述输入图像、所述生成图像、所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练。

在一些实施例中，所述图像生成模块，还用于获取输入的图像描述文本，所述输入的图像描述文本携带所述实例图像的实例信息；根据随机数种子生成随机图像；将所述输入的图像描述文本和所述随机图像输入至所述微调训练好的图像生成模型，得到与所述输入的图像描述文本对应的生成图像。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述图像生成模型的处理方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像生成模型的处理方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述图像生成模型的处理方法的步骤。

上述图像生成模型的处理方法、装置、设备和存储介质，通过获取输入图像，输入图像是属于目标类别的实例图像；根据目标类别进行图像检索，得到多个检索图像，也即是，基于目标类别进行了多样性图像挖掘，扩大了微调训练的样本范围。基于图像语义对多个检索图像进行聚类，得到多个聚类簇，即区分开了不同属性的检索图像；基于图像相似度从多个检索图像中筛选出输入图像的相似图像；从各聚类簇中选取图像，作为本次训练的类别相关正则化图像。这样，确保了模型能够学习到属于目标类别且多种属性的特征，不仅实现了类别正则化限制，还有效避免了语言漂移。从相似图像中选取图像，作为本次训练的实例相关正则化图像，以确保模型还能学习到与实例图像相同的特征，确保了模型所生成的图像的保真度。根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的实例信息的图像。这样，不仅提升了模型对可能出现的不同属性信息的捕捉能力，避免了语言漂移，还能准确生成图像，从而，提升了图像生成效果。

附图说明

图1为一个实施例中图像生成模型的处理方法的应用环境图；

图2为一个实施例中图像生成模型的处理方法的流程示意图；

图3为一个实施例中检索界面的示意图；

图4为另一个实施例中检索界面的示意图；

图5为一个实施例中相似图像获取步骤的流程示意图；

图6为一个实施例中微调训练的步骤流程示意图；

图7为一个实施例中输入图像的图像描述文本提取的示意图；

图8为一个实施例中图像生成模型的处理和应用的步骤流程示意图；

图9为一个实施例中微调训练阶段的示例图；

图10为一个实施例中图像生成模型的处理装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像生成模型的处理方法，涉及人工智能(ArtificialIntelligence，AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

相关技术中，在对用于图像生成模型的开源模型进行微调的过程中，基于用户上传的少量的带有某种物体的图像（该物体可视为待微调的概念），直接对该开源模型进行微调。然而，上传的图像较少，在基于少量图像进行模型训练时，模型容易丢失概念其他特有的属性。例如，用户上传的关于猫的图像，猫为待微调的概念，上传的图像中不包含猫伸懒腰的属性，此时，微调后的模型只能够生成这只猫，但是无法生成诸如猫伸懒腰或者猫抓蝴蝶等其他语言属性的图像。因此，图像生成的效果不佳。

基于此，本申请实施例提供一种图像生成模型的处理方法，通过获取输入图像，输入图像是属于目标类别的实例图像；根据目标类别进行图像检索，得到多个检索图像，也即是，基于目标类别进行了多样性图像挖掘，扩大了微调训练的样本范围。基于图像语义对多个检索图像进行聚类，得到多个聚类簇，即区分开了不同属性的检索图像；基于图像相似度从多个检索图像中筛选出输入图像的相似图像；从各聚类簇中选取图像，作为本次训练的类别相关正则化图像。这样，确保了模型能够学习到属于目标类别且多种属性的特征，不仅实现了类别正则化限制，还有效避免了语言漂移。从相似图像中选取图像，作为本次训练的实例相关正则化图像，以确保模型还能学习到与实例图像相同的特征，确保了模型所生成的图像的保真度。根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的实例信息的图像。这样，不仅提升了模型对可能出现的不同属性信息的捕捉能力，避免了语言漂移，还能准确生成图像，从而，提升了图像生成效果。

本申请实施例提供的图像生成模型的处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设备，也可以集成在服务器104上，或者集成在云上或其他服务器上。终端102和服务器104均可单独执行该图像生成模型的处理方法，终端102和服务器104也可协同执行该图像生成模型的处理方法。

在一些实施例中，以终端102和服务器104协同执行该图像生成模型的处理方法为例进行说明。终端102获取用户所输入的输入图像，终端102将输入图像发送至服务器104，该输入图像是属于目标类别的实例图像。服务器104根据目标类别进行图像检索，得到多个检索图像。服务器104基于图像语义对多个检索图像进行聚类，得到多个聚类簇。服务器104基于图像相似度从多个检索图像中筛选出输入图像的相似图像。服务器104从各聚类簇中选取图像，作为本次训练的类别相关正则化图像，从相似图像中选取图像，作为本次训练的实例相关正则化图像。服务器104根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的实例信息的图像。

可选地，终端102获取用户所输入的图像描述文本，并将该图像描述文本发送至服务器104，服务器104调用微调训练好的图像生成模型，根据该图像描述文本，生成对应的图像。服务器104将生成的图像发送至终端102。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能电视和智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以用云服务器来实现。

在一个实施例中，如图2所示，提供了一种图像生成模型的处理方法，以该方法应用于计算机设备（可以是图1中的服务器104，也可以是终端102）为例进行说明，包括以下步骤：

步骤S202，获取输入图像，输入图像是属于目标类别的实例图像。

其中，输入图像是用户上传的图像，该上传的图像可以是拍摄得到的图像，也可以是从本地图库中选择的图像，具体不作限定。实例图像是嵌入了微调目标的图像，微调目标是指需要嵌入到图像生成模型中的特定对象，也可以理解为待微调的对象。对象包括但不限于物品、人、动物和植物等。实例图像中包含至少一个对象，微调目标是至少一个对象中的一个特定对象，将这个特定对象视为一个具体的实例。这个实例所属的类别即为目标类别。例如，实例图像中包括用户家的小猫、树木和花朵三个对象。实例为用户家的小猫，对应的目标类别为猫。

可选地，计算机设备获取用户上传的至少一个输入图像。计算机设备确定至少一个输入图像的目标类别。若上传了多个输入图像，任意两个输入图像中可能存在些许差异，但每个输入图像各自的图像内容大致相似，即所包含的对象大致相似。并且每个输入图像所包含的实例均相同，因此，可以将多个输入图像视为是相似图像。

示例性地，用户通过目标账号上传一个或多个包含待微调的对象的实例图像，每个实例图像包含相同的待微调的对象。计算机设备对任意一个实例图像进行图像识别，识别出该实例图像中待微调的对象所属的目标类别。或者，用户上传了实例图像后，用户输入待微调的对象所属的目标类别的名字，例如，待微调的对象为帽子，则用户输入“帽子”或者“Hat”。计算机设备根据用户所输入的名字，确定目标类别。

步骤S204，根据目标类别进行图像检索，得到多个检索图像。

其中，检索图像是属于目标类别的图像，检索图像包括属于目标类别的对象，该对象具有某种属性，例如，一个检索图像包含正在喝水的猫，其对应的属性为喝水；另一个检索图像包含伸懒腰的猫，其对应的属性为伸懒腰。任意两个检索图像各自的对象的属性可以相同，也可以不同，具体不作限定。当然，检索图像和输入图像各自对象的属性也可以相同，也可以不同。

可选地，计算机设备根据该目标类别，确定对应的检索词条，并根据该检索词条，从检索库中的多个图像中，检索出属于目标类别的多个检索图像。

示例性地，计算机设备获取检索库中各图像的文本，并计算该检索词条分别与各图像的文本间的文本相似程度，根据各文本相似程度，对各图像进行排序，序号越小，则对应的相似程度越高。

或者，计算机设备计算检索词条分别与各图像间的文本图像匹配程度，根据各文本图像匹配程度，对各图像进行排序，序号越小，则对应的文本图像匹配程度越高。

此时，计算机设备将序号靠前的多个图像分别作为检索图像。

在一些实施例中，根据目标类别进行图像检索，得到多个检索图像，包括：根据目标类别生成包含目标类别的检索词条；根据检索词条从多模态数据集中进行检索，得到多个检索图像。

其中，多模态数据集包括图像、音频、文本等不同模态的数据。

可选地，计算机设备根据目标类别，生成包含目标类别的检索词条，计算机设备分别对检索词条和多模态数据集中各图像进行编码，得到各自对应的特征。对于每个图像，计算机设备计算检索词条的特征与图像的特征间距离，距离越小，则说明检索词条与图像越匹配。计算机设备根据各距离，对多模态数据集中各图像进行排序，距离最小，对应的序号越小。计算机设备将序号靠前的第一数量的图像分别作为检索图像。

示例性地，如图3所示，为一个实施例中检索界面的示意图。用户通过目标账号在检索界面的搜索框中输入检索词条“a cat”（“猫”），计算机设备根据该检索词条，从多模态数据集中检索出与搜索词条最相关的前200个图像，并将这个200个图像作为检索图像，并在检索界面中的展示区域中展示这200个检索图像，展示区域还展示了每个检索图像相关的图像描述文本，如图3中展示区域中展示了检索图像1的图像描述文本1、检索图像2的图像描述文本2、检索图像3的图像描述文本3、检索图像4对应的图像描述文本4、……、检索图像200对应的图像描述文本200。图像描述文本是用于描述对应的检索图像中属于目标类别的对象的属性信息。例如，图像描述文本1为“小猫坐在地上”；图像描述文本2为“小肥猫蜷缩在地上”，…，图像描述文本200为“抱枕上画了一个蜷缩的小猫”。

对于某些词而言，存在一词多义的情况，因此，在根据该检索词条进行图像检索时，检索出来的图像可能与实际的语义并不相符；又由于在进行实际检索的过程中，可能存在将与目标类别相似的相似类别的图像误认为是目标类别的图像，如，将老虎的图像误认为是属于猫的图像，此时，为避免检索错误，可以在一次检索后进行一次筛选，以得到与实际语义相符、且属于目标类别的检索图像。例如，如图4所示，为另一个实施例中检索界面的示意图。用户通过目标账号在检索界面的搜索框中输入检索词条“a cat”（“猫”），该检索界面中展示了检索出的200个图像以及各图像的图像描述文本，例如，展示区域展示了图像1和对应的图像描述文本1、图像2和对应的图像描述文本2、图像3和对应的图像描述文本3、图像4和对应的图像描述文本4、……、图像120和对应的图像描述文本120、……、图像200和对应的图像描述文本200，此时，一次检索出来的200个图像中图像200是老虎，很显然，一次检索将类别为老虎的图像200被误认为是猫的图像。

为此，示例性地，计算机设备对序号靠前的第一数量的图像进行筛选，得到与实际语义相符、且属于目标类别的第二数量的检索图像。上述提及的筛选可以是对图像进行识别，也可以是人为进行筛选，具体不作限定。比如，计算机设备从200个图像中去除错误识别的图像，并从筛选出的图像中获取靠前的120个图像，将获取的120个图像作为检索图像。

在本实施例中，通过目标类别生成包含目标类别的检索词条，这样，根据该检索词条可以从多模态数据集中进行多样性的图像挖掘，即挖掘出属于目标类别，但具有不同种属性的多个检索图像，扩大了用于模型微调的样本。为此，提升了模型对可能出现的不同属性信息的捕捉能力，从而，能够提高图像生成的效果。

步骤S206，基于图像语义对多个检索图像进行聚类，得到多个聚类簇。

如前所述，每个检索图像各自的对象的属性可以相同，也可以不同，基于此，通过聚类将相同属性的检索图像归为一个聚类簇。例如，将正在喝水的猫的检索图像归为聚类簇1，将伸懒腰的猫的检索图像归为聚类簇2。也就是说，不同聚类簇各自对应的属性是不同。图像语义反映了检索图像的图像内容。可以理解的是，图像中对象的属性不同，则对应的图像内容不同，则图像语义也是不同的。

示例性地，计算机设备确定各检索图像各自的图像语义表征，该图像语义表征用于表示检索图像的图像语义。计算机设备根据各检索图像各自的图像语义表征，对各检索图像进行聚类处理，将属性相同的检索图像聚类在一个聚类簇。其中，聚类处理所采用的算法包括可以是K-means(K-均值)聚类算法、均值漂移聚类算法、或基于密度的聚类方法等，在此不做限定。

步骤S208，基于图像相似度从多个检索图像中筛选出输入图像的相似图像。

其中，图像相似度是指输入图像与任意一个检索图像间的相似度。相似图像和输入图像各自的目标类别属性相同、且相似图像中目标类别的对象与输入图像中的实例相似。例如，目标类别为猫，输入图像中的猫为毛绒玩具。此时，第一个检索图像是关于真实场景下真实的猫站立的图像，第二个检索图像是关于产品展示界面中展示玩具猫的图像。很显然，第二个检索图像的猫与输入图像的猫相似，即都不为真实的猫，因此，第二个检索图像为输入图像的相似图像，而第一个检索图像的猫是真实场景下真实的猫，输入图像的猫不是真实的猫，即第一个检索图像的猫与输入图像的猫不相似，即第一个检索图像不为输入图像的相似图像。

可选地，计算机设备根据输入图像的图像语义表征分别与各检索图像的图像语义表征间的相似度，从多个检索图像中筛选出设定数量的、与输入图像相似的相似图像。

若存在多个输入图像，如前所述，多个输入图像是相似的，则计算机设备融合多个输入图像的图像语义表征，得到融合语义表征。计算机设备根据融合语义表征分别与各检索图像的图像语义表征间的相似度，从多个检索图像中筛选出与输入图像相似的相似图像。

由于每个输入图像的图像语义表征的维数相同，则计算机设备计算各图像语义表征中相同维数的特征值的平均值，作为该维数的目标特征值，计算机设备根据各维数各自的目标特征值，确定融合语义表征。

步骤S210，从各聚类簇中选取图像，作为本次训练的类别相关正则化图像，从相似图像中选取图像，作为本次训练的实例相关正则化图像。

其中，微调训练需要经过多轮迭代的训练，每轮需要进行多次训练。每次训练都需要从各聚类簇和相似图像中重新选取训练图像。训练图像包括类别相关正则化图像和实例相关正则化图像。类别相关正则化图像用于让模型能够知晓类别相关正则化图像中的实例是目标类别的，且学习该实例的属性特征，比如，让模型学习猫伸懒腰这种属性特征。实例相关正则化图像用于让模型生成与输入图像中实例相似的图像的，以确保生成图像和输入图像具有一致性。

可选地，对于本次训练，计算机设备分别从各聚类簇中随机选取至少一个检索图像，将选取到的多个检索图像均作为本次训练的类别正则化图像。计算机设备从多个相似图像中随机选取至少一个相似图像，将选取到的相似图像均作为本次训练的实例相关正则化图像。

示例性地，对于本次训练，计算机设备依次从每个聚类簇中随机选取至少一个检索图像，将选取的多个检索图像均作为类别正则化图像。计算机设备将从多个相似图像中随机选取的多个相似图像均作为本次训练的实例相关正则化图像。

或者，计算机设备确定本次训练的目标聚类簇，并从目标聚类簇中获取第三数量的检索图像，并从非目标聚类簇的每个其他聚类簇中随机选取第四数量的检索图像。第三数量和第四数量可以相等，也可以不等，在不等的情况下，第三数量大于第四数量，这样，在本次训练中，不仅能够确保模型学习到所有聚类簇的属性特征，还能确保模型着重学习目标聚类簇的属性特征。计算机设备将第三数量的检索图像和第四数量的检索图像均作为类别正则化图像。

计算机设备从多个相似图像中随机选取第五数量的相似图像，将第五数量的相似图像均作为本次训练的实例相关正则化图像。第五数量可以和第三数量、第四数量相等，也可以不等，具体不作限定。

步骤S212，根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的实例信息的图像。

其中，图像描述文本是描述图像内容的文本。实例信息是描述输入图像中实例的信息，例如，输入图像P是用户对自家小猫进行拍摄得到的图像，实例信息是用户家的猫。这样，后续根据微调训练好的图像生成模型生成的是关于用户家这只小猫的图像，而非其他猫的图像。预训练的图像生成模型是待微调的神经网络模型，预训练的图像生成模型是一种开源文生图的扩散模型，即，通过描述文本生成图像的模型。该图像生成模型也可以是对开源的扩散模型进行了至少一次微调后得到的模型，例如，对开源的扩散模型进行一次微调后得到可以生成景点图像的模型，基于此，通过该输入图像P对能够生成景点图像的模型再次进行微调，此时，微调训练好的图像生成模型可以生成用户家中小猫在某个景点玩耍的图像。

可选地，计算机设备从检索库中获取类别相关正则化图像、实例相关正则化图像各自的图像描述文本。计算机设备根据类别相关正则化图像和实例相关正则化图像各自对应的噪声图像，分别确定各自对应的加噪图像。计算机设备根据各自对应的加噪图像和图像描述文本，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

示例性地，对于每个类别相关正则化图像，计算机设备将对应的加噪图像和图像描述文本输入至预训练的图像生成模型中，预测类别相关的噪声特征，并根据该类别相关的噪声特征确定与该类别相关正则化图像对应的去噪图像。对于每个实例相关正则化图像，计算机设备将对应的加载图像和图像描述文本输入至预训练的图像生成模型中，预测实例相关的噪声特征，并根据实例相关的噪声特征确定与该实例相关正则化图像对应的去噪图像。

计算机设备根据类别相关正则化图像和对应的去噪图像、以及实例相关正则化图像和对应的去噪图像，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

当然，计算机设备也可以根据类别相关的噪声特征，生成类别相关的预测噪声图像，根据实例相关的噪声特征，生成实例相关的预测噪声图像。计算机设备根据类别相关正则化图像对应的噪声图像和预测噪声图像、以及实例相关正则化图像对应的噪声图像和预测噪声图像，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

上述图像生成模型的处理方法中，通过获取输入图像，输入图像是属于目标类别的实例图像；根据目标类别进行图像检索，得到多个检索图像，也即是，基于目标类别进行了多样性图像挖掘，扩大了微调训练的样本范围。基于图像语义对多个检索图像进行聚类，得到多个聚类簇，即区分开了不同属性的检索图像；基于图像相似度从多个检索图像中筛选出输入图像的相似图像；从各聚类簇中选取图像，作为本次训练的类别相关正则化图像。这样，确保了模型能够学习到属于目标类别且多种属性的特征，不仅实现了类别正则化限制，还有效避免了语言漂移。从相似图像中选取图像，作为本次训练的实例相关正则化图像，以确保模型还能学习到与实例图像相同的特征，确保了模型所生成的图像的保真度。根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的实例信息的图像。这样，不仅提升了模型对可能出现的不同属性信息的捕捉能力，避免了语言漂移，还能准确生成图像，从而，提升了图像生成效果。

在一些实施例中，基于图像语义对多个检索图像进行聚类，得到多个聚类簇，包括：提取多个检索图像中各检索图像的图像语义表征；根据各检索图像的图像语义表征，对多个检索图像进行聚类处理，得到多个聚类簇，每个聚类簇包括至少一个检索图像，聚类簇中检索图像的图像语义表征到所在聚类簇的聚类中心的距离小于其到其它聚类簇的聚类中心的距离，聚类中心是聚类簇包括的至少一个检索图像的图像语义表征的平均值。

示例性地，计算机设备确定聚类簇的个数m，从k个检索图像中随机选取m个检索图像，随机选取的m个检索图像的图像语义表征分别作为各聚类簇的聚类中心，根据各检索图像各自的图像语义表征分别与每个聚类中心的距离，确定剩下的检索图像各自的聚类簇。对于每个聚类簇，计算机设备根据该聚类簇中至少一个检索图像的图像语义表征的平均值，重新确定该聚类簇的聚类中心，然后，返回根据各检索图像各自的图像语义表征分别与每个聚类中心的距离步骤继续执行，直至m个聚类簇的聚类中心不再变化时为止。此时，得到了聚类中心不再变化时对应m个聚类簇，且对于每个聚类簇中的每个检索图像，该检索图像的图像语义表征到所在聚类簇的聚类中心的距离小于该检索图像的图像语义表征到其他聚类簇的聚类中心的距离。

例如，在获取到了120个检索图像后，为确保每个聚类簇中的检索图像的数量不会影响后续类别相关正则化图像的获取，需要确保每个聚类簇中检索图像的数量不小于12个图像，此时，聚类簇的数量可以为10。

在本实施例中，通过各检索图像的图像语义表征对多个检索图像进行聚类处理，以将属于目标类别、且具有相同属性的检索图像归在一个聚类簇中。基于此，根据得到的聚类簇能够区分不同属性的检索图像，能够有效避免语义漂移，确保了图像生成的效果。

在一些实施例中，提取多个检索图像中各检索图像的图像语义表征，包括：利用图像语义提取模型，分别对多个检索图像中各检索图像的图像语义进行提取，得到各检索图像的图像语义表征。

其中，图像语义提取模型用于提取图像语义表征。如前所述，图像语义反映了图像内容，图像内容包含关于属于目标类别的对象的属性信息。任意两个检索图像中属于目标类别的对象的属性越相似，则各自对应的图像语义表征越相近。

在本实施例中，通过图像语义提取模型，能够准确提取出每个检索图像的图像语义表征，这样，后续根据检索图像的图像语义表征，能够准确识别出具有相同属性信息的检索图像，从而确保模型微调的准确性。

在一些实施例中，提取多个检索图像中各检索图像的图像语义表征，包括：利用基于对比学习的多模态模型中的图像表征分支网络，分别对多个检索图像中各检索图像的图像语义进行提取，得到各检索图像的图像语义表征。

其中，基于对比学习的多模态模型是基于对比文本-图像对的预训练的模型(Contrastive Language-Image Pre-training，CLIP)，基于对比学习的多模态模型包括图像表征分支网络和文本表征分支网络。

在本实施例中，通过基于对比学习的多模态模型中的图像表征分支网络，能够准确提取出每个检索图像的图像语义表征，这样，后续根据检索图像的图像语义表征，能够准确识别出具有相同属性信息的检索图像，从而确保模型微调的准确性。

此外，根据基于对比学习的多模态模型还能够应用在前述提及到的从多模态数据集中检索出多个检索图像，也即是，计算机设备根据检索词条和多模态数据集中的图像，利用基于对比学习的多模态模型，分别提取检索词条和图像各自的表征，此时，根据检索词条和图像各自的表征，从多模态数据集中的多个图像中筛选出与搜索词条匹配的检索图像。由此，通过基于对比学习的多模态模型能够提取到文本和图像各自的表征，无需额外部署图像表征提取模型和文本图像表征提取模型，简化了模型微调的流程，提高了微调效率。

在一些实施例中，如图5所示，为一个实施例中相似图像获取步骤的流程示意图。基于图像相似度从多个检索图像中筛选出输入图像的相似图像，包括：

步骤S502，提取输入图像的图像语义表征。

可选地，计算机设备根据图像提取模型或者根据基于对比学习的多模态模型中的图像表征分支网络，对输入图像的图像语义进行提取，得到输入图像的图像语义表征。

步骤S504，提取多个检索图像中各检索图像的图像语义表征。

可选地，计算机设备根据图像提取模型或者根据基于对比学习的多模态模型中的图像表征分支网络，对每个检索图像中的图像语义进行提取，得到每个检索图像的图像语义表征。

步骤S506，分别计算输入图像的图像语义表征与各检索图像的图像语义表征的相似度，相似度表征输入图像与检索图像的图像相似度。

其中，相似度是指检索图像与输入图像间的相似程度，相似度越大，检索图像和输入图像越相似。

示例性地，对于每个检索图像，计算机设备计算输入图像的图像语义表征与该检索图像的图像语义表征间的余弦值，将该余弦值确定为该输入图像和该检索图像间的图像相似度。当然，图像相似度还可以通过欧式距离的计算来确定，具体不作限定。

步骤S508，根据输入图像的图像语义表征与各检索图像的图像语义表征的相似度，从多个检索图像中筛选出输入图像的相似图像。

可选地，计算机设备将输入图像的图像语义表征与各检索图像的图像语义表征的相似度，按从大到小进行排序。计算机设备将排序靠前的设定数量的检索图像，确定为输入图像的相似图像。或者，计算机设备获取相似度阈值，将不小于相似度阈值的相似度所对应的检索图像，确定为输入图像的相似图像。

示例性地，计算机设备从200个检索图像中选取与输入图像的图像语义表征最相似的20个检索图像，选取的20个检索图像均为相似图像。

如前所述，若存在多个输入图像，计算机设备将融合语义表征分别与各检索图像的图像语义表征间的相似度，按从大到小进行排序。计算机设备将排序靠前的设定数量的检索图像，确定为输入图像的相似图像。

需要说明的是，在利用相似图像对模型进行正则化时，与输入图像越相似的图像，对图像生成模型记忆训练输入图像的关键信息的帮助越大。

在本实施例中，通过输入图像和检索图像各自的图像语义表征的相似度，能够准确筛选出与输入图像相似的相似图像，基于相似图像能够对实例正则化，确保模型能够生成与输入图像中实例更相似的图像，即提高了图像生成的准确性。

在一些实施例中，每轮训练包括Q次样本训练，从各聚类簇中选取图像，作为本次训练的类别相关正则化图像，从相似图像中选取图像，作为本次训练的实例相关正则化图像，包括：在首次训练的样本抽取阶段，从多个聚类簇中随机选中一个目标聚类簇，从目标聚类簇中随机选取M个检索图像，从多个聚类簇中除目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的M个检索图像和N个检索图像，作为首次训练的类别相关正则化图像，从相似图像中随机选取K个图像，将K个图像作为首次训练的实例相关正则化图像；在第i次训练的样本抽取阶段，从多个聚类簇中在前次训练均未被选择过的聚类簇中随机选中一个目标聚类簇，从目标聚类簇中随机选取M个检索图像，从多个聚类簇中除目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的M个检索图像和N个检索图像，作为本次训练的类别相关正则化图像，从相似图像中随机选取K个图像，将K个图像作为本次训练的实例相关正则化图像；其中，Q为大于1的自然数，/>，且i为自然数；M、N、K均为大于1的自然数，且/>，/>。

示例性地，每轮训练包括12次样本训练，存在10个聚类簇，例如，在首次训练（第一次训练）的样本抽取阶段，从10个聚类簇中随机选取了一个目标聚类簇，即聚类簇1，从聚类簇1中随机抽取5个检索图像，此时，非目标聚类簇是不包括聚类簇1的其他聚类簇，对于9个其他聚类簇中每个其他聚类簇，分别从每个其他聚类簇中随机抽取1个检索图像，从相似图像中随机抽取6个图像，此时，得到用于第一次训练的20个训练图像。在第i次训练（非第一次训练）的样本抽取阶段，以第三次训练为例进行说明，在第三次训练的样本抽取阶段，若前两次所确定的目标聚类簇分别是聚类簇1和聚类簇2，并从剩下的8个聚类簇中随机选取一个聚类簇作为第3次训练的目标聚类簇，例如聚类簇3，并从聚类簇3中随机选取5张检索图像，此时，非目标聚类簇是不包括聚类簇3的其他聚类簇，对于9个其他聚类簇中的每个其他聚类簇，分别从每个其他聚类簇中随机抽取1个检索图像，并从相似图像中随机抽取6个相似图像，此时，将经过聚类簇抽取得到的14个检索图像确定为第3次训练的类别相关正则化图像，将这6个相似图像确定为第3次训练的实例相关正则化图像，此时，得到用于第三次训练的20个训练图像。每次训练的训练图像的数量相等。

在本实施例中，通过各聚类簇确定本次训练的类别相关正则化图像。这样，确保了模型能够学习到属于目标类别且所有聚类簇各自对应的属性的特征，不仅实现了类别正则化限制，还有效避免了语言漂移。通过与输入图像相似的多个相似图像确定本次训练的实例相关正则化图像，以确保模型还能学习到与实例图像相同的特征，确保了模型所生成的图像的保真度。这样，能够提升图像生成效果。

在一些实施例中，如图6所示，为一个实施例中微调训练的步骤流程示意图。根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，包括：

步骤S602，根据类别相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与类别相关正则化图像对应的第一预测图像。

可选地，计算机设备确定类别相关正则化图像的加噪图像，计算机设备将该类别相关正则化图像对应的加噪图像和图像描述文本输入至预训练的图像生成模型，利用该图像生成模型的文本分支网络对该图像描述文本进行编码，得到文本特征，利用该图像生成模型的降噪网络和文本特征，对加噪图像进行去噪处理，得到与类别相关正则化图像对应的第一预测图像。

在一些实施例中，根据类别相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与类别相关正则化图像对应的第一预测图像，包括：对类别相关正则化图像进行加噪，得到加噪图像；将该加噪图像和类别相关正则化图像对应的图像描述文本输入至预训练的图像生成模型，分别对加噪图像和图像描述文本进行编码，得到各自对应的特征；根据图像描述文本对应的特征，对加噪图像对应的特征降噪后解码处理，得到与类别相关正则化图像对应的第一预测图像。

示例性地，计算机设备随机生成与类别相关正则化图像相关的噪声图像，并根据该噪声图像对类别相关正则化图像进行加噪，得到对应的加噪图像。计算机设备将加噪图像和类别相关正则化图像对应的图像描述文本输入至预训练的图像生成模型，计算机设备利用第一编码器对加噪图像进行编码得到第一特征，并利用第二编码器对图像描述文本进行编码得到第二特征。计算机设备从均匀分布中随机采样一个数T，将T确定为扩散步数，对第一特征施加T次高斯噪声，得到待处理特征，计算机设备将第二特征通过QKV（Query查询、Key键、Value值）的KV（Key键、Value值）赋值的方式输入到降噪网络（U-net）中，并将待处理特征输入至降噪网络中进行降噪，确定类别相关正则化图像的原始图像特征，对该原始图像特征进行解码，确定第一预测图像。

其中，第一编码器可以采用变分自编码器（VAE，Variational AutoEncoder）的编码器，以将图像压缩到隐空间，采用变分自编码器的解码器进行解码。第二编码器可以采用基于对比学习的多模态模型中的图像表征分支网络对描述文本进行编码。其中，变分自编码器、第二编码器和去噪网络可以采用开源已训练好的模型参数，并且微调过程中仅对去噪网络进行更新。在进行微调训练时，可以将学习率设置为（e为自然常数）。

基于此，在本实施例中，将类别相关正则化图像的加噪图像和图像描述文本输入至预训练的图像生成模型中，利用图像描述文本的特征对加噪图像的特征进行去噪，让模型学习噪声特征的拟合，从而，预测出类别相关正则化图像对应的图像特征，从而，得到预测得到的第一预测图像，能够确保模型的图像生成能力。

步骤S604，根据实例相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与实例相关正则化图像对应的第二预测图像。

可选地，计算机设备对实例相关正则化图像进行加噪，得到对应的加噪图像；将实例相关正则化图像对应的加噪图像和图像描述文本输入至预训练的图像生成模型，分别对该加噪图像和图像描述文本进行编码，得到各自对应的特征；根据该图像描述文本对应的特征，对该加噪图像对应的特征降噪后解码处理，得到与实例相关正则化图像对应的第二预测图像。

其中，计算机设备随机生成与实例相关正则化图像相关的噪声图像，并根据该噪声图像对实例相关正则化图像进行加噪，得到对应的加噪图像。上述第二预测图像的具体生成过程与第一预测图像的具体生成过程类似，可参考上述步骤S602中的示例。

步骤S606，根据第一预测图像与类别相关正则化图像间的差异、以及第二预测图像与实例相关正则化图像间的差异，构建目标损失。

其中，第一预测图像与类别相关正则化图像间的差异越小、且第二预测图像与实例相关正则化图像间的差异越小，则说明模型图像生成效果越好。

示例性地，将第一预测图像与类别相关正则化图像间的差异、以及第二预测图像与实例相关正则化图像间的差异进行叠加，确定目标损失。

当然，如前所述，计算机设备还可以根据随机产生的噪声图像和预测得到噪声图像间的差异来构建目标损失，示例性地，计算机设备根据与类别相关正则化图像相关噪声图像与基于类别相关正则化图像对应的加噪图像和图像描述文本预测得到的噪声图像间的差异、以及根据与实例相关正则化图像相关的噪声图像与基于实例相关正则化图像对应的加噪图像和图像描述文本预测得到的噪声图像间的差异，构建目标损失。

例如，采用MSE(Mean squared error，均方差)构建目标损失MSE，如下所示：

/>

其中，为参考图像，/>为基于参考图像得到生成图像，x为图像中像素的总数，i为某个像素。例如，参考图像为类别相关正则化图像，对应的生成图像为第一预测图像；参考图像为实例相关正则化图像，对应的生成图像为第二预测图像；参考图像为与类别相关正则化图像相关的噪声图像，对应的生成图像为基于类别相关正则化图像对应的加噪图像和图像描述文本预测得到的噪声图像；参考图像为与实例相关正则化图像相关的噪声图像，对应的生成图像为基于实例相关正则化图像对应的加噪图像和图像描述文本预测得到的噪声图像。

步骤S608，根据目标损失，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

在本实施例中，通过第一预测图像与类别相关正则化图像间的差异、以及第二预测图像与实例相关正则化图像间的差异，构建目标损失。基于此，通过多轮训练来最小化目标损失，以确保最终微调训练好的图像生成模型所生成的图像的准确性。

在一些实施例中，对类别相关正则化图像进行加噪，得到加噪图像，包括：生成随机数种子；根据随机数种子，生成类别相关正则化图像对应的噪声图像；将噪声图像与类别相关正则化图像进行叠加，得到加噪图像。

其中，随机数种子用于产生隐空间表征需要的噪声信息，如前所述，隐空间表征是指通过第一编码器将像素空间的信息转换为隐空间的表征，即类别相关正则化图像对应的特征。基于噪声信息确定生成类别相关正则化图像对应的噪声图像。

需要说明的是，不同类别相关正则化图像在生成对应的加噪图像时，为确保图像生成模型能够学习到不同的噪声图像，确保微调效果，所使用的随机数种子是不一样的，因此，各类别相关正则化图像各自的加噪图像不同。

在本实施例中，在对类别相关正则化图像进行加噪的过程中，生成类别相关正则化图像对应的随机数种子，并根据该随机数种子，确定对应的加噪图像，以使得图像生成模型学习噪声表征，提高图像生成的准确性。

在一些实施例中，对实例相关正则化图像进行加噪，得到加噪图像，包括：生成随机数种子；根据随机数种子，生成实例相关正则化图像对应的噪声图像；将该噪声图像与实例相关正则化图像进行叠加，得到实例相关正则化图像对应的加噪图像。

同样地，为确保模型微调效果，不同实例相关正则化图像在生成对应的加噪图像时，所使用的随机数种子是不一样的，并且，用于生成类别正则化图像对应的噪声信息的随机数种子和用于生成实例正则化图像对应的噪声信息的随机数种子也是不一样的。

在本实施例中，在对实例相关正则化图像进行加噪的过程中，生成实例相关正则化图像对应的随机数种子，并根据该随机数种子，确定对应的加噪图像，以使得图像生成模型学习噪声表征，提高图像生成的准确性。

在一些实施例中，方法还包括：从多个检索图像中随机选择预设数量的图像，并根据选择出的图像对应的描述文本，利用预训练的图像生成模型进行图像生成，得到生成图像。

其中，生成图像是在微调前利用预训练的图像生成模型，根据描述文本生成的。生成图像反映了微调前图像生成模型的图像生成能力。

可选地，计算机设备从多个检索图像中随机选择预设数量的图像，并随机获取用于微调前生成图像的随机数种子，根据该随机数种子生成随机图像，根据随机图像和选择出的图像对应的描述文本，利用预训练的图像生成模型进行图像生成，得到生成图像。

例如，计算机设备根据随机数种子0（seed0）和每个选择的图像1的描述文本（text1），利用预训练的图像生成模型进行图像生成，得到图像1对应的生成图像1（genenrate_image1），此时，计算机设备记录生成图像所对应的三元组信息，即（seed0，text1，genenrate_image1）。

其中，对于每个选择出的图像，各自对应的用于微调前生成图像的随机数种子都是相同的，即都是随机数种子0（seed0），以确保随机图像都是相同的。

需要说明的是，为确保微调中图像生成模型的生成能力不下降，确保图像生成模型的泛化性，需要将生成图像也输入到图像生成模型中进行微调训练，即将生成图像这个生成结果作为部分训练数据，迫使图像生成模型在微调训练的同时不忘记其既有的图像生成能力，防止了训练图像过拟合的问题。

基于此，在一些实施例中，根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，包括：根据输入图像、生成图像、类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练。

可选地，计算机设备根据输入图像、生成图像、类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，分别利用预训练的图像生成模型，得到各自对应的预测图像。

计算机设备根据输入图像、生成图像、类别相关正则化图像、实例相关正则化图像分别与各自对应的预测图像间的差异，构建目标损失。根据目标损失对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

示例性地，计算机设备根据输入图像和对应的图像描述文本，利用图像生成模型，生成与输入图像对应的第三预测图像。计算机设备根据生成图像和对应的图像描述文本，利用图像生成模型，生成与生成图像对应的第四预测图像。计算机设备根据类别相关正则化图像和对应的图像描述文本，利用图像生成模型，生成与类别相关正则化图像对应的第五预测图像，根据实例相关正则化图像和对应的图像描述文本，利用图像生成模型，生成实例相关正则化图像对应的第六预测图像。

计算机设备根据第三预测图像和输入图像间的差异，构建第一损失，根据第四预测图像和生成图像间的差异，构建第二损失，根据第五预测图像和类别相关正则化图像间的差异，构建第三损失，根据第六预测图像和实例相关正则化图间的差异，构建第四损失。计算机设备联合第一损失、第二损失、第三损失和第四损失，确定目标损失。根据目标损失，对预训练的图像生成模型进行多轮的微调训练，得到微调训练好的图像生成模型。

例如，计算机设备获取输入图像对应的第一随机数种子、生成图像对应的第二随机数种子、每个类别相关正则化图像对应的第三随机数种子、每个实例相关正则化图像的第四随机数种子。每个生成图像对应的第二随机数种子都相同，都是前述提及的用于微调前生成图像的随机数种子。

其中，第一随机数种子、第二随机数种子、第三随机数种子和第四随机数种子是四种训练图像各自对应的的随机数种子，彼此之间不相同。多个类别相关正则化图像、多个实例相关正则化图像都是用于对预训练的图像生成模型的生成能力做进一步的提高，即都是为了在避免语言漂移的基础上，更加准确的生成图像，因此，类别相关正则化图像和实例相关正则化图像可视为用于纯微调的训练图像。因此，每个第三随机数种子和每个第四随机数种子都不同。

计算机设备根据第一随机数种子，生成第一噪声图像，并将第一噪声图像和输入图像进行叠加，得到第一加噪图像。计算机设备将第一加噪图像和输入图像对应的图像描述文本输入至图像生成模型，得到第三预测图像。

计算机设备根据第二随机数种子生成第二噪声图像，将每个生成图像都与第二噪声图像进行叠加，得到各第二加噪图像。对于每个生成图像，计算机设备将对应的第二加噪图像和的图像描述文本输入至图像生成模型，得到第四预测图像。

对于每个类别相关正则化图像，计算机设备根据该类别相关正则化图像对应的第三随机数种子，生成对应的第三噪声图像，并将该类别相关正则化图像和对应的第三噪声图像进行叠加，得到该类别相关正则化图像对应的第三加噪图像。计算机设备将对应的第三加噪图像和图像描述文本输入至图像生成模型，得到第五预测图像。

对于每个实例相关正则化图像，计算机设备根据该实例相关正则化图像对应的第四随机数种子，生成对应的第四噪声图像，并将该实例相关正则化图像和对应的第四噪声图像进行叠加，得到该实例相关正则化图像对应的第四加噪图像。计算机设备将对应的第四加噪图像和图像描述文本输入至图像生成模型，得到第六预测图像。

进一步地，计算机设备在确定了第一损失、第二损失、第三损失和第四损失之后，根据输入图像、生成图像、类别相关正则化图像和实例相关正则化图像各自的数量，确定各自对应的损失的权重。此时，类别相关正则化图像和实例相关正则化图像各自对应的损失的权重可以相同，也可以不同。当然，可以将类别相关正则化图像的数量和实例相关正则化图像作为一类图像，即视为是用于类别属性监督的图像，因此，可以根据类别相关正则化图像的数量和实例相关正则化图像的数量的总和数量、输入图像的数量、生成图像的数量来确定权重，其中，第三损失和第四损失各自权重是相等的。数量越多，对应的权重越低。

例如，输入图像的数量为1，类别相关正则化图像的数量和实例相关正则化图像的数量的总和数量为20，生成图像的数量为10。此时，为了保持数量均衡，即，输入图像的数量、生成图像的数量、总和数量各自的占比保持在预设值，例如，在0.01到0.4范围内选取一个数值设置为预设值，以0.1为例，则对应的权重分别是1（0.1与输入图像的数量的商）、0.01（0.1与生成图像的数量的商）、0.005（0.1与总和数量的商）。基于此，目标损失Loss如下所示：

其中，为第一损失，/>为第二损失，/>是第三损失和第四损失的和值。

在本实施例中，为避免模型在微调时降低原有的生成能力，从多个检索图像中随机选择预设数量的图像，并根据选择出的图像的描述文本，利用图像生成模型进行图像生成，得到生成图像。基于此，根据输入图像、生成图像、类别相关正则化图像和实例相关正则化图像和各自对应的图像描述文本，进行模型微调训练，不仅能够防止训练样本过拟合，还能有效避免语言漂移，从而，提升了图像生成效果，确保了图像生成质量。

在一些实施例中，输入图像的图像描述文本的确定步骤，包括：计算机设备根据文本提取模型或者开源的BLIP（Bootstrapping Language-Image Pretraining，引导语言图像预训练）模型中的图像解码器，对输入图像进行图像描述进行抽取，得到输入图像的图像描述文本。

示例性地，如图7所示，为一个实施例中输入图像的图像描述文本提取的示意图。图像编码器包括自注意层(Self Attention)和前馈网络层(Feed Forward)，图像解码器包括因果自注意力层(Causal Self-Att)、交叉注意力层(Cross Attention)和前馈网络层。例如，将一张扎着双马尾辫的小女孩的图像输入至BLIP模型，通过图7中的BLIP模型中的图像解码器和图像编码器完成LM（Language Modeling，语言模型任务）处理，得到图像文本描述，即“一个扎着双马尾辫的小女孩”。

计算机设备利用开源的BLIP模型中的图像编码器，对输入图像进行编码，得到图像编码，并通过额外的[decode]（解码）标记用于表示序列的开始，并根据该[decode]标记和图像编码输入到开源的BLIP模型中的图像解码器，得到文本描述。

在本实施例中，在获取到用户上传的输入图像后，根据预设的文本提取模型或者开源的BLIP模型的图像解码器能够准确提取出对应的图像描述文本，确保能够基于输入图像和对应的图像描述文本，让图像生成模型学习输入图像中实例信息，确保了微调训练好的图像生成模型能够生成实例信息的生成图像，提升图像生成效果。

在一些实施例中，方法还包括：获取输入的图像描述文本，输入的图像描述文本携带实例图像的实例信息；根据随机数种子生成随机图像；将输入的图像描述文本和随机图像输入至微调训练好的图像生成模型，得到与输入的图像描述文本对应的生成图像。

可选地，计算机设备获取通过目标账号输入的图像描述文本，该图像描述文本包括实例相关的提示词，该提示词反映了实例信息。计算机设备随机选取随机数种子，并根据随机选取到的随机数种子，生成随机图像。计算机设备将图像描述文本和随机图像输入至微调训练好的图像生成模型，得到与输入的图像描述文本对应的生成图像。

示例性地，实例图像是用户家的小猫，在完成了微调训练后，用户想要生成自家小猫玩耍的图像，此时，计算机设备获取用户输入的图像描述文本：“我家小猫在地板上玩耍。”，图像描述文本包括“我家小猫”的提示词。此时，输入图像描述文本后，最终生成了用户家小猫在地板上玩耍的图像。

示例性地，微调训练前的图像生成模型具有生成景点能力的模型，此时，用户上传用户家的小猫的实例图像进行微调训练，得到微调训练好的图像生成模型。此时，用户想要生成自家小猫在某个景点前站立的图像。此时，图像描述文本包含“我家小猫”的关键词，例如，图像描述文本为“我家小猫在A景点前站立”，此时，计算机设备根据图像描述文本能够生成对应的生成图像。

在本实施例中，在完成了图像生成模型的微调训练后，通过输入携带实例信息的图像描述文本，能够实时生成与图像描述文本相匹配的图像，提高了图像生成质量。

本申请还提供一种应用场景，该应用场景应用上述的图像生成模型的处理方法。具体地，该图像生成模型的处理方法在该应用场景的应用如下所述：在产品推广的场景中，为对目标产品进行推广，商家需要展示目标产品的推广图像，比如，商家将该推广图片上传至电子商务客户端中商家账号的展示界面中，为能够高效且高质量的生成推广图像。可以采用本申请实施例提供的图像生成模型的处理方法来对预训练的图像生成模型进行微调训练，此时，根据微调训练好的图像生成模型来高效生成推广图像。具体地，计算机设备获取输入图像，输入图像是属于目标类别的实例图像，实例为目标产品，目标类别为目标产品所属的类别。计算机设备根据目标类别进行图像检索，得到多个检索图像；基于图像语义对多个检索图像进行聚类，得到多个聚类簇。计算机设备基于图像相似度从多个检索图像中筛选出输入图像的相似图像。计算机设备从各聚类簇中选取图像，作为本次训练的类别相关正则化图像，从相似图像中选取图像，作为本次训练的实例相关正则化图像。计算机设备根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的目标产品信息的图像。这样，用户将携带目标产品信息的图像描述文本输入至计算机设备，计算机设备调用微调训练好的图像生成模型和根据随机数种子生成的随机图像，得到生成图像。此时，将生成图像上传至电子商务客户端中商家账号的展示界面中进行展示。

当然并不局限于此，本申请提供的图像生成模型的处理方法还可以应用于其他应用场景，例如，在图像合成场景中，为将某个对象添加到某个背景图像中进行图像合成，此时，需要基于包含某个对象的实例信息的输入图像对能够生成某个背景图像的图像生成模型进行模型微调，得到微调训练好的图像生成模型。此时，微调训练好的图像生成模型能够完成图像的合成。例如，预训练的图像生成模型是能够生成景点图像的模型，小明想合成自己与某个景点的图像，输入图像中的实例为自己，目标类别为人，同样地，采用本申请实施例的方法能够得到微调训练好的图像生成模型，以此完成图像合成。

上述应用场景仅为示意性的说明，可以理解，本申请各实施例所提供的图像生成模型的处理方法的应用不局限于上述场景。

在一个具体实施例中，提供了图像生成模型的处理方法，该方法由计算机设备执行。如图8所示，为一个实施例中图像生成模型的处理和应用的步骤流程示意图。在微调训练阶段，用户上传输入图像和目标类别到计算机设备，计算机设备根据输入图像和目标类别对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型，并输出模型（即微调训练好的图像生成模型）到生成系统。在图像生成阶段，计算机设备获取用户输入的图像描述文本，并调用生成系统中的微调训练好的图像生成模型，根据用户输入的图像描述文本，得到与输入的图像描述文本对应的生成图像，并输出生成图像。

如图9所示，为一个实施例中微调训练阶段的示例图，在上述微调训练阶段中，具体地微调训练过程如下：

步骤1.1：用户上传输入图像至计算机设备，该输入图像是属于目标类别的实例图像。

步骤1.2：计算机设备根据输入图像的目标类别，从开源数据集中进行图像检索。计算机设备从图像检索得到的检索图像中获取类别相关正则化图像、实例相关正则化图像和生成图像。

可选地，计算机设备根据目标类别生成包含目标类别的检索词条；根据检索词条从多模态数据集中进行图像检索，得到多个检索图像。计算机设备利用图像语义提取模型，或者基于对比学习的多模态模型中的图像表征分支网络，分别对多个检索图像中各检索图像的图像语义进行提取，得到各检索图像的图像语义表征。计算机设备根据各检索图像的图像语义表征，对多个检索图像进行聚类处理，得到多个聚类簇，每个聚类簇包括至少一个检索图像，聚类簇中检索图像的图像语义表征到所在聚类簇的聚类中心的距离小于其到其它聚类簇的聚类中心的距离，聚类中心是聚类簇包括的至少一个检索图像的图像语义表征的平均值。

计算机设备提取输入图像的图像语义表征。提取多个检索图像中各检索图像的图像语义表征。计算机设备分别计算输入图像的图像语义表征与各检索图像的图像语义表征的相似度，相似度表征输入图像与检索图像的图像相似度。计算机设备根据输入图像的图像语义表征与各检索图像的图像语义表征的相似度，从多个检索图像中筛选出输入图像的相似图像。

步骤1.3：计算机设备获取类别相关正则化图像和实例相关正则化图像。

可选地，在首次训练的样本抽取阶段，计算机设备从多个聚类簇中随机选中一个目标聚类簇，从目标聚类簇中随机选取M个检索图像，从多个聚类簇中除目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的M个检索图像和N个检索图像，作为首次训练的类别相关正则化图像，从相似图像中随机选取K个图像，将K个图像作为首次训练的实例相关正则化图像。

在第i次训练的样本抽取阶段（即非首次训练的样本抽取阶段），计算机设备从多个聚类簇中在前次训练均未被选择过的聚类簇中随机选中一个目标聚类簇，从目标聚类簇中随机选取M个检索图像，从多个聚类簇中除目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的M个检索图像和N个检索图像，作为本次训练的类别相关正则化图像，从相似图像中随机选取K个图像，将K个图像作为本次训练的实例相关正则化图像。

其中，Q为大于1的自然数，，且i为自然数；

M、N、K均为大于1的自然数，且，/>。

步骤1.4：计算机设备获取生成图像。

可选地，计算机设备从多个检索图像中随机选择预设数量的图像，并根据选择出的图像对应的描述文本，利用预训练的图像生成模型进行图像生成，得到生成图像。

步骤1.5：计算机设备根据输入图像、生成图像、类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练。

示例性地，计算机设备获取输入图像对应的第一随机数种子、生成图像对应的第二随机数种子、每个类别相关正则化图像对应的第三随机数种子、每个实例相关正则化图像的第四随机数种子。每个生成图像对应的第二随机数种子都相同，都是前述提及的用于微调前生成图像的随机数种子。

计算机设备根据第三预测图像和输入图像间的差异，构建第一损失，根据第四预测图像和生成图像间的差异，构建第二损失，根据第五预测图像和类别相关正则化图像间的差异，构建第三损失，根据第六预测图像和实例相关正则化图间的差异，构建第四损失。计算机设备根据第一损失、第二损失、第三损失和第四损失各自的权重，对第一损失、第二损失、第三损失和第四损失进行加权，确定目标损失。根据目标损失，对预训练的图像生成模型进行多轮的微调训练，得到微调训练好的图像生成模型。

步骤1.6：计算机设备输出训练好的图像生成模型至生成系统中。生成系统还包括随机数种子生成器。该随机数种子生成器用于生成随机数种子。

基于此，在生成系统中存在微调训练好的图像生成模型后，进入图像生成阶段。具体如下：

步骤2.1：计算机设备获取通过目标账号输入的图像描述文本，该图像描述文本包括实例相关的提示词，该提示词反映了实例信息。

步骤2.2：计算机设备随机选取随机数种子，并根据随机选取到的随机数种子，生成随机图像。

步骤2.3：计算机设备将图像描述文本和随机图像输入至微调训练好的图像生成模型，得到与输入的图像描述文本对应的生成图像。

在本实施例中，通过获取输入图像，输入图像是属于目标类别的实例图像；根据目标类别进行图像检索，得到多个检索图像，也即是，基于目标类别进行了多样性图像挖掘，扩大了微调训练的样本范围。基于图像语义对多个检索图像进行聚类，得到多个聚类簇，即区分开了不同属性的检索图像；基于图像相似度从多个检索图像中筛选出输入图像的相似图像；从各聚类簇中选取图像，作为本次训练的类别相关正则化图像。这样，确保了模型能够学习到属于目标类别且多种属性的特征，不仅实现了类别正则化限制，还有效避免了语言漂移。从相似图像中选取图像，作为本次训练的实例相关正则化图像，以确保模型还能学习到与实例图像相同的特征，确保了模型所生成的图像的保真度。根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的实例信息的图像。这样，不仅提升了模型对可能出现的不同属性信息的捕捉能力，避免了语言漂移，还能准确生成图像，从而，提升了图像生成效果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像生成模型的处理方法的图像生成模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像生成模型的处理装置实施例中的具体限定可以参见上文中对于图像生成模型的处理方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种图像生成模型的处理装置1000，包括：图像输入模块1002、图像检索模块1004、聚类模块1006、图像筛选模块1008、图像选取模块1010和微调模块1012，其中：

图像输入模块1002，用于获取输入图像，输入图像是属于目标类别的实例图像；

图像检索模块1004，用于根据目标类别进行图像检索，得到多个检索图像；

聚类模块1006，用于基于图像语义对多个检索图像进行聚类，得到多个聚类簇；

图像筛选模块1008，用于基于图像相似度从多个检索图像中筛选出输入图像的相似图像；

图像选取模块1010，用于从各聚类簇中选取图像，作为本次训练的类别相关正则化图像，从相似图像中选取图像，作为本次训练的实例相关正则化图像；

微调模块1012，用于根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带实例图像的实例信息的图像。

在一些实施例中，图像检索模块1004，用于根据目标类别生成包含目标类别的检索词条；根据检索词条从多模态数据集中进行检索，得到多个检索图像。

在一些实施例中，聚类模块1006，用于提取多个检索图像中各检索图像的图像语义表征；根据各检索图像的图像语义表征，对多个检索图像进行聚类处理，得到多个聚类簇，每个聚类簇包括至少一个检索图像，聚类簇中检索图像的图像语义表征到所在聚类簇的聚类中心的距离小于其到其它聚类簇的聚类中心的距离，聚类中心是聚类簇包括的至少一个检索图像的图像语义表征的平均值。

在一些实施例中，聚类模块1006，用于利用图像语义提取模型，分别对多个检索图像中各检索图像的图像语义进行提取，得到各检索图像的图像语义表征。

在一些实施例中，图像筛选模块1008，用于提取输入图像的图像语义表征；提取多个检索图像中各检索图像的图像语义表征；分别计算输入图像的图像语义表征与各检索图像的图像语义表征的相似度，相似度表征输入图像与检索图像的图像相似度；根据输入图像的图像语义表征与各检索图像的图像语义表征的相似度，从多个检索图像中筛选出输入图像的相似图像。

在一些实施例中，每轮训练包括Q次样本训练，图像选取模块1010，用于在首次训练的样本抽取阶段，从多个聚类簇中随机选中一个目标聚类簇，从目标聚类簇中随机选取M个检索图像，从多个聚类簇中除目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的M个检索图像和N个检索图像，作为首次训练的类别相关正则化图像，从相似图像中随机选取K个图像，将K个图像作为首次训练的实例相关正则化图像；在第i次训练的样本抽取阶段，从多个聚类簇中在前次训练均未被选择过的聚类簇中随机选中一个目标聚类簇，从目标聚类簇中随机选取M个检索图像，从多个聚类簇中除目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的M个检索图像和N个检索图像，作为本次训练的类别相关正则化图像，从相似图像中随机选取K个图像，将K个图像作为本次训练的实例相关正则化图像；其中，Q为大于1的自然数，/>，且i为自然数；M、N、K均为大于1的自然数，且，/>。

在一些实施例中，微调模块1012，用于根据类别相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与类别相关正则化图像对应的第一预测图像；根据实例相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与实例相关正则化图像对应的第二预测图像；根据第一预测图像与类别相关正则化图像间的差异、以及第二预测图像与实例相关正则化图像间的差异，构建目标损失；根据目标损失，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

在一些实施例中，微调模块1012，用于对类别相关正则化图像进行加噪，得到加噪图像；将加噪图像和类别相关正则化图像对应的图像描述文本输入至预训练的图像生成模型，分别对加噪图像和图像描述文本进行编码，得到各自对应的特征；根据图像描述文本对应的特征，对加噪图像对应的特征降噪后解码处理，得到与类别相关正则化图像对应的第一预测图像。

在一些实施例中，微调模块1012，用于生成随机数种子；根据随机数种子，生成类别相关正则化图像对应的噪声图像；将噪声图像与类别相关正则化图像进行叠加，得到加噪图像。

在一些实施例中，装置还包括图像生成模块，图像生成模块，用于从多个检索图像中随机选择预设数量的图像，并根据选择出的图像对应的描述文本，利用预训练的图像生成模型进行图像生成，得到生成图像。

在一些实施例中，微调模块1012，用于根据输入图像、生成图像、类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练。

在一些实施例中，图像生成模块，还用于获取输入的图像描述文本，输入的图像描述文本携带实例图像的实例信息；根据随机数种子生成随机图像；将输入的图像描述文本和随机图像输入至微调训练好的图像生成模型，得到与输入的图像描述文本对应的生成图像。

上述图像生成模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像生成模型的处理方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（MagnetoresistiveRandom Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccessMemory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像生成模型的处理方法，其特征在于，所述方法包括：

获取输入图像，所述输入图像是属于目标类别的实例图像；

根据所述目标类别进行图像检索，得到多个检索图像；

从各所述聚类簇中选取图像，作为本次对预训练的图像生成模型进行微调训练所需的类别相关正则化图像，从所述相似图像中选取图像，作为本次对预训练的图像生成模型进行微调训练所需的实例相关正则化图像；

根据所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带所述实例图像的实例信息的图像，所述类别相关正则化图像使所述预训练的图像生成模型学习提取所述实例图像所属的目标类别的属性特征的能力，所述实例相关正则化图像使所述预训练的图像生成模型学习生成与所述实例图像相似的图像的能力。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标类别进行图像检索，得到多个检索图像，包括：

根据所述目标类别生成包含所述目标类别的检索词条；

根据所述检索词条从多模态数据集中进行检索，得到多个检索图像。

3.根据权利要求1所述的方法，其特征在于，所述基于图像语义对所述多个检索图像进行聚类，得到多个聚类簇，包括：

提取所述多个检索图像中各所述检索图像的图像语义表征；

根据各所述检索图像的图像语义表征，对所述多个检索图像进行聚类处理，得到多个聚类簇，每个聚类簇包括至少一个检索图像，聚类簇中检索图像的图像语义表征到所在聚类簇的聚类中心的距离小于其到其它聚类簇的聚类中心的距离，聚类中心是聚类簇包括的至少一个检索图像的图像语义表征的平均值。

4.根据权利要求3所述的方法，其特征在于，所述提取所述多个检索图像中各所述检索图像的图像语义表征，包括：

利用图像语义提取模型，分别对多个检索图像中各所述检索图像的图像语义进行提取，得到各所述检索图像的图像语义表征。

5.根据权利要求1所述的方法，其特征在于，所述基于图像相似度从所述多个检索图像中筛选出所述输入图像的相似图像，包括：

提取所述输入图像的图像语义表征；

提取所述多个检索图像中各所述检索图像的图像语义表征；

分别计算所述输入图像的图像语义表征与各所述检索图像的图像语义表征的相似度，所述相似度表征所述输入图像与所述检索图像的图像相似度；

根据所述输入图像的图像语义表征与各所述检索图像的图像语义表征的相似度，从所述多个检索图像中筛选出所述输入图像的相似图像。

6.根据权利要求1所述的方法，其特征在于，每轮微调训练包括Q次样本训练，所述从各所述聚类簇中选取图像，作为本次对预训练的图像生成模型进行微调训练所需的类别相关正则化图像，从所述相似图像中选取图像，作为本次对预训练的图像生成模型进行微调训练所需的实例相关正则化图像，包括：

在首次微调训练的样本抽取阶段，从所述多个聚类簇中随机选中一个目标聚类簇，从所述目标聚类簇中随机选取M个检索图像，从所述多个聚类簇中除所述目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的所述M个检索图像和所述N个检索图像，作为首次微调训练所需的类别相关正则化图像，从所述相似图像中随机选取K个图像，将所述K个图像作为首次微调训练所需的实例相关正则化图像；

在第i次微调训练的样本抽取阶段，从所述多个聚类簇中在前次微调训练均未被选择过的聚类簇中随机选中一个目标聚类簇，从所述目标聚类簇中随机选取M个检索图像，从所述多个聚类簇中除所述目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的所述M个检索图像和所述N个检索图像，作为本次微调训练所需的类别相关正则化图像，从所述相似图像中随机选取K个图像，将所述K个图像作为本次微调训练所需的实例相关正则化图像；

其中，Q为大于1的自然数，，且i为自然数；

M、N、K均为大于1的自然数，且，/>。

7.根据权利要求1所述的方法，其特征在于，所述根据所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，包括：

根据所述类别相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与所述类别相关正则化图像对应的第一预测图像；

根据所述实例相关正则化图像和对应的图像描述文本，利用所述预训练的图像生成模型，生成与实例相关正则化图像对应的第二预测图像；

根据所述第一预测图像与所述类别相关正则化图像间的差异、以及所述第二预测图像与所述实例相关正则化图像间的差异，构建目标损失；

根据所述目标损失，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

8.根据权利要求7所述的方法，其特征在于，所述根据所述类别相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与所述类别相关正则化图像对应的第一预测图像，包括：

对所述类别相关正则化图像进行加噪，得到加噪图像；

将所述加噪图像和所述类别相关正则化图像对应的图像描述文本输入至预训练的图像生成模型，分别对所述加噪图像和所述图像描述文本进行编码，得到各自对应的特征；

根据所述图像描述文本对应的特征，对所述加噪图像对应的特征降噪后解码处理，得到与所述类别相关正则化图像对应的第一预测图像。

9.根据权利要求8所述的方法，其特征在于，所述对所述类别相关正则化图像进行加噪，得到加噪图像，包括：

生成随机数种子；

根据所述随机数种子，生成所述类别相关正则化图像对应的噪声图像；

将所述噪声图像与所述类别相关正则化图像进行叠加，得到加噪图像。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述多个检索图像中随机选择预设数量的图像，并根据选择出的图像对应的描述文本，利用预训练的图像生成模型进行图像生成，得到生成图像；

所述根据所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，包括：

根据所述输入图像、所述生成图像、所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

获取输入的图像描述文本，所述输入的图像描述文本携带所述实例图像的实例信息；

根据随机数种子生成随机图像；

将所述输入的图像描述文本和所述随机图像输入至所述微调训练好的图像生成模型，得到与所述输入的图像描述文本对应的生成图像。

12.一种图像生成模型的处理装置，其特征在于，所述装置包括：

图像选取模块，用于从各所述聚类簇中选取图像，作为本次对预训练的图像生成模型进行微调训练所需的类别相关正则化图像，从所述相似图像中选取图像，作为本次对预训练的图像生成模型进行微调训练所需的实例相关正则化图像；

微调模块，用于根据所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练，微调训练好的图像生成模型用于生成携带所述实例图像的实例信息的图像，所述类别相关正则化图像使所述预训练的图像生成模型学习提取所述实例图像所属的目标类别的属性特征的能力，所述实例相关正则化图像使所述预训练的图像生成模型学习生成与所述实例图像相似的图像的能力。

13.根据权利要求12所述的装置，其特征在于，所述图像检索模块，用于根据所述目标类别生成包含所述目标类别的检索词条；根据所述检索词条从多模态数据集中进行检索，得到多个检索图像。

14.根据权利要求12所述的装置，其特征在于，所述聚类模块，用于提取所述多个检索图像中各所述检索图像的图像语义表征；根据各所述检索图像的图像语义表征，对所述多个检索图像进行聚类处理，得到多个聚类簇，每个聚类簇包括至少一个检索图像，聚类簇中检索图像的图像语义表征到所在聚类簇的聚类中心的距离小于其到其它聚类簇的聚类中心的距离，聚类中心是聚类簇包括的至少一个检索图像的图像语义表征的平均值。

15.根据权利要求14所述的装置，其特征在于，所述聚类模块，用于利用图像语义提取模型，分别对多个检索图像中各所述检索图像的图像语义进行提取，得到各所述检索图像的图像语义表征。

16.根据权利要求12所述的装置，其特征在于，所述图像筛选模块，用于提取所述输入图像的图像语义表征；提取所述多个检索图像中各所述检索图像的图像语义表征；分别计算所述输入图像的图像语义表征与各所述检索图像的图像语义表征的相似度，所述相似度表征所述输入图像与所述检索图像的图像相似度；根据所述输入图像的图像语义表征与各所述检索图像的图像语义表征的相似度，从所述多个检索图像中筛选出所述输入图像的相似图像。

17.根据权利要求12所述的装置，其特征在于，每轮微调训练包括Q次样本训练，所述图像选取模块，用于在首次微调训练的样本抽取阶段，从所述多个聚类簇中随机选中一个目标聚类簇，从所述目标聚类簇中随机选取M个检索图像，从所述多个聚类簇中除所述目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的所述M个检索图像和所述N个检索图像，作为首次微调训练所需的类别相关正则化图像，从所述相似图像中随机选取K个图像，将所述K个图像作为首次微调训练所需的实例相关正则化图像；在第i次微调训练的样本抽取阶段，从所述多个聚类簇中在前次微调训练均未被选择过的聚类簇中随机选中一个目标聚类簇，从所述目标聚类簇中随机选取M个检索图像，从所述多个聚类簇中除所述目标聚类簇以外的其它聚类簇中随机选取N个检索图像，将选取的所述M个检索图像和所述N个检索图像，作为本次微调训练所需的类别相关正则化图像，从所述相似图像中随机选取K个图像，将所述K个图像作为本次微调训练所需的实例相关正则化图像；其中，Q为大于1的自然数，/>，且i为自然数；M、N、K均为大于1的自然数，且/>，/>。

18.根据权利要求12所述的装置，其特征在于，所述微调模块，用于根据所述类别相关正则化图像和对应的图像描述文本，利用预训练的图像生成模型，生成与所述类别相关正则化图像对应的第一预测图像；根据所述实例相关正则化图像和对应的图像描述文本，利用所述预训练的图像生成模型，生成与实例相关正则化图像对应的第二预测图像；根据所述第一预测图像与所述类别相关正则化图像间的差异、以及所述第二预测图像与所述实例相关正则化图像间的差异，构建目标损失；根据所述目标损失，对预训练的图像生成模型进行微调训练，得到微调训练好的图像生成模型。

19.根据权利要求18所述的装置，其特征在于，所述微调模块，用于对所述类别相关正则化图像进行加噪，得到加噪图像；将所述加噪图像和所述类别相关正则化图像对应的图像描述文本输入至预训练的图像生成模型，分别对所述加噪图像和所述图像描述文本进行编码，得到各自对应的特征；根据所述图像描述文本对应的特征，对所述加噪图像对应的特征降噪后解码处理，得到与所述类别相关正则化图像对应的第一预测图像。

20.根据权利要求19所述的装置，其特征在于，所述微调模块，用于生成随机数种子；根据所述随机数种子，生成所述类别相关正则化图像对应的噪声图像；将所述噪声图像与所述类别相关正则化图像进行叠加，得到加噪图像。

21.根据权利要求12所述的装置，其特征在于，所述装置还包括图像生成模块，所述图像生成模块，用于从所述多个检索图像中随机选择预设数量的图像，并根据选择出的图像对应的描述文本，利用预训练的图像生成模型进行图像生成，得到生成图像；所述微调模块，用于根据所述输入图像、所述生成图像、所述类别相关正则化图像、所述实例相关正则化图像以及各自的图像描述文本，对预训练的图像生成模型进行微调训练。

22.根据权利要求21所述的装置，其特征在于，所述图像生成模块，用于获取输入的图像描述文本，所述输入的图像描述文本携带所述实例图像的实例信息；根据随机数种子生成随机图像；将所述输入的图像描述文本和所述随机图像输入至所述微调训练好的图像生成模型，得到与所述输入的图像描述文本对应的生成图像。

23.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。