CN117132690A

CN117132690A - 一种图像生成方法及相关装置

Info

Publication number: CN117132690A
Application number: CN202311096198.3A
Authority: CN
Inventors: 王双坤; 刘文双; 刘赣; 罗鑫骥; 付锦华; 尹存祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-28

Abstract

本申请实施例公开了一种人工智能领域的图像生成方法及相关装置。方法中获取所输入的基础参考数据；根据基础参考数据包括的基础参考图像数据，生成训练样本；利用训练样本对基础图像生成模型进行训练，得到目标图像生成模型；通过目标图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像。本申请实现了图像生成过程的自动化，用户仅需输入对应于目标风格的基础参考图像数据，缩减了用户手动操作的繁琐工作，对于用户来说，操作简单，能够提升用户的使用体验。此外，图像的自动化生成，能够加快目标图像的生成速度，提高目标图像的产能。

Description

一种图像生成方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像生成方法及相关装置。

背景技术

生成式人工智能(Artificial Intelligence Generated Content，AIGC)是采用人工智能技术自动生成内容的一种方法，是继专业生产内容、用户生产内容之后的一种新型内容创作方式。

在一些应用场景中，可以采用AIGC技术生成满足用户需求的图片，如相关技术中的Stable-diffusion-webui工具平台、秋叶训练脚本均可利用AIGC技术生成用户所需的图片。但是相关技术目前无法实现图片生成的全自动化，即无论是Stable-diffusion-webui工具平台，还是秋叶训练脚本，均需通过多个彼此割裂的功能模块来完成图片生成过程，在生成图片的过程中，需要用户手动设置功能模块的工作参数，且需要用户手动将各个功能模块的输出结果串联起来，对于用户来说，操作繁琐复杂。

发明内容

本申请实施例提供了一种图像生成方法及相关装置，无需用户手动执行繁琐的图像生成步骤，而是能够自动化生成图像，对于用户来说，操作简单，使用体验大大提升。

本申请第一方面提供了一种图像生成方法，所述方法包括：

获取所输入的基础参考数据；所述基础参考数据对应于目标风格；

根据所述基础参考数据包括的基础参考图像数据，生成训练样本；所述训练样本中包括基于所述基础参考图像数据确定的训练图像、以及所述训练图像对应的训练标签；

利用所述训练样本对基础图像生成模型进行训练，得到目标图像生成模型；所述基础图像生成模型是预先训练的，其用于执行普适性图像生成任务；所述目标图像生成模型用于生成具有所述目标风格的图像；

通过所述目标图像生成模型，根据参考文本库中包括的参考文本，生成具有所述目标风格的目标图像。

本申请第二方面提供了一种图像生成装置，所述装置包括：

数据获取模块，用于获取所输入的基础参考数据；所述基础参考数据对应于目标风格；

样本生成模块，用于根据所述基础参考数据包括的基础参考图像数据，生成训练样本；所述训练样本中包括基于所述基础参考图像数据确定的训练图像、以及所述训练图像对应的训练标签；

模型训练模块，用于利用所述训练样本对基础图像生成模型进行训练，得到目标图像生成模型；所述基础图像生成模型是预先训练的，其用于执行普适性图像生成任务；所述目标图像生成模型用于生成具有所述目标风格的图像；

图像生成模块，用于通过所述目标图像生成模型，根据参考文本库中包括的参考文本，生成具有所述目标风格的目标图像。

本申请第三方面提供了一种计算机设备，所述设备包括处理器和存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的图像生成方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的图像生成方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的图像生成方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，先获取用户输入的对应于目标风格的基础参考数据。再根据该基础参考数据包括的基础参考图像数据，生成由训练图像及其对应的训练标签组成的训练样本，其中，训练图像是基于基础参考图像数据确定的。然后，利用训练样本对预先训练的基础图像生成模型进行训练，得到用于生成具有目标风格的图像的目标图像生成模型，其中，预先训练的基础图像生成模型用于执行普适性图像生成任务。随后，通过目标图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像。

本申请根据用户所输入的基础参考数据，自动生成训练样本来训练基础图像生成模型，以得到目标图像生成模型，最终基于目标图像生成模型生成与用户需求对应的目标图像，实现图像生成过程的自动化。可见，在上述图像生成的过程中，用户仅需输入对应于目标风格的基础参考图像数据，缩减了用户手动操作的繁琐工作，对于用户来说，操作简单，能够提升用户的使用体验。此外，图像的自动化生成，能够加快图像的生成速度，提高目标图像的产能。

附图说明

图1为本申请实施例提供的一种模型训练信息填写页面的示意图；

图2为本申请实施例提供的一种图像生成方法的场景架构图；

图3为本申请实施例提供的一种图像生成方法的流程图；

图4为本申请实施例提供的一种训练图像及其对应的训练标签的示意图；

图5a为本申请实施例提供的一种基础参考图像的裁剪过程的示意图；

图5b为本申请实施例提供的另一种基础参考图像的裁剪过程的示意图；

图6为本申请实施例提供的一种放大基础参考图像的分辨率的示意图；

图7为本申请实施例提供的一种生成目标图像的示意图；

图8为本申请实施例提供的一种生成目标图像的页面示意图；

图9为本申请实施例提供的一种具体的图像生成方法的流程图；

图10为本申请实施例提供的一种图像生成方法的流程示意图；

图11为本申请实施例提供的一种图像生成装置的结构示意图；

图12为本申请实施例提供的一种终端设备的结构示意图；

图13为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，Stable-diffusion-webui工具平台、秋叶训练脚本均可利用AIGC技术生成用户所需的图片。以Stable-diffusion-webui工具平台为例，该平台的图片生成过程可以由多个功能模块来完成，每个功能模块都具有需用户手动填写的多个参数项，且各个功能模块所产生的结果也需用户手动串联起来。同样的，秋叶训练脚本也需用户手动操作大量的繁琐工作。因此，Stable-diffusion-webui工具平台和秋叶训练脚本均无法实现图片生成的全自动化。即，Stable-diffusion-webui工具平台和秋叶训练脚本均需通过多个彼此割裂的功能模块来完成图片生成过程，在生成图片的过程中，需要用户手动设置功能模块的工作参数，且需要用户手动将各个功能模块的输出结果串联起来，对于用户来说，操作繁琐复杂。

假设上述图像生成过程包括模型训练模块，用户可能需在模型训练模块对应的页面中填写训练样本路径、训练样本尺寸以及模型保存名称等参数项。具体可以参见图1，该图为本申请实施例提供的一种模型训练信息填写页面的示意图。结合图1所示，需要用户手动设置或填写模型训练模块的多项工作参数，操作繁琐复杂。

基于此，为了解决上述问题，本申请实施例提供了一种图像生成方法及相关装置。在该方法中，获取所输入的基础参考数据；基础参考数据对应于目标风格；根据基础参考数据包括的基础参考图像数据，生成训练样本；训练样本中包括基于基础参考图像数据确定的训练图像、以及训练图像对应的训练标签；利用训练样本对基础图像生成模型进行训练，得到目标图像生成模型；基础图像生成模型是预先训练的，其用于执行普适性图像生成任务；目标图像生成模型用于生成具有目标风格的图像；通过目标图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像。

举例来说，目前市场上包括游戏A、游戏B和游戏C。每个游戏都具有自己对应的游戏风格，即，不同游戏在游戏场景和游戏人物上所展现出的独特特征。在本申请实施例提供的图像生成方法及相关装置中，若用户需求为获取具有游戏A的游戏风格的图像求，则用户仅需要输入对应于游戏A的游戏风格的基础参考数据，无需手动进行其他操作，即可得到具有游戏A的游戏风格的目标图像。对于用户来说，操作简单，大大提升了用户的使用体验。

本申请实施例提供的图像生成方法涉及人工智能领域。人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，本申请实施例提供的图像生成方法主要涉及人工智能技术中的计算机视觉技术和机器学习/深度学习的大方向。计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调(finetune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

接下来，对本申请实施例提供的图像生成方法的执行主体进行具体介绍。

本申请实施例提供的图像生成方法的执行主体可以为具有图像处理能力的终端设备或服务器。作为示例，终端设备具体可以包括但不限于手机、台式电脑、平板电脑、笔记本电能、掌上电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。另外，服务器还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。具体可以参见图2，图2示例性地展示了本申请实施例提供的一种图像生成方法的场景架构图。图中包括上述多种形式的终端设备以及服务器。

此外，本申请实施例提供的图像生成方法也可以由终端设备和服务器协同执行。例如用户可以在终端设备上输入基础参考数据，终端设备再将获取的基础参考数据发送到服务器上。服务器根据基础参考数据包括的基础参考图像数据，生成训练样本；再利用训练样本对基础图像生成模型进行训练，得到目标图像生成模型；随后通过目标图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像，并将目标图像发送给终端设备，以便于终端设备可以向用户展示该具有目标风格的目标图像。其中，终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本申请实施例中对于执行本申请技术方案的实现主体不做限定。

接下来，以服务器为执行主体，对本申请实施例提供的图像生成方法进行具体介绍。

参见图3，该图为本申请实施例提供的一种图像生成方法的流程图。如图3所示的图像生成方法中，包括以下步骤：

S301：获取所输入的基础参考数据。

在本申请实施例中，基础参考数据对应于目标风格。目标风格是指与用户需求对应的图像风格。基础参考数据是指对于用户自身想要得到的具有目标风格的目标图像来说，具有参考性的数据。举例来说，基础参考数据包括但不限于基础参考图片或基础参考视频等等，基础参考数据还可以包括基础参考文本等。

以游戏A为例，游戏A的游戏风格为a，游戏A中包括法师、刺客以及射手等虚拟角色。若用户想要获取具有游戏风格a的图像时，则用户所输入的基础参考数据可以是游戏A中法师的人物海报(即基础参考图片)；也可以是游戏A中用户操作刺客这一虚拟角色时，截图得到的刺客图片(也即基础参考图片)；也可以是游戏A中射手对应的计算机图形学(Computer Graphics，简称CG)的视频动画(即基础参考视频)，例如，游戏A的技术人员制作的射手转身持剑的CG动画。本申请对于用户所输入的基础参考数据的数据类型不做限定，对应于目标风格即可。

S302：根据基础参考数据包括的基础参考图像数据，生成训练样本。

在本申请实施例中，训练样本包括训练图像及其对应的训练标签，训练图像基于基础参考图像数据确定。训练样本用于训练后文中的基础图像生成模型。

基于基础参考图像数据而确定的训练图像，具有用户所需的目标风格，以便于训练得到的目标图像生成模型，可以生成用户所需的具有目标风格的目标图像。

可以理解的是，用户所输入的基础参考数据为原始态数据，往往混杂着后文实施例中训练基础图像生成模型时不需要的信息。因此，在生成训练样本的过程中可以预先对基础参考数据进行预处理，将基础参考数据中训练模型时不需要的信息等干扰信息去除。

在本申请一种可能的实施方式中，S302具体可以细分为以下步骤：

A1：当基础参考图像数据为多张基础参考图片时，对每张基础参考图片进行目标预处理操作，得到训练图像。

正如上文所述，基础参考图像数据可以包括基础参考图片和基础参考视频。若用户所输入的基础参考图像数据为多张基础参考图片时，则可以对每一张参考图片进行目标预处理操作，得到训练图像。

在本申请实施例中，目标预处理操作是指在将基础参考图片用于模型训练之前，对于基础参考图像数据的一种基础处理，以生成更加适用于模型训练的训练图像。举例来说，目标预处理操作可以是对于图像清晰度的处理操作，也可以是对于图像尺寸的处理操作，本申请对此不做限制。

A2：当基础参考图像数据为基础参考视频时，从基础参考视频中抽取多张基础参考视频帧，对每张基础参考视频帧进行目标预处理操作，得到训练图像。

应理解，视频包括多个视频帧，每个视频帧可以看做一张图像。因此当基础参考图像数据为基础参考视频时，可以从该基础参考视频中抽取多个基础参考视频帧，再对其进行目标预处理得到训练图像。

需要说明的是，所抽取的基础参考视频帧中需包含虚拟角色的角色面部区域。作为一种示例，可以采用面部识别算法对基础参考视频中的视频帧进行识别，抽取出识别结果为具有角色面部区域的视频帧作为基础参考视频帧。

A3：针对每张训练图像，采用图片逆向标签算法，根据训练图像，确定训练图像对应的训练标签。

在本申请实施例中，图片逆向标签算法是指针对训练图像的图像内容生成提示词Prompt的方法，将所生成的Prompt词作为训练标签或者训练标签的一部分。

由此，根据基础参考图像数据的内容进行针对性的预处理，得到符合训练需求的训练图像。并且，采用图片逆向标签算法，根据训练图像生成对应的描述文本，作为其对应的训练标签。

可以理解的是，游戏中通常包括大量的虚拟角色，每个虚拟角色对应的Prompt词是不同的，为了加以区分，可以为每个虚拟角色生成对应的角色标识。因此，在本申请一种可能的实施方式中，A3可以继续细分为以下步骤：

a1：采用图片逆向标签算法，根据训练图像，生成训练图像对应的描述文本标签。

在本申请实施例中，描述文本标签即为上文中提及的训练图像对应的Prompt词。举例来说，若训练图像的图像内容包括游戏A中射手这一虚拟角色，则描述文本标签可以为与射手的角色特征相关的词，例如射手的服装特征或射手的装备特征等等。若训练图像的图像内容中包括树木、桥等游戏背景，则描述文本标签可以为与游戏背景的背景特征相关的词。

a2：根据训练图像包括的虚拟角色，确定训练图像对应的角色标识标签。

在本申请实施例中，角色标识标签用于指示其对应的虚拟角色。举例来说，游戏A中包括射手、法师或刺客等不同虚拟角色，每个虚拟角色均具有对应的角色标识标签。

a3：利用训练图像对应的角色标识标签和描述文本标签，确定训练图像对应的训练标签。

实际应用中，用户需求多种多样，同一目标风格下，不同用户所需求的目标图像也可能是不同的。例如用户A需求的目标图像a中，需要包含游戏A中的射手；用户B需求的目标图像b中，对于其中的虚拟角色不做限制。因此可以将训练图像对应的角色标识标签作为该训练图像中虚拟角色的角色触发词，可以理解为在描述文本标签的基础上添加一个哈希码构成训练标签，使得不同虚拟角色具有不同的哈希码。以使终端设备可以根据用户需求进行角色的对应触发。

其中，虚拟角色对应的角色标识标签可以是技术人员预先设置的，也可以是终端设备根据不同虚拟角色的角色特征预先设置的，本申请对此不做限制。

此外，需要说明的是，后文中应用目标图像生成模型时，若用户B所输入的基础参考数据不包含虚拟角色，即，用户B所需求的目标图像b仅需对应目标风格，对于其中的虚拟角色没有要求。则目标图像生成模型可以随机选择至少一个虚拟角色生成目标图像b。

可见，对于用户所输入的基础参考数据自动生成训练标签，既包括描述文本标签，用于表征训练图像的风格，又包括角色标识标签，用于表征训练图像对应的虚拟角色，能够生成训练标签更加准确的训练样本，有利于提高后续训练得到的目标图像生成模型的性能。

作为一种示例，参见图4，该图为本申请实施例提供的一种训练图像及其对应的训练标签的示意图。结合图4所示，可以先采用图片逆向标签算法生成训练图像对应的描述文本标签，描述文本标签包括：“河水、丛山、小桥、飞鱼服、马尾以及刀剑”。再根据该训练图像包括的虚拟角色，确定对应的角色标识标签为“锦衣卫”。随后利用上述角色标识标签和上述描述文本标签，组成训练图像对应的训练标签。训练图像与训练标签即可组成训练样本。

在本申请实施例中，上述提及的目标预处理操作存在多种可能的实现方式，下面分别进行介绍。需要说明的是，下文介绍中给出的实现方式仅作为示例性的说明，并不代表本申请实施例的全部实现方式。

可以理解的是，针对目标图像生成模型所生成的目标图像可以预先设置一个尺寸比例，但用户所输入的基础参考图像数据的尺寸可能与该预先设置的尺寸比例不符，若直接使用基础参考图像数据的原始尺寸训练，可能会影响目标图像模型的性能。

因此，目标预处理操作的第一种可选实现方式为：当用户所输入的基础参考图像的尺寸与预设尺寸比例不符时，可以先通过人脸识别算法识别基础参考图像中的角色面部区域，也即基础参考图像中的虚拟角色的面部区域。随后基于识别到的角色面部区域，对该基础参考图像进行裁剪处理，得到满足预设尺寸比例的基础参考角色图像，也就是说得到满足预设尺寸比例且包含虚拟角色的面部区域的基础参考角色图像。其中，基础参考图像包括可以为基础参考图片，也可以为基础参考视频中的任一基础参考视频帧。由此，在对基础参考图像进行裁剪处理的过程中，避免将其中的虚拟角色的面部区域裁剪掉，能够得到质量更高的训练图像。

作为一种示例，参见图5a，该图为本申请实施例提供的一种基础参考图像的裁剪过程的示意图。基础参考图像的尺寸比例为16:9，预设尺寸比例为1:1。结合图5a所示，角色面部区域的位置在基础参考图像中靠近中心的位置，因此，可以将基础参考图像两边的位置裁剪掉，得到角色面部区域在基础参考角色图像中心位置的图像。

作为一种示例，参见图5b，该图为本申请实施例提供的另一种基础参考图像的裁剪过程的示意图。基础参考图像的尺寸比例为16:9，预设尺寸比例为1:1。结合图5a所示，角色面部区域的位置在基础参考图像中靠近右侧的位置，为了保留虚拟角色的完整的角色面部区域，可以将基础参考图像左侧的位置裁剪掉，即，将基础参考图像的虚拟角色处于合适区域，得到包括完整的角色面部区域的基础参考角色图像。

实际应用中，用户所输入的基础参考图像数据的清晰度可能不足，导致得到的训练图像不清晰，进而影响到目标训练模型的性能。

因此，目标预处理操作的第二种可选实现方式为：比较基础参考图像的分辨率和目标分辨率阈值的大小，当基础参考图像的分辨率低于目标分辨率阈值时，则可以采用图片超分辨率算法，按照目标分辨率倍数对基础参考图像的分辨率进行放大处理。

其中，目标分辨率倍数可以根据目标分辨率阈值和基础参考图像的分辨率确定。使得经过目标分辨率倍数放大后的基础参考图像的分辨率不低于目标分辨率阈值。

上述基础参考图像可以包括基础参考图片、或者基础参考视频帧、或者基于基础参考图片或基础参考视频帧中的角色面部区域确定的基础参考角色图像。

目标超分辨算法是指任一将低分辨率图像转换为高分辨率图像的算法。举例来说，包括但不限于应用插值算法、图像重建技术和机器学习方法。

由此，提高用户所输入的基础参考图像的分辨率，能够得到清晰度更高、质量更好的训练图像。

作为一种示例，参见图6，该图为本申请实施例提供的一种放大基础参考图像的分辨率的示意图。结合图6所示，可以采用图片超分辨率算法，按照目标分辨率倍数对基础参考图像的分辨率进行放大处理，得到清晰度更高的图像。

此外，也可以直接按照目标分辨率倍数对基础参考图像的分辨率进行放大处理，也就是说，无论用户所输入的基础参考图像数据是否清晰，直接对其分辨率进行放大处理，确保训练图像的高清晰度。举例来说，目标分辨率倍数可以直接设置为4倍，对用户所输入的基础参考图像数据的清晰度均进行4倍的放大处理。

需要说明的是，对于以上两种可选实现方式，终端设备可以择一种或结合多种去实现，本申请对此不做限制。

S303：利用训练样本对基础图像生成模型进行训练，得到目标图像生成模型。

在本申请实施例中，基础图像生成模型是预先训练好的，用于执行普适性图像生成任务的模型。训练得到的目标图像生成模型用于生成具有目标风格的图像，以与用户输入的基础参考数据中的目标风格对应，满足用户需求。

其中，基础图像生成模型是指在处理多种图像生成任务时，比较普遍使用的模型，也就是说，基础图像生成模型对于大多数图像生成任务来说，通用性更强。

作为一种示例，基础图像生成模型的训练参数等，对于普适性图像生成任务来说，是预先设置好的较为合适的训练参数等。

在本申请一种可能的实施方式中，上述基础图像生成模型中可以包括第一冻结结构和第二冻结结构。第一冻结结构原始的高维模型参数通过对应的低维模型参数表示。相应地，S303具体可以细分为如下步骤：

B1：利用训练样本对基础图像生成模型进行训练，在训练过程中，调整基础图像生成模型中第一冻结结构对应的低维模型参数。

应理解，基础图像生成模型可能包括大量的参数，导致模型训练耗费的时间过长。为了加快其训练速度，可以对该基础图像生成模型采用大模型轻量级微调的方法。举例来说，可以采用Lora技术(Low-Rank Adaptation of Large Language Models)，Lora是一种大模型的低成本微调技术，可以将第一冻结结构对应的大规模参数矩阵转换为小规模参数矩阵，即将第一冻结结构的高维模型参数转换为对应的低维模型参数表示，利用低秩矩阵表示原有参数，由此大大降低计算量。

作为一种示例，假设基础图像生成模型包括5个网络层，分别为网络层1、网络层2、网络层3、网络层4以及网络层5。其中，将网络层2和网络层4选取为第一冻结结构，剩余的网络层为第二冻结结构。则可以对网络层2和网络层4分别进行Lora模型的训练，调整网络层2和网络层4分别对应的低维模型参数。

具体来说，以网络层2为线性层为例，线性层包括1000*1000的模型参数，则可以将参数量为1000*100的线性层A与参数量为100*1000的线性层B相乘之后的模型的参数，作为该线性层的低维模型参数。

B2：根据调整后的低维模型参数，确定第一冻结结构对应的目标训练结构。

模型训练结束后，利用调整后的低维模型参数，确定目标训练结构，即将具有调整后的低维模型参数的网络结构作为目标训练结构。

B3：根据第一冻结结构及其对应的目标训练结构、以及第二冻结结构，确定目标图像生成模型。

其中，在目标图像生成模型中，第一冻结结构对应的目标训练结构(例如Lora)可以具有可变的权重系数。举例来说，Lora的权重系数可以为0.7，本申请对此不做限定。所设置的权重系数可以是适用于普适性图像生成任务的权重系数。

可见，自动化训练模型的过程中，直接采用用于执行普适性图像生成任务的基础图像生成模型进行训练，能够降低训练难度。此外，又降低了训练模型时所需训练的参数量，进一步降低模型训练难度，有利于提升模型的训练速度。

作为一种示例，假设基础图像生成模型包括5个网络层，分别为网络层1、网络层2、网络层3、网络层4以及网络层5。其中，网络层2和网络层4为选取的第一冻结结构，剩余的网络层为第二冻结结构。则可以调整网络层2对应的低维模型参数，确定网络层2对应的目标网络层2(即目标训练结构)，利用目标网络层2替代网络层2的训练过程；同理，调整网络层4对应的低维模型参数，确定网络层4对应的目标网络层4，利用目标网络层4替代网络层4的训练过程。假设目标训练结构的权重系数为0.5，则目标图像生成模型由第二冻结结构、第一冻结结构以及目标训练结构与其对应的权重系数相乘这三者叠加得到。即可以理解为目标图像生成模型＝(网络层1+(网络层2+0.5×目标网络层2)+网络层3+(网络层4+0.5×目标网络层4)+网络层5)。

S304：通过目标图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像。

在本申请实施例中，参考文本库包括多个参考文本，参考文本用于指示图像的具体特征，以使目标图像生成模型生成具有目标风格且有更加具体特征目标图像。

在本申请一种可能的实施方式中，S304具体可以细分为以下步骤：

C1：按照预设的输入文本结构，组合参考文本库中不同类型的参考文本，得到多个结构化输入文本。

在本申请实施例中，预设的输入文本结构用于指示参考文本的类型。结构化输入文本包括与预设的输入文本结构所指示的类型对应的参考文本。举例来说，预设的输入文本结构指示的类型可以包括目标图像的光照条件、目标图像的图像质量、目标图像中的虚拟角色的特征以及目标图像中的背景特征。基于此，可以从参考文本库中选择与目标图像的光照条件、目标图像的图像质量、目标图像中的虚拟角色以及目标图像中的背景这四种参考文本的类型分别对应的参考文本，再组合得到多个结构化输入文本。

需要说明的是，上述预设的输入文本结构指示的类型也可以包括其他类型，本申请对此不做限定。

C2：通过目标图像生成模型，根据多个结构化输入文本，生成多个结构化输入文本各自对应的目标图像。

可见，基于多个结构化输入文本生成多个目标图像，可以批量生成多个具有目标风格的不同图像，提高了图像生成的效率。

可以理解的是，为了提高目标图像的多样性，可以对其中的虚拟角色的姿势进行设置。因此，在本申请一种可选的实施方式中，S304具体也可以细分为以下步骤：

D1：获取角色控制姿势。

在本申请实施例中，角色控制姿势用于指示生成的目标图像中虚拟角色摆出的姿势。举例来说，角色控制姿势可以为站姿、坐姿等不同姿势。具体来说，站姿可以为虚拟角色两手垂下，也可以为虚拟角色两手架起装备等等，本申请对此不做限制。D2：通过目标图像生成模型，根据参考文本库中包括的参考文本、以及角色控制姿势，生成目标图像。

由此，根据获取到的不同角色控制姿势，可以进一步生成不同的目标图像，增加了目标图像的多样性。

作为一种示例，参见图7，该图为本申请实施例提供的一种生成目标图像的示意图。结合图7所示，所生成的目标图像中虚拟角色的姿势与获取的角色控制姿势相同，目标图像的背景中也包括参考文本所指示的内容。

可以理解的是，针对用户所输入的基础参考数据，可能已存在相匹配的目标风格图像生成模型，即目标风格图像生成模型所生成目标图像的风格与基础参考数据的风格相符。此时，也就无需再训练模型，可以直接调用目标风格图像生成模型生成用户所需目标图像。

因此，在本申请实施例一种可选的实施方式中，该图像生成方法还可以包括：先检测图像生成模型库中是否存在与基础参考数据相匹配的目标风格图像生成模型。若图像生成模型库中存在目标风格图像生成模型，则可以直接调用目标风格图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像。若图像生成模型库中不存在目标风格图像生成模型，则可以执行S302至S304，即根据基础参考数据包括的基础参考图像数据，生成训练样本，继续训练模型，利用训练得到的目标图像生成模型生成目标图像。

其中，上述图像生成模型库包括多种风格各自对应的风格图像生成模型，风格图像生成模型是预先训练的，用于执行其对应的风格的图像生成任务。

若用户所输入的基础参考数据，具有相匹配的目标风格图像生成模型，则表明先前已训练得到用于生成具有目标风格的图像的图像生成模型，例如，此前已有用户输入过相同风格的基础参考数据，可以理解为用户的需求为非定制化场景下的需求。若用户所输入的基础参考数据，不存在相匹配的目标风格图像生成模型，则表明先前没有用户输入过相同风格的基础参考数据，可以理解为用户的需求为定制化场景下的需求。

可见，基于用户所输入的基础参考数据先检测是否有相匹配的目标风格图像生成模型，在非定制化场景下，避免重复进行模型训练的步骤，能够提升图像的生成效率。

作为一种示例，参见图8，该图为本申请实施例提供的一种生成目标图像的页面示意图。结合图8所示，用户可以输入游戏场景对应的场景文本(例如游戏名称“游戏A”)，可以选择上传具有目标风格的基础参考图片或者基础参考视频，也可以选择所需的目标图像尺寸以及所需的目标图像数量，当用户输入或选取上述基础参考数据后，用户可以点击控件“生成”，稍等片刻，目标图像展示页面即会展示出具有目标风格的目标图像。可见，用户仅需输入基础参考数据，操作简单。

为了便于理解，下面结合实际场景对于本申请实施例提供的图像生成方法进行详细介绍。

参见图9，该图为本申请实施例提供的一种具体的图像生成方法的流程图。假设用户所输入的基础参考数据为基础参考视频数据，该基础参考视频数据中的基础参考视频帧的尺寸为16:9，预设尺寸比例为1:1，且基础参考图像的分辨率为640*480，目标分辨率阈值为1024*1024。则该具体的图像生成方法具体可以包括如下步骤：

S901：获取用户输入的基础参考视频数据。

S902：检测图像生成模型库中是否存在与用户输入的基础参考视频数据相匹配的目标风格图像生成模型。

S903：检测到图像生成模型库中不存在目标风格图像生成模型，则从基础参考视频数据中抽取多张基础参考视频帧。

S904：通过人脸识别算法识别每张基础参考视频帧中的角色面部区域。

S905：基于每张基础参考视频帧中的角色面部区域，对基础参考图像进行裁剪处理，得到尺寸比例为1:1的多张基础参考角色图像。

S906：采用图片超分辨率算法，对多张基础参考角色图像的分辨率分别进行4倍的放大处理，得到多张训练图像。

S907：采用图片逆向标签算法，根据多张训练图像，生成多张训练图像分别对应的描述文本标签。

S908：根据每张训练图像包括的虚拟角色，确定每张训练图像对应的角色标识标签。

S909：利用每张训练图像对应的角色标识标签和描述文本标签，确定每张训练图像对应的训练标签，得到多个训练样本。

S910：利用多个训练样本对基础图像生成模型进行训练，在训练过程中，调整基础图像生成模型中第一冻结结构对应的低维模型参数。

S911：根据调整后的低维模型参数，确定第一冻结结构对应的目标训练结构。

S912：根据第一冻结结构及其对应的目标训练结构、以及第二冻结结构，确定目标图像生成模型。

S913：获取角色控制姿势。

S914：通过目标图像生成模型，根据参考文本库中包括的参考文本、以及角色控制姿势，生成目标图像。

综上，本申请实施例提供的图像生成方法具体可以包括如下流程，具体可以参见图10所示的一种图像生成方法的流程示意图。结合图10所示，具体可以包括基础参考数据输入阶段、目标预处理阶段、训练标签生成阶段、模型训练阶段以及自动化控制条件生成阶段，最终可以生成多个具有目标风格的目标图像。

此外，可以对本申请实施例提供的图像生成方法以及相关技术中的图像生成方法进行对比实验。实验结果显示：在用户输入基础参考数据后，在单卡V100机器环境下，本申请实施例提供的图像生成方法可以在4分钟之内得到训练样本；而相关技术中人工操作得到训练样本则需要耗时30分钟，本申请实施例的耗时降低到相关技术的13％。此外，本申请在1分钟之内可以生成20张目标图像，其中，满足用户需求的目标图像大约为30％；而相关技术在1分钟之内只可以产生5张目标图像，本申请实施例的图像产能提高为相关技术的4倍。可见，本申请通过自动化生成图像，既大大降低了图像生成所耗费的时间成本，又提高了图像的生成效率。

基于前文实施例提供的图像生成方法，本申请中还相应提供了一种图像生成装置。下面将从功能模块化的角度，对本申请实施例提供的文本生成装置进行具体介绍。

参见图11，该图为本申请实施例提供的一种图像生成装置的结构示意图。如图11所示，该图像生成装置1100，具体可以包括：

数据获取模块1110，用于获取所输入的基础参考数据；基础参考数据对应于目标风格；

样本生成模块1120，用于根据基础参考数据包括的基础参考图像数据，生成训练样本；训练样本中包括基于基础参考图像数据确定的训练图像、以及训练图像对应的训练标签；

模型训练模块1130，用于利用训练样本对基础图像生成模型进行训练，得到目标图像生成模型；基础图像生成模型是预先训练的，其用于执行普适性图像生成任务；目标图像生成模型用于生成具有目标风格的图像；

图像生成模块1140，用于通过目标图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像。

作为一种实施方式，样本生成模块1120，具体可以包括：

预处理单元，用于当基础参考图像数据为多张基础参考图片时，对每张基础参考图片进行目标预处理操作，得到训练图像；当基础参考图像数据为基础参考视频时，从基础参考视频中抽取多张基础参考视频帧，对每张基础参考视频帧进行目标预处理操作，得到训练图像；

标签确定单元，用于针对每张训练图像，采用图片逆向标签算法，根据训练图像，确定训练图像对应的训练标签。

作为一种实施方式，上述目标预处理操作，具体可以包括如下单元：

面部区域识别单元，用于当基础参考图像的尺寸不满足预设尺寸比例时，通过人脸识别算法识别基础参考图像中的角色面部区域；基础参考图像包括基础参考图片、或者基础参考视频帧；

裁剪处理单元，用于基于角色面部区域，对基础参考图像进行裁剪处理，得到满足预设尺寸比例的基础参考角色图像。

分辨率放大单元，用于当基础参考图像的分辨率低于目标分辨率阈值时，采用图片超分辨率算法，按照目标分辨率倍数对基础参考图像的分辨率进行放大处理；目标分辨率倍数根据目标分辨率阈值和基础参考图像的分辨率确定；基础参考图像包括基础参考图片、或者基础参考视频帧、或者基于基础参考图片或基础参考视频帧中的角色面部区域确定的基础参考角色图像。

作为一种实施方式，标签确定单元，具体可以包括：

标签生成子单元，用于采用图片逆向标签算法，根据训练图像，生成训练图像对应的描述文本标签；

标识标签确定子单元，用于根据训练图像包括的虚拟角色，确定训练图像对应的角色标识标签；

训练标签确定子单元，用于利用训练图像对应的角色标识标签和描述文本标签，确定训练图像对应的训练标签。

作为一种实施方式，上述基础图像生成模型中包括第一冻结结构和第二冻结结构，第一冻结结构原始的高维模型参数通过对应的低维模型参数表示；

相应地，模型训练模块1130，具体可以包括：

参数调整单元，用于利用训练样本对基础图像生成模型进行训练，，调整基础图像生成模型中第一冻结结构对应的低维模型参数；

结构确定单元，用于根据调整后的低维模型参数，确定第一冻结结构对应的目标训练结构；

模型确定单元，用于根据第一冻结结构及其对应的所述目标训练结构、以及第二冻结结构，确定目标图像生成模型；在目标图像生成模型中，第一冻结结构及其对应的目标训练结构具有各自对应的工作权重。

作为一种实施方式，图像生成模块1140，具体可以包括：

文本组合单元，用于按照预设的输入文本结构，组合参考文本库中不同类型的参考文本，得到多个结构化输入文本；

第一图像生成单元，用于通过目标图像生成模型，根据多个结构化输入文本，生成多个结构化输入文本各自对应的目标图像。

作为一种实施方式，图像生成模块1140，具体可以包括：

姿势获取单元，用于获取角色控制姿势；

第二图像生成单元，用于通过目标图像生成模型，根据参考文本库中包括的参考文本、以及角色控制姿势，生成目标图像。

作为一种实施方式，该图像生成模块1100，还可以包括：

模型检测模块，用于检测图像生成模型库中是否存在与基础参考数据相匹配的目标风格图像生成模型；图像生成模型库包括多种风格各自对应的风格图像生成模型，风格图像生成模型是预先训练的，用于执行其对应的风格的图像生成任务；

目标图像生成模块，用于若存在，则通过目标风格图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像；

步骤执行模块，用于若不存在，则执行根据基础参考数据包括的基础参考图像数据，生成训练样本。

本申请实施例还提供了一种计算机设备，该计算机设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图12，图12是本申请实施例提供的一种终端设备的结构示意图。如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point ofSales，POS)、车载电脑等任意终端设备，以终端为计算机为例：

图12示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图12，计算机包括：射频(Radio Frequency，RF)电路1210、存储器1220、输入单元1230(其中包括触控面板1231和其他输入设备1232)、显示单元1240(其中包括显示面板1241)、传感器1250、音频电路1260(其可以连接扬声器1261和传声器1262)、无线保真(wirelessfidelity，WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1280是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行计算机的各种功能和处理数据。可选的，处理器1280可包括一个或多个处理单元；优选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

在本申请实施例中，该终端所包括的处理器1280还具有以下功能：

获取所输入的基础参考数据；基础参考数据对应于目标风格；

根据基础参考数据包括的基础参考图像数据，生成训练样本；训练样本中包括基于基础参考图像数据确定的训练图像、以及训练图像对应的训练标签；

利用训练样本对基础图像生成模型进行训练，得到目标图像生成模型；基础图像生成模型是预先训练的，其用于执行普适性图像生成任务；目标图像生成模型用于生成具有目标风格的图像；

通过目标图像生成模型，根据参考文本库中包括的参考文本，生成具有目标风格的目标图像。

可选的，所述处理器1280还用于执行本申请实施例提供的图像生成方法的任意一种实现方式的步骤。

参见图13，图13为本申请实施例提供的一种服务器1300的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列指令操作。

服务器1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。

其中，CPU1322用于执行如下步骤：

可选的，CPU1322还可以用于执行本申请实施例提供的图像生成方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种图像生成方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种图像生成方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述基础参考数据包括的基础参考图像数据，生成训练样本，包括：

当所述基础参考图像数据为多张基础参考图片时，对每张所述基础参考图片进行目标预处理操作，得到所述训练图像；当所述基础参考图像数据为基础参考视频时，从所述基础参考视频中抽取多张基础参考视频帧，对每张所述基础参考视频帧进行所述目标预处理操作，得到所述训练图像；

针对每张所述训练图像，采用图片逆向标签算法，根据所述训练图像，确定所述训练图像对应的训练标签。

3.根据权利要求2所述的方法，其特征在于，所述目标预处理操作包括：

当基础参考图像的尺寸不满足预设尺寸比例时，通过人脸识别算法识别所述基础参考图像中的角色面部区域；所述基础参考图像包括所述基础参考图片、或者所述基础参考视频帧；

基于所述角色面部区域，对所述基础参考图像进行裁剪处理，得到满足所述预设尺寸比例的基础参考角色图像。

4.根据权利要求2或3所述的方法，其特征在于，所述目标预处理操作包括：

当基础参考图像的分辨率低于目标分辨率阈值时，采用图片超分辨率算法，按照目标分辨率倍数对所述基础参考图像的分辨率进行放大处理；所述目标分辨率倍数根据所述目标分辨率阈值和所述基础参考图像的分辨率确定；所述基础参考图像包括所述基础参考图片、或者所述基础参考视频帧、或者基于所述基础参考图片或所述基础参考视频帧中的角色面部区域确定的基础参考角色图像。

5.根据权利要求2所述的方法，其特征在于，所述采用图片逆向标签算法，根据所述训练图像，确定所述训练图像对应的训练标签，包括：

采用所述图片逆向标签算法，根据所述训练图像，生成所述训练图像对应的描述文本标签；

根据所述训练图像包括的虚拟角色，确定所述训练图像对应的角色标识标签；

利用所述训练图像对应的所述角色标识标签和所述描述文本标签，确定所述训练图像对应的训练标签。

6.根据权利要求1所述的方法，其特征在于，所述基础图像生成模型中包括第一冻结结构和第二冻结结构，所述第一冻结结构原始的高维模型参数通过对应的低维模型参数表示；所述利用所述训练样本对基础图像生成模型进行训练，得到目标图像生成模型，包括：

利用所述训练样本对所述基础图像生成模型进行训练，在训练过程中，调整所述基础图像生成模型中所述第一冻结结构对应的低维模型参数；

根据调整后的低维模型参数，确定所述第一冻结结构对应的目标训练结构；

根据所述第一冻结结构及其对应的所述目标训练结构、以及所述第二冻结结构，确定所述目标图像生成模型；在所述目标图像生成模型中，所述第一冻结结构及其对应的所述目标训练结构具有各自对应的工作权重。

7.根据权利要求1所述的方法，其特征在于，所述通过所述目标图像生成模型，根据参考文本库中包括的参考文本，生成具有所述目标风格的目标图像，包括：

按照预设的输入文本结构，组合所述参考文本库中不同类型的参考文本，得到多个结构化输入文本；

通过所述目标图像生成模型，根据所述多个结构化输入文本，生成所述多个结构化输入文本各自对应的所述目标图像。

8.根据权利要求1或7所述的方法，其特征在于，所述通过所述目标图像生成模型，根据参考文本库中包括的参考文本，生成具有所述目标风格的目标图像，包括：

获取角色控制姿势；

通过所述目标图像生成模型，根据所述参考文本库中包括的参考文本、以及所述角色控制姿势，生成所述目标图像。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

检测图像生成模型库中是否存在与所述基础参考数据相匹配的目标风格图像生成模型；所述图像生成模型库包括多种风格各自对应的风格图像生成模型，所述风格图像生成模型是预先训练的，用于执行其对应的风格的图像生成任务；

若存在，则通过所述目标风格图像生成模型，根据参考文本库中包括的参考文本，生成具有所述目标风格的目标图像；

若不存在，则执行所述根据所述基础参考数据包括的基础参考图像数据，生成训练样本。

10.一种图像生成装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至9中任一项所述的图像生成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至9中任一项所述图像生成方法。