CN118015111A

CN118015111A - 一种图像生成方法、装置、设备、存储介质以及程序产品

Info

Publication number: CN118015111A
Application number: CN202311860347.9A
Authority: CN
Inventors: 王志浩; 周彧聪; 杨斌
Original assignee: Beijing Xiyu Jizhi Technology Co ltd
Current assignee: Beijing Xiyu Jizhi Technology Co ltd
Priority date: 2023-12-31
Filing date: 2023-12-31
Publication date: 2024-05-10

Abstract

本公开提供了一种图像生成方法、装置、设备、存储介质以及程序产品，该方法包括：通过标签提取模型分别从智能体图像和/或智能体人设中获取智能体的标签信息；获取主题信息；通过语言模型根据所述标签信息和所述主题信息生成场景描述；通过文生图模型根据所述场景描述生成一帧人工智能图像，所述人工智能图像中包含所述智能体。通过本公开提供的方法，能够生成质量较好的AI图形。

Description

一种图像生成方法、装置、设备、存储介质以及程序产品

技术领域

本说明书涉及文生图技术领域，尤其涉及一种图像生成方法、装置、设备、存储介质以及程序产品。

背景技术

生成式人工智能(Artificial Intelligence Generated Content, AIGC)是指基于生成对抗网络、大型预训练模型等人工智能的技术方法，通过已有数据的学习和识别，以适当的泛化能力生成相关内容的技术。AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习，AIGC可以根据用户输入的文字描述，生成与之相关的内容。然而，用户输入的文字描述通常比较单薄，导致所生成的AI图像的质量较差。

发明内容

本说明书实施例提供了一种图像生成方法、装置、设备和计算可读存储介质、计算机程序产品，能够生成质量较好的AI图形。

第一方面，本说明书一个或多个实施例提供一种图像生成方法，该方法包括：通过标签提取模型分别从智能体图像和/或智能体人设中获取所述智能体的标签信息；获取主题信息；通过语言模型根据所述标签信息和所述主题信息生成场景描述；通过文生图模型根据所述场景描述生成一帧人工智能图像，所述人工智能图像中包含所述智能体。

根据本说明书一些实施例提供的图像生成方法，所述获取主题信息包括：获取预先设定的主题信息；或者，随机生成所述主题信息；或者，根据所述智能体的标签信息获取所述主题信息。

根据本说明书一些实施例提供的图像生成方法，所述主题信息包括以下至少一项：日常场景主题、节日主题、职业主题、兴趣主题。

根据本说明书一些实施例提供的图像生成方法，所述主题信息包括至少两类主题信息，且不同类主题信息的等级不同。

根据本说明书一些实施例提供的图像生成方法，还包括：通过所述语言模型根据所述标签信息和所述不同类主题信息分别生成不同的场景描述；通过所述文生图模型分别根据所述不同的场景描述生成对应每一类主题信息的多帧AI图像；其中，不同等级的主题信息所对应的所述AI图像的数量不同，等级越高的主题类型对应的所述AI图像的数量越少。

根据本说明书一些实施例提供的图像生成方法，所述标签信息包括所述智能体的以下至少一种标签信息：年龄、职业、性格、兴趣、身材、衣服、动作、表情。

根据本说明书一些实施例提供的图像生成方法，所述通过语言模型根据所述标签信息和所述主题信息生成场景描述，包括：根据所述标签信息和所述主题信息生成至少一项以下补充信息：场景信息、构图信息、智能体的姿态信息、服装配饰信息，所述场景描述包括所述补充信息。

根据本说明书一些实施例提供的图像生成方法，还包括：通过风格提取模型从所述智能体图像获取图像风格信息；所述通过文生图模型根据所述场景描述生成一帧人工智能图像，包括：通过所述文生图模型，根据所述场景描述和所述图像风格信息生成一帧人工智能图像。

根据本说明书一些实施例提供的图像生成方法，所述风格信息包括以下至少一项：配色信息、局部纹理信息、材质信息、笔触信息、光照信息、构图信息。

根据本说明书一些实施例提供的图像生成方法，还包括：从所述智能体图像获取所述智能体的面部特征，所述通过文生图模型根据所述场景描述生成一帧人工智能图像，包括：通过所述文生图模型，根据所述场景描述和所述面部特征生成一帧人工智能图像。

根据本说明书一些实施例提供的图像生成方法，所述分别从智能体图像和/或智能体人设中获取智能体的标签信息，之前还包括：通过面部提取模型从参考图像中提取目标角色的面部特征；获取用户输入的文字描述；根据所述目标角色的面部特征和所述文字描述生成所述智能体图像。

第二方面，本说明书一个或多个实施例提供了一种图像生成装置，包括：标签提取模型，用于分别从智能体图像和/或智能体人设中获取智能体的标签信息；第一获取模块，用于获取主题信息；语言模型，用于根据所述标签信息和所述主题信息生成场景描述；文生图模型，用于根据所述场景描述生成一帧人工智能图像，所述人工智能图像中包含所述智能体。

第三方面，本说明书一个或多个实施例提供了一种图像生成设备，包括：处理器和存储器，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器处理时，可以使所述处理器执行任意一项所述的方法。

第四方面，本说明书一个或多个实施例提供了一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述电子设备执行任意一项所述的方法。

第五方面，本说明书一个或多个实施例提供了一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现任一项所述的方法。

本说明书实施例提供的一种图像生成方法以及相关装置、设备、计算机可读存储介质和计算机程序产品，通过从智能体图像和/或智能体人设中获取智能体的标签信息，将该标签信息和主题信息先输入到语言模型中以进行场景描述扩写，再根据该场景描述利用文生图模型来生成具有该主题和该智能体的人工智能图像。相比用户直接针对智能体图像撰写场景描述再生成人工智能图像而导致的撰写时长长且撰写质量不稳定导致的生成的人工智能图像质量不稳定，本说明书实施例能够高效快速生成高质量的人工智能图像。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构或步骤。

图1是本说明书的图像生成方法的一种实施例的流程示意图。

图2是本说明书的图像生成方法的另一种实施例的流程示意图。

图3是本说明书的图像生成方法的另一种实施例的流程示意图。

图4是本说明书的图像生成装置的一种实施例的示意框图。

图5是本说明书的图像生成设备的一种实施例的结构示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将结合附图对实施例进行详细介绍。显而易见地，下面描述的内容是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些技术内容将本说明书披露的技术方案或手段应用于其它情景。

应当理解，本说明书使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

在无特别说明的情况下，本说明书中描述组件、元件等的技术术语并非特指单数，也可包括复数。一般说来， “包括”、“包含”等术语仅提示包括已明确标识的步骤、元素或组件，而这些步骤、元素和组件不构成排它性的罗列，如所描述的方法或者设备也可能包含其它的步骤或组件。

还应当理解，本说明书中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。尽管在本说明书可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本说明书的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本说明书中使用了流程图用来说明相关实施例的装置或系统所执行的操作步骤，但在无特别说明的情况下，描述这些步骤时所采用的顺序不应被理解为对步骤执行顺序的限制。本领域的普通技术人员可以根据本说明书实施例所传达的知识信息对这些步骤的执行顺序进行调整，所述调整包括但不限于先后关系的对调、多个步骤的合并以及某步骤的拆分。

图1是本说明书的图像生成方法的一种实施例的流程示意图。如图1所示，该图像生成方法包括以下步骤。

步骤S101，通过标签提取模型分别从智能体图像和/或智能体人设中获取智能体的标签信息。

智能体可以是一个虚拟形象，本说明书中的图像生成方法可以应用于虚拟社交中，基于AI技术用户创造一个智能体，该智能体能够和用户沟通互动，给与用户沉浸式社交体验。可选地，该智能体可以是人物也可以是动物。例如，该智能体可以是用户基于小说或影视作品中的人物或动物所创建的角色，或者是基于日常生活中所遇到的人物或者动物所创建的角色等等。创建该智能体的方式有多种，例如，获取用户所输出的文字描述，该文字描述包括对智能体的描述，例如性别、职业、样貌、穿着等描述；通过文生图模型根据该文字描述生成AI图像。智能体图像可以是该AI图像。

智能体人设可以是通过获取用户输入的文字描述来确定并存储；或者可以是通过生成多种文字描述模板，根据用户所选择的文字描述模板来确定智能体人设并存储。其中，生成文字描述模板的方式也有多种，例如可以预先存储好不同的文字描述模板，或者根据用户输入的关键词来扩充内容，生成相应的文字描述模板。

获取到智能体图像和/或智能体人设后，可以通过训练好的标签提取模型从中提取出与智能体相关的信息作为标签信息，该标签信息可以包括智能体的年龄、职业、性格、兴趣、身材、衣服、动作、表情等等信息。

步骤S102，获取主题信息。

可选地，主题信息可以包括以下主题中的至少一种：日常场景主题、节日主题、职业主题、兴趣主题。其中，日常场景主题可以包括日常生活中的任何一个场景，例如上课、运动、下厨等等。节日主题可以包含任意一个节日，例如圣诞节、春节等等。职业主题可以包括任意一种职业，例如厨师、老师等等。兴趣主题可以包括任意一种兴趣爱好，例如滑雪、跳舞等等。

可选地，主题信息可以是预设好的，或者是随机生成的，或者是根据所述智能体的标签信息生成的。例如，根据智能体的性别或者职业或者兴趣爱好生成与该智能体相关性更强的主题信息。例如，智能体是爱好户外运动的学生，则主题信息可以包含上课主题和户外运动主题。又例如，智能体是喜爱下厨的舞者，则主题信息可以包含演出主题和下厨主题。

步骤S103，通过语言模型根据所述标签信息和所述主题信息生成一段场景描述。

语言模型以该标签信息和主题信息中的内容作为关键字，补充与该标签信息和主题信息相关的构图信息和场景内容元素信息等。一些示例中，语言模型根据所述标签信息和所述主题信息生成至少一项以下补充信息：场景信息、构图信息、智能体的动作表情信息、服装配饰信息，所述场景描述包括所述补充信息。

该场景信息可以包括一些常规的场景内容，例如是室内还是室外，以及相应的一些常规场景元素，例如该场景信息包括智能体在教室内，以及教室内的一些常见物体，例如黑板、书桌等。可选地，该场景信息还包括在常识上与该主题相关的场景元素，例如针对圣诞主题，语言模型所生成的补充信息包括圣诞集市、雪地、麋鹿、圣诞树、圣诞老人中的至少一项元素。构图信息可以包括所生成的图像是远景、中景还是近景，智能体在图像中的位置等等。可选地，可以根据不同场景分别对应的构图规则以及场景信息来补充该构图信息。

例如，标签信息指示智能体为一个16岁的少女，主题信息为圣诞节，则语言模型根据该智能体的信息扩充常识上符合少女和圣诞节的相关场景细节，例如该场景内出现的与圣诞节有关的其他元素、该少女与该圣诞节相关的服装配饰和动作等等，形成细节更丰富的场景描述。

步骤S104，通过文生图模型根据所述场景描述生成一帧人工智能图像，所述人工智能图像中包含所述智能体。

在一些实施例中，从智能体图像中提取的智能体的标签信息还包括该智能体的面部特征，以便文生图模型可以生成包含该智能体的人工智能图像。

本说明书实施例中，通过从智能体图像和/或智能体人设中获取智能体的标签信息，将该标签信息和主题信息先输入到语言模型中以进行场景描述扩写，再根据该场景描述利用文生图模型来生成具有该主题和该智能体的人工智能图像。相比用户直接针对智能体图像撰写场景描述再生成人工智能图像而导致的撰写时长长且撰写质量不稳定导致的生成的人工智能图像质量不稳定，本说明书实施例能够高效快速生成高质量的人工智能图像。

在上述实施例中，通过标签提取模型从智能体图像获取智能体的标签信息中还包括智能体的面部特征。在一些实施例中，也可以不是通过标签提取模型，而是针对面部特征提取单独训练的面部提取模型来对智能体图像提取面部特征，并将提取出的面部特征输入该文生图模型，以便该文生图模型能够更加准确地生成具有该智能体的人工智能图像。

图2是本说明书的图像生成方法的另一种实施例的流程示意图。如图2所示，该图像生成方法包括以下步骤。

步骤S201，通过面部提取模型从所述智能体图像获取所述智能体的面部特征。

在一些实施例中，该面部提取模型可以是针对人脸提取所训练的映射（embedding）空间模型，将智能体图像输入该面部提取模型后，该面部提取模型基于该智能体的面部特征生成相应的映射空间，该映射空间有上千维的向量组成。将场景描述和该映射空间一同输入到文生图模型中，可以生成一帧以该智能体为主角的AI图像。可选地，该映射空间模型可以采用现成的模型架构BIT训练得到。该映射空间模型具有很好的泛化能力和鲁棒性，而且可以使映射空间模型只需要一张智能体图像的输入，就能够快速、有效地提取出面部特征，而不是如传统模型中需要多张图片输入才能提取出面部特征。

步骤S202，通过标签提取模型分别从智能体图像和/或智能体人设中获取智能体的标签信息。

步骤S203，获取主题信息。

步骤S204，通过语言模型根据所述标签信息和所述主题信息生成场景描述。

关于步骤S202-204的描述可参考步骤S101-103的描述，在此不再赘述。

步骤S205，通过所述文生图模型，根据所述场景描述和所述面部特征生成一帧人工智能图像。

智能体创建的方式有多种。在一些实施例中，步骤S101中的智能体图像是文生图模型根据用户输入的文字描述所生成的AI图像。可选地，在步骤S101之前，在生成智能体图像时，除了获取用户输出的文字描述，还可以获取用户指定的参考图像，以及提取参考图像中角色的面部特征；文生图模型根据用户输出的文字描述以及该获取到的面部特征来生成智能体图像。在一些实施例中，智能体图像中智能体的面部可以和参考图像中的面部相同，也可以是神似。其中，可以理解的是，智能体图像中智能体的面部和参考图像中的面部相同，可以是指表情神态完全一致，或者也可以是同一个人或动物在不同角度、不同神态或者不同表情下的面部。

在一些实施例中，在参考图像中具有至少两个角色时，用户可以选择其中一个角色，在提取参考图像中角色的面部特征时具体包括提取用户所选择的角色的面部特征；或者，在用户选择两个或更多个角色时，也可以提取该选择的至少两个角色的面部特征。文生图模型根据用户输出的文字描述以及该至少两个角色的面部特征来生成智能体图像。在该示例中，所生成的智能体图像中的智能体的面部特征融合了该至少两个角色的面部特征。可选地，用户还可以指定不同角色的权重，文生图模型在生成智能体图像时，还可以根据不同角色的权重来对该至少两个角色的面部特征进行融合，其中某个角色的权重越大，则文生图模型越多地参考该角色的面部特征来生成智能体。一些示例中，在参考图像具有至少两个角色的情况下，也可以不用用户选择角色或者指定角色的权重，而是默认为融合参考图像中所有角色的面部特征来生成智能体图像。

在一些实施例中，用户可能还希望所生成的人工智能图像的风格和智能体图像的风格一致。图3是本说明书的图像生成方法的另一种实施例的流程示意图。如图3所示，该方法包括以下步骤。

步骤S301，通过风格提取模型从智能体图像获取图像风格信息。

在一些实施例中，该图像风格信息可以包括以下信息中的至少一项：配色信息、局部纹理信息、材质信息、笔触信息、光照信息、构图信息。在一些实施例中，风格提取模型为针对风格提取所训练的映射（embedding）空间模型。该映射空间模型可以采用现有的模型架构BIT，通过不同风格的图像训练而成，例如通过不同类型的插图、绘画、摄影等作品训练而成。

步骤S302，通过标签提取模型分别从智能体图像和/或智能体人设中获取智能体的标签信息。

步骤S303，获取主题信息。

步骤S304，通过语言模型根据所述标签信息和所述主题信息生成场景描述。

关于步骤S302-304的描述可参考步骤S101-103的描述，在此不再赘述。

步骤S305，通过所述文生图模型，根据所述场景描述和所述图像风格信息生成一帧人工智能图像。

在一些实施例中，风格提取模型是通过对一个针对风格的映射（embedding）空间模型进行训练得到的。该映射空间模型可以采用现有的模型架构BIT。该映射空间模型的训练数据可以包含不同风格的图像作品，例如包括各种风格的插图、绘画、美术或摄影作品等等。该映射空间模型具有很好的风格学习能力、泛化能力和鲁棒性，能够从一张或少数张参考图像中快速习得风格信息。当参考图像输入到风格提取模型后，风格提取模型基于参考图像输出具有多个维度（例如上千维度）的向量的映射空间来体现该参考图像的风格信息。

本实施例中，将步骤S301中所提取的风格信息连同场景描述一起输入到所述文生图模型中，能够让文生图模型所生成的AI图像延续智能体图像的风格。

在一些实施例中，提取模型除提取风格信息外，还会同时提取智能体的面部特征，通过风格和面部特征的保持，利用语言模型来生成文字描述以改变智能体的服装和场景，可以生成不同的AI图像。这些AI图像可以作为智能体的不同皮肤与用户互动，以让用户产生更强的沉浸体验感。

在一些实施例中，所获取到的主题信息可以包括至少两种，而且不同类主题信息的等级不同。对于获取到的至少两类主题信息中的每一类主题信息，通过所述语言模型根据所述标签信息和该类主题信息生成不同的场景描述，以及通过所述文生图模型分别根据所述不同的场景描述生成对应每一类主题信息的多帧AI图像。而且，所生成的对应每一类主题信息的AI图像的具体数量和该主题信息的等级相关，不同等级的主题信息所对应的AI图像的数量不同，且等级越高的主题类型对应的所述AI图像的数量越少。例如，节日主题相比日常场景主题更加稀缺，在生成AI图像时，控制所生成对应节日主题的AI图像的数量少于对应日常场景主题的AI图像。可选地，不同类型的主题信息分别对应的AI图像的数量比例可以是预先设定的。

图4是本说明书的图像生成装置的一个实施例的示意框图。如图4所示，该图像生成装置400包括标签提取模型401、第一获取模块402、语言模型403、文生图模型404。

标签提取模型401，用于分别从智能体图像和/或智能体人设中获取智能体的标签信息。

第一获取模块402，用于获取主题信息。

语言模型403，用于根据所述标签信息和所述主题信息生成场景描述。

文生图模型404，用于根据所述场景描述生成一帧人工智能图像，所述人工智能图像中包含所述智能体。

在一些实施例中，第一获取模块402在获取主题信息时，具体用于：获取预先设定的主题信息；或者，随机生成所述主题信息；或者，根据所述智能体的标签信息获取所述主题信息。

可选地，所述主题信息包括以下主题中的至少一项：日常场景主题、节日主题、职业主题、兴趣主题。

可选地，所述主题信息可以包括至少两类主题信息，且不同类主题信息的等级不同。语言模型403还用于根据所述标签信息和所述不同类主题信息分别生成不同的场景描述。文生图模型404还用于分别根据所述不同的场景描述生成对应每一类主题信息的多帧AI图像。其中，不同等级的主题信息所对应的所述AI图像的数量不同，等级越高的主题类型对应的所述AI图像的数量越少。

可选地，所述标签信息包括所述智能体的以下至少一种标签信息：年龄、职业、性格、兴趣、身材、衣服、动作、表情。

在一些实施例中，语言模型403在根据所述标签信息和所述主题信息生成场景描述时，具体用于：根据所述标签信息和所述主题信息生成至少一项以下补充信息：场景信息、构图信息、智能体的姿态信息、服装配饰信息，所述场景描述包括所述补充信息。

在一些实施例中，装置400还包括：风格提取模型，用于从所述智能体图像获取图像风格信息。文生图模型404在根据所述场景描述生成一帧人工智能图像时，具体用于：通过文生图模型，根据所述场景描述和所述图像风格信息生成一帧人工智能图像。

可选地，所述风格信息包括以下至少一项：配色信息、局部纹理信息、材质信息、笔触信息、光照信息、构图信息。

在一些实施例中，装置400还包括：面部提取模型，用于从所述智能体图像获取所述智能体的面部特征。文生图模型404在根据所述场景描述生成一帧人工智能图像时，具体用于：根据所述场景描述和所述面部特征生成一帧人工智能图像。

在一些实施例中，装置400还包括：面部提取模型，用于在分别从智能体图像和/或智能体人设中获取智能体的标签信息之前，从参考图像中提取目标角色的面部特征；第二获取模块，用于获取用户输入的文字描述。文生图模型204用于根据所述目标角色的面部特征和所述文字描述生成所述智能体图像。

本说明书一些实施例还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被电子设备（或服务器等）的处理器执行时，使处理器执行根据本说明书实施例所示的上述方法的各个步骤的部分或全部。

本说明书一些实施例还可以实施为一种计算机程序产品，包括计算机程序或计算机可执行指令。所述计算机程序或计算机可执行指令被处理器执行时，实现本说明书的上述方法的各个步骤的部分或全部。

图5为本说明书实施例提供的一种电子设备的结构示意图。如图5所示，所述电子设备500包括处理器501和存储器502。存储器502用于存储计算机程序。处理器501用于在调用所述计算机程序时执行上述的编辑文本的方法。进一步地，电子设备还可包括总线、麦克风、扬声器、显示器和摄像头。其中，处理器501、存储器502、麦克风、扬声器、显示器和摄像头通过总线进行通信，也可以通过无线传输等其他手段实现通信。

可以理解的是，本说明书的实施例中的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本说明书的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本说明书实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本说明书的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本说明书的实施例的范围。

以上已经描述了本说明书的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种图像生成方法，其特征在于，包括：

通过标签提取模型分别从智能体图像和/或智能体人设中获取所述智能体的标签信息；

获取主题信息；

通过语言模型根据所述标签信息和所述主题信息生成场景描述；

通过文生图模型根据所述场景描述生成一帧人工智能图像，所述人工智能图像中包含所述智能体。

2.根据权利要求1所述的图像生成方法，其特征在于，所述获取主题信息包括：

获取预先设定的主题信息；或者

随机生成所述主题信息；或者

根据所述智能体的标签信息获取所述主题信息。

3.根据权利要求1所述的图像生成方法，其特征在于，所述主题信息包括以下至少一项：日常场景主题、节日主题、职业主题、兴趣主题。

4.根据权利要求1所述的图像生成方法，其特征在于，所述主题信息包括至少两类主题信息，且不同类主题信息的等级不同；

所述方法还包括：

通过所述语言模型根据所述标签信息和所述不同类主题信息分别生成不同的场景描述；

通过所述文生图模型分别根据所述不同的场景描述生成对应每一类主题信息的多帧AI图像；

其中，不同等级的主题信息所对应的所述AI图像的数量不同，等级越高的主题类型对应的所述AI图像的数量越少。

5.根据权利要求1所述的图像生成方法，其特征在于，所述标签信息包括所述智能体的以下至少一种标签信息：年龄、职业、性格、兴趣、身材、衣服、动作、表情。

6.根据权利要求1所述的图像生成方法，其特征在于，所述通过语言模型根据所述标签信息和所述主题信息生成场景描述，包括：

根据所述标签信息和所述主题信息生成至少一项以下补充信息：场景信息、构图信息、智能体的姿态信息、服装配饰信息，所述场景描述包括所述补充信息。

7.根据权利要求1所述的图像生成方法，其特征在于，所述方法还包括：

通过风格提取模型从所述智能体图像获取图像风格信息;

所述通过文生图模型根据所述场景描述生成一帧人工智能图像，包括：

通过所述文生图模型，根据所述场景描述和所述图像风格信息生成一帧人工智能图像。

8.根据权利要求7所述的图像生成方法，其特征在于，所述风格信息包括以下至少一项：

配色信息、局部纹理信息、材质信息、笔触信息、光照信息、构图信息。

9.根据权利要求1所述的图像生成方法，其特征在于，所述方法还包括：

通过面部提取模型从所述智能体图像获取所述智能体的面部特征，

通过所述文生图模型，根据所述场景描述和所述面部特征生成一帧人工智能图像。

10.根据权利要求1所述的图像生成方法，其特征在于，所述分别从智能体图像和/或智能体人设中获取智能体的标签信息，之前还包括：

通过面部提取模型从参考图像中提取目标角色的面部特征；

获取用户输入的文字描述；

根据所述目标角色的面部特征和所述文字描述生成所述智能体图像。

11.一种图像生成装置，其特征在于，包括：

标签提取模型，用于分别从智能体图像和/或智能体人设中获取智能体的标签信息；

第一获取模块，用于获取主题信息；

语言模型，用于根据所述标签信息和所述主题信息生成场景描述；

文生图模型，用于根据所述场景描述生成一帧人工智能图像，所述人工智能图像中包含所述智能体。

12.一种图像生成设备，其特征在于，包括：

处理器和存储器，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器处理时，可以使所述处理器执行如权利要求1至10中任意一项所述的方法。

13.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述电子设备执行如权利要求1至10中任意一项所述的方法。

14.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时，实现权利要求1至10任一项所述的方法。