CN117173497B

CN117173497B - 一种图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN117173497B
Application number: CN202311450018.7A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-02-27
Anticipated expiration: 2043-11-02
Also published as: CN117173497A

Abstract

本申请涉及一种图像生成方法、装置、电子设备及存储介质。该方法包括：获取包含有目标表情对象的原始表情图像和包含有目标表情控制维度对应的表情细节信息的图像描述文本；将图像描述文本输入先验特征提取模型，得到先验图像特征；将先验图像特征输入表情特征生成模型进行表情细节控制，生成目标表情对象对应的目标表情特征；将原始表情图像和目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像；其中，表情特征生成模型是基于多种预设表情控制维度对应的样本表情细节信息和多维表情控制模型，指导预设表情特征生成模型进行表情细节控制学习后得到的。利用本申请提供的方案可以提升表情图像的细节控制精准性和内容丰富性。

Description

一种图像生成方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像生成方法、装置、电子设备及存储介质。

背景技术

随着移动互联网和社交网络的快速发展，近些年，表情包的分享与传播在各类即时通讯社交场景之中，表情包的使用成为年轻人个性化表达的一种重要方式，表情包可以涉及各种类型的表情内容。

然而，在相关现有技术中，虽然现有的文生图模型也可以通过用户输入的描述性提示文本来生成图像，但生成图像的图像内容不够丰富生动，在表情图像生成的场景中，为了用户能够通过表情图像更好地表达个人情感，需要在表情图像的生成过程中，进行更加精细地表情细节控制。因此，需要提供更精准的图像生成方案。

发明内容

为了解决上述提出的至少一个技术问题，本申请提供了一种图像生成方法、装置、电子设备及存储介质：

根据本申请的第一方面，提供了一种图像生成方法，所述方法包括：

获取包含有目标表情对象的原始表情图像和图像描述文本，所述图像描述文本用于指示生成以所述目标表情对象为表情对象的表情图像，所述图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息；

将所述图像描述文本输入先验特征提取模型进行先验特征提取，得到所述图像描述文本对应的先验图像特征；

将所述先验图像特征输入表情特征生成模型，基于所述先验图像特征进行表情细节控制，生成所述目标表情对象对应的目标表情特征；

将所述原始表情图像和所述目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像；

其中，所述表情特征生成模型是基于多种预设表情控制维度各自对应的样本表情细节信息和所述多种预设表情控制维度对应的多维表情控制模型，指导预设表情特征生成模型进行所述多种预设表情控制维度的表情细节控制学习后得到的；所述目标表情控制维度为所述多种预设表情控制维度中的至少一种预设表情控制维度。

根据本申请的第二方面，提供了一种图像生成装置，所述装置包括：

数据获取模块，用于获取包含有目标表情对象的原始表情图像和图像描述文本，所述图像描述文本用于指示生成以所述目标表情对象为表情对象的表情图像，所述图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息；

先验特征提取模块，用于将所述图像描述文本输入先验特征提取模型进行先验特征提取，得到所述图像描述文本对应的先验图像特征；

表情特征生成模块，用于将所述先验图像特征输入表情特征生成模型，基于所述先验图像特征进行表情细节控制，生成所述目标表情对象对应的目标表情特征；

表情图像生成模块，用于将所述原始表情图像和所述目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像；

根据本申请的第三方面，提供了一种电子设备，所述电子设备包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现如第一方面所述的图像生成方法。

根据本申请的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的图像生成方法。

根据本申请的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的图像生成方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

实施本申请，具有以下有益效果：

利用本申请提供的技术方案，通过获取包含有目标表情对象的原始表情图像和图像描述文本，该图像描述文本用于指示生成以目标表情对象为表情对象的表情图像，该图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息，目标表情控制维度可以为多种预设表情控制维度中的至少一种预设表情控制维度，然后将图像描述文本输入先验特征提取模型进行先验特征提取，得到图像描述文本对应的先验图像特征，由于图像描述文本包含有目标表情控制维度对应的表情细节信息，先验图像特征也可以表征该表情细节信息对应的先验特征，并且先验特征提取模型通过实现文本特征域到图像特征域的映射，将现有技术中基于文本特征到生成图像的一阶段过程，拆分成从文本特征到图像特征再到生成图像的两阶段过程，可以显著降低后续表情特征生成模型的训练难度以及提升表情图像生成效果，接着将先验图像特征输入表情特征生成模型，基于先验图像特征进行表情细节控制，生成目标表情对象对应的目标表情特征，其中，表情特征生成模型是基于多种预设表情控制维度各自对应的样本表情细节信息和多种预设表情控制维度对应的多维表情控制模型，指导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习后得到的，通过多维表情控制模型旁路引导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习，即对预设表情特征生成模型进行微调，使得微调后得到的表情特征生成模型可以快速实现细粒度表情生成控制和已有表情生成能力的复用，从而提升目标表情特征的细节表达的精准性，最后将原始表情图像和目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像，使得输出的目标生成表情图像在拥有精准的表情细节表达和丰富的图像内容的同时，能够保持原始表情图像的显著对象特征。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1示出根据本申请实施例的一种应用环境示意图；

图2示出根据本申请实施例的一种图像生成方法的流程示意图；

图3示出根据本申请实施例的一种先验特征提取模型的结构示意图；

图4示出根据本申请实施例的一种表情特征生成模型的训练过程的流程示意图；

图5示出根据本申请实施例的一种第一表情特征生成模型和第二表情特征生成模型的并联结构示意图；

图6示出根据本申请实施例的一种多维表情控制模型的结构示意图；

图7a示出根据本申请实施例的一种表情控制模块的结构示意图；

图7b示出根据本申请实施例的一种残差特征提取块的结构示意图；

图8示出根据本申请实施例的另一种第一表情特征生成模型和第二表情特征生成模型的并联结构示意图；

图9示出根据本申请实施例的一种表情图像生成模型的结构示意图；

图10示出根据本申请实施例的一种模型训练方案的流程示意图；

图11示出根据本申请实施例的一种细粒度表情图像生成模型的结构示意图；

图12示出根据本申请实施例的一种目标生成表情图像的效果示意图；

图13示出根据本申请实施例的装置框图；

图14示出根据本申请实施例的电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

机器学习(Machine Learning, ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

深度学习：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

自然语言处理（NLP）：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

Transformer：它是一种基于 encoder-decoder（编码器-解码器）结构的模型，主要包含encoder和decoder两部分。它使用自注意力机制来做机器翻译，取得了很好的效果，并且训练速度很快。

生成对抗网络(Generative Adversarial Network，GAN)：生成对抗网络包含一个生成模型和一个判别模型。其中，生成模型负责捕捉样本数据的分布，而判别模型一般情况下是一个二分类器，判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈”问题，训练时固定其中一方（判别网络或生成网络），更新另一个模型的参数，交替迭代，最终，生成模型能够估测出样本数据的分布。生成对抗网络的出现对无监督学习，图片生成的研究起到极大的促进作用。

扩散模型（Diffusion Model）：一种从气体扩散的物理过程中获得灵感的方法，并试图在多个科学领域对同一现象进行建模，一个标准扩散模型有两个主要的过程域:正向扩散和反向扩散。在前向扩散阶段，图像被逐渐引入的噪声污染，直到图像成为完全随机噪声。在反向过程中，利用一系列马尔可夫链在每个时间步逐步去除预测噪声，从而从高斯噪声中恢复数据。

变分自动编码器（Variational autoEncoder，VAE）：一种生成模型，主要目标是从对象的学习分布中生成新的采样数据，该模型可以从隐变量空间的概率分布中学习潜在属性并构造新的元素，图片重建构造当中通常用于辅助模型。

表情图像：也称为表情包，是指用于表达个人情绪的图像，通常用于增强社交媒体或聊天应用中的表情交流。

PGC（Professional Generated Content）：指专业用户生产内容、专家生产内容。也称为PPC（Professionally-produced Content）。

UGC（User Generated Content）：指用户原创内容。

PUGC（Professional User Generated Content）：是以UGC形式，产出的相对接近PGC的专业内容。

MCN（Multi-Channel Network）：是一种多频道网络的产品形态。

请参阅图1，图1示出根据本申请实施例的应用环境示意图，应用环境中可以包括客户端10和服务器端20。客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。相关用户可以通过客户端10向服务器端20发送携带有包含有目标表情对象的原始表情图像和图像描述文本的图像生成请求，该图像描述文本用于指示生成以所述目标表情对象为表情对象的表情图像，该图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息。服务器端20响应于接收到的图像生成请求，先将图像描述文本输入先验特征提取模型进行先验特征提取，得到图像描述文本对应的先验图像特征，然后将先验图像特征输入表情特征生成模型，基于先验图像特征进行表情细节控制，生成目标表情对象对应的目标表情特征，再将原始表情图像和目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像，并向客户端10反馈该目标生成表情图像，其中，表情特征生成模型是基于多种预设表情控制维度各自对应的样本表情细节信息和多种预设表情控制维度对应的多维表情控制模型，指导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习后得到的；目标表情控制维度为多种预设表情控制维度中的至少一种预设表情控制维度。需要说明的是，图1仅仅是一种示例。

客户端10可以是智能手机、电脑（如台式电脑、平板电脑、笔记本电脑）、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、数字助理、智能语音交互设备（如智能音箱）、智能可穿戴设备、智能家电、车载终端等类型的实体设备，也可以是运行于实体设备中的软体，比如计算机程序。客户端10所对应的操作系统可以是安卓系统（Android系统）、iOS系统（是由苹果公司开发的移动操作系统）、linux系统（一种操作系统）、Microsoft Windows系统（微软视窗操作系统）等。

服务器端20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端20可以为对应的客户端提供后台服务。

在实际应用中，本申请实施例提供的图像生成方案可以是客户端独立执行的，也可以是服务器端独立执行的，也可以是客户端和服务器端进行交互以执行的。

需要说明的是，对于与用户信息存在关联关系的待处理内容、样本内容、目标用户集群等，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下介绍本申请一种图像生成方法，图2是本申请实施例提供的一种图像生成方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。具体的，如图2所示，该方法可以包括：

S201，获取包含有目标表情对象的原始表情图像和图像描述文本，图像描述文本用于指示生成以目标表情对象为表情对象的表情图像，图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息；目标表情控制维度为多种预设表情控制维度中的至少一种预设表情控制维度。

在本说明书实施例中，目标表情对象可以为原始表情图像中的表情对象，具体的，表情对象可以包括任意类型的真实生物对象，例如，成年人、宠物猫等。但不仅局限于此，表情对象还可以包括虚拟对象，例如，卡通人物、卡通动物等。本申请的实施例对表情对象的具体类型不做限定，本领域技术人员可以根据实际需求进行选择。

在本说明书实施例中，图像描述文本可以用于指示生成以目标表情对象为表情对象的表情图像，具体的，图像描述文本可以在描述目标表情对象的显著对象信息的基础上，描述目标表情控制维度对应的待生成的表情细节信息。

具体的，显著对象信息可以包括：目标表情对象的对象标识信息和对象类别信息，具体的，对象标识信息可以用于标识目标表情对象，例如，对象标识信息可以包括但不限于：对象身份名称和对象编号等。对象类别信息可以结合实际应用中的对象分类需求进行预先设置，示例性的，对象类型信息可以包括但不限于：男孩、女孩、猫、狗等等。

具体的，目标表情控制维度可以为多种预设表情控制维度中的至少一种预设表情控制维度，具体的，多种预设表情控制维度可以结合实际应用中的表情控制精准度和表情生成质量进行预先设置，示意性的，多种预设表情控制维度可以包括但不限于：情绪控制维度、动作控制维度、服饰控制维度、面部特征控制维度等、风格控制维度、背景控制维度等等。

具体的，表情细节信息可以表征对应目标表情控制维度下的表情细节内容，示意性的，在目标表情控制维度为情绪控制维度的情况下，表情细节信息可以包括：微笑/大笑/哭/生气等，在目标表情控制维度为服饰控制维度的情况下，表情细节信息可以包括：裙子/短袖/西服等。

在一个具体的实施例中，原始表情图像可以为用户输入的含有任意表情对象的表情图像，图像描述文本可以为用户基于原始表情图像中的表情对象输入的针对待生成表情图像的内容描述文本，可选的实施例中，在图像描述文本对应的用户输入页面中可以通过设置输入提示信息的方式，指示用户输入多种预设表情控制维度中至少一种预设表情控制维度对应的表情细节信息。示意性的，原始表情图像中的表情对象为动画人物princess A，图像描述文本可以为：Princess A，one girl，in white dress，with hair down，crying，该图像描述文本中包含有服饰控制维度的表情细节信息（in white dress，白色裙子）和情绪控制维度的表情细节信息（crying，哭）。

S202，将图像描述文本输入先验特征提取模型进行先验特征提取，得到图像描述文本对应的先验图像特征。

在本说明书实施例中，先验特征提取模型可以用于对图像描述文本进行先验特征提取；相应的，先验图像特征可以为对图像描述文本进行文本特征提取和特征域映射后得到的图像域的先验特征。具体的，由于图像描述文本包含有目标表情控制维度对应的表情细节信息，相应的，先验图像特征也可以表征该表情细节信息对应的先验特征。

在一个具体的实施例中，先验图像特征的表现形式可以为图像域（图像空间）的特征向量。

在一个具体的实施例中，如图3所示，上述先验特征提取模型可以包括：第一文本编码器、第二文本编码器和文图特征映射模型，上述将图像描述文本输入先验特征提取模型进行先验特征提取，得到图像描述文本对应的先验图像特征可以包括：

S301，将图像描述文本输入第一文本编码器进行文本语义提取，得到第一文本语义特征，第一文本编码器为经过图文匹配预训练的文本编码器。

在一个具体的实施例中，第一文本编码器可以用于对图像描述文本进行文本特征提取，相应的，第一文本语义特征可以为对图像描述文本进行文本特征提取后得到的与图像域特征对齐的文本语义特征。

在一个具体的实施例中，第一文本语义特征的表现形式可以为文本域（文本空间）的特征向量。

具体的，第一文本编码器可以为预训练图文匹配模型中的文本编码器，这里的预训练图文匹配模型可以为对预设图文匹配模型中的预设文本编码器和预设图像编码器进行特征对齐预训练后得到。可选的实施例中，可以采用对比学习的方式对预设文本编码器和预设图像编码器进行特征对齐训练，可选的，这里的第一文本编码器的模型类型可以包括但不限于：Transformer等，本申请对此不进行特别的限定。

S302，将图像描述文本输入第二文本编码器进行文本语义提取，得到第二文本语义特征，第二文本编码器为经过文本语义提取预训练的文本编码器。

在一个具体的实施例中，第二文本编码器可以用于对图像描述文本进行文本特征提取，相应的，第二文本语义特征可以为对图像描述文本进行文本特征提取后得到的文本语义特征。

在一个具体的实施例中，第二文本语义特征的表现形式可以为文本域（文本空间）的特征向量。

具体的，第二文本编码器可以为仅经过文本语义提取预训练的文本编码器。可选的，这里的第二文本编码器的模型类型可以包括但不限于：Word2Vector、Transformer、Bert等，本申请对此不进行特别的限定。

S303，将第一文本语义特征和第二文本语义特征输入文图特征映射模型进行文图特征映射，得到先验图像特征。

在一个具体的实施例中，文图特征映射模型可以用于将第一文本语义特征和第二文本语义特征从文本域映射至图像域。

可选的，这里的特征映射模型可以采用扩散模型，也可以采用Transformer模型，本申请对此不进行特别的限定。

在一个具体的实施例中，可以将第一文本语义特征和第二文本语义特征进行特征拼接后得到的文本拼接特征输入文图特征映射模型进行文图特征映射，得到先验图像特征。

由以上实施例可见，相关现有技术中，直接将文本域特征输入表情特征生成模型的方案，其输出结果在图文一致性上存在明显的缺陷，一方面，通过先验特征提取模型中的两种文本编码器对图像描述文本进行文本语义提取，可以实现更强的文本语意理解和提取能力，另一方面，通过先验特征提取模型中的文图特征映射模型进行文本特征域到图像特征域的映射，将图像域的先验特征作为后续表情特征生成模型的输入特征进行表情特征生成，可以显著降低后续表情特征生成模型的训练难度以及提升表情图像生成效果。

S203，将先验图像特征输入表情特征生成模型，基于先验图像特征进行表情细节控制，生成目标表情对象对应的目标表情特征；其中，表情特征生成模型是基于多种预设表情控制维度各自对应的样本表情细节信息和多种预设表情控制维度对应的多维表情控制模型，指导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习后得到的。

在本说明书实施例中，目标表情特征可以为基于先验图像特征进行表情细节控制后生成的表情特征，该目标表情特征可以适用于原始表情图像中的目标表情对象。

在一个具体的实施例中，目标表情特征的表现形式可以为目标表情特征向量，可选的实施例中，目标表情特征向量可以为潜在空间的特征向量。

在一个具体的实施例中，表情特征生成模型可以在基于先验图像特征进行表情特征生成的过程中，基于先验图像特征包含有表情细节信息对应的先验特征，进行表情细节控制，从而使得生成的目标表情特征能够更好地表征表情细节信息。

在一个具体的实施例中，上述将先验图像特征输入表情特征生成模型，基于先验图像特征进行表情细节控制，生成目标表情对象对应的目标表情特征可以包括：

将先验图像特征和预设加噪图像特征输入表情特征生成模型，基于先验图像特征，引导预设加噪图像特征进行针对目标表情控制维度的去噪处理，得到目标表情特征。

在一个具体的实施例中，表情特征生成模型的核心结构可以为基于马尔可夫链的扩散模型，在一些实施例中，扩散模型的前向过程又称为扩散过程，用于逐次往输入数据中加入噪声，直至输入数据趋近于纯噪声数据，可选的，这里的纯噪声数据可以为随机高斯噪声；扩散模块的后向过程用于根据约束条件，逐次对纯噪声数据进行噪声去除，从而生成去噪数据，使去噪数据满足约束条件的约束要求。示意性的，表情扩散模型的模型结构可以包括但不限于：U-net结构、Transformer结构等。

由以上实施例可见，由于图像描述文本包含有目标表情控制维度对应的表情细节信息，先验图像特征也可以表征该表情细节信息对应的先验特征，将先验图像特征输入表情特征生成模型，基于先验图像特征，引导预设加噪图像特征进行针对目标表情控制维度的去噪处理，得到目标表情对象对应的目标表情特征，可以提升目标表情特征的细节表达的精准性。

在相关现有技术中，虽然现有的文生图模型也可以通过用户输入的描述性提示文本来生成图像，但生成图像的表征细粒度通常较大，图像内容不够丰富生动，在本申请的表情图像生成的场景中，为了用户能够通过表情图像更好地表达个人情感，需要在表情图像的生成过程中，进行更加精细地表情细节控制，从而要求表情特征生成模型具备对表情细节精细控制的能力，因此在本申请实施例中，基于多种预设表情控制维度各自对应的样本表情细节信息和多种预设表情控制维度对应的多维表情控制模型，旁路引导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习，即对预设表情特征生成模型进行微调，使得微调后得到的表情特征生成模型可以快速实现细粒度表情生成控制和已有表情生成能力的复用。

在一个具体的实施例中，如图4所示，上述表情特征生成模型可以通过如下方式进行训练得到：

S401，对预设表情特征生成模型进行模型参数复制，得到并联的第一表情特征生成模型和第二表情特征生成模型。

在一个具体的实施例中，上述预设表情特征生成模型可以为进行过表情特征生成预训练的基础表情特征生成模型，该基础表情特征生成模型具有基础的表情特征生成能力，可选的实施例中，预设表情特征生成模型可以为现有技术中任意具有表情特征生成能力的人工智能模型。示意性的，预设表情特征生成模型的模型类型可以包括但不限于：Latent Diffusion（潜在扩散模型）、GLIDE（Guided Language to Image Diffusion forGeneration and Editing）模型等。预设表情特征生成模型的模型结构可以包括但不限于：U-Net结构、Transformer结构等。

在一个具体的实施例中，上述对预设表情特征生成模型进行模型参数复制，得到并联的第一表情特征生成模型和第二表情特征生成模型可以包括：

S4011，对预设表情特征生成模型的部分模型结构进行模型参数复制，得到第一表情特征生成模型；

S4012，对预设表情特征生成模型的完整模型结构进行模型参数复制，得到第二表情特征生成模型；

S4013，对第一表情特征生成模型和第二表情特征生成模型进行并联。

在一个具体的实施例中，第一表情特征生成模型可以为对预设表情特征生成模型的部分模型结构进行模型参数复制后得到的模型，在本申请实施例中，通过对第一表情特征生成模型进行表情细节控制学习，来实现对预设表情特征生成模型的微调。

在一个具体的实施例中，第二表情特征生成模型可以为对预设表情特征生成模型的完整模型结构进行模型参数复制后得到的模型，在本申请实施例中，第二表情特征生成模型用于保留预设表情特征生成模型的已有表情生成能力。

S402，获取包含有样本表情细节信息的第一样本图像描述文本对应的第一样本先验图像特征，以及样本加噪图像特征。

具体的，这里的第一样本先验图像特征的获取方式可以参见步骤S301至S303的先验图像特征的提取过程，在此不再赘述。

在一些实施例中，样本加噪图像特征可以为随机高斯噪声特征图。在另一些实施例中，样本加噪图像特征可以为对第一样本图像的加噪图像进行图像特征提取后得到的，这里的第一样本图像可以为与第一样本图像描述文本图文匹配的样本图像。

S403，在基于第一样本先验图像特征、样本加噪图像特征和样本加噪图像特征对应的预设添加噪声信息，控制第一表情特征生成模型和第二表情特征生成模型进行表情特征生成的过程中，利用多维表情控制模型向第一表情特征生成模型引入样本表情细节信息，以使第一表情特征生成模型进行表情细节控制学习，得到第一训练模型。

在一个具体的实施例中，上述预设添加噪声信息可以为随机高斯噪声信息。

在一个具体的实施例中，上述多维表情控制模型可以用于对样本表情细节信息进行特征提取，并将提取到的样本表情细节特征旁路引入第一表情特征生成模型。

在一个具体的实施例中，样本表情细节信息的表现形式可以包括但不限于：样本表情细节图像和样本表情细节文本。

在一个具体的实施例中，第一训练模型可以为对第一表情特征生成模型进行表情细节控制学习后得到的模型。

具体的，在第一表情特征生成模型进行表情细节控制学习的过程中第二表情特征生成模型的模型参数处于冻结状态，不需要更新，能够有效保留已有模型的生成能力。

在一个具体的实施例中，如图5所示，图5示出根据本申请实施例的一种第一表情特征生成模型和第二表情特征生成模型的并联结构示意图，具体的，上述第一表情特征生成模型可以包括：第一编码器，上述第二表情特征生成模型可以包括：第二编码器和解码器。

在一个具体的实施例中，上述在基于第一样本先验图像特征、样本加噪图像特征和样本加噪图像特征对应的预设添加噪声信息，控制第一表情特征生成模型和第二表情特征生成模型进行表情特征生成的过程中，利用多维表情控制模型向第一表情特征生成模型引入样本表情细节信息，以使第一表情特征生成模型进行表情细节控制学习，得到第一训练模型可以包括：

S501，将多种预设表情控制维度各自对应的样本表情细节信息输入多维表情控制模型进行表情细节特征提取，得到样本表情细节特征。

具体的，样本表情细节特征可以为对多种预设表情控制维度对应的样本表情细节信息进行表情细节特征提取后得到的特征，在一个具体的实施例中，样本表情细节特征的表现形式可以为样本表情细节特征向量。

在一个具体的实施例中，上述多维表情控制模型可以包括：多种预设表情控制维度各自对应的表情控制模块，具体的，每种预设表情控制维度对应的表情控制模块可以用于对对应预设表情控制维度的样本表情细节信息进行表情细节特征提取。示意性的，如图6所示，以多种预设表情控制维度包括k种预设表情控制维度为例，k种预设表情控制维度各自对应的样本表情细节信息可以分别表示为C1~Ck，多维表情控制模型可以包括k个表情控制模块，其中，表情控制模块i为k种预设表情控制维度中第i种预设表情控制维度对应的表情控制模块，i=1,...,k。

在一个具体的实施例中，上述将多种预设表情控制维度各自对应的样本表情细节信息输入多维表情控制模型进行表情细节特征提取，得到样本表情细节特征可以包括：

S601，将多种预设表情控制维度中每种预设表情控制维度对应的样本表情细节信息分别输入对应预设表情控制维度的表情控制模块进行表情细节特征提取，得到每种预设表情控制维度对应的目标表情细节特征；

S602，将多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到样本表情细节特征。

具体的，可以预先确定多种预设表情控制维度各自对应的维度权重，根据维度权重对多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到样本表情细节特征。在实际应用中，多种预设表情控制维度各自对应的维度权重可以结合多种预设表情控制维度在表情特征生成过程中的重要性进行设置。

由以上实施例可见，通过将多种预设表情控制维度中每种预设表情控制维度对应的样本表情细节信息分别输入对应预设表情控制维度的表情控制模块进行表情细节特征提取，得到每种预设表情控制维度对应的目标表情细节特征，并对多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到样本表情细节特征，可以在提升每种目标表情细节特征对对应预设表情控制维度的细节表征的精准性的基础上，提升样本表情细节特征的细节表征精准性。

在一个具体的实施例中，每种预设表情控制维度对应的表情控制模块可以包括：像素逆重组层和依次连接的多尺度的残差特征提取层，每种预设表情控制维度对应的目标表情细节特征可以包括：多尺度的残差表情细节特征。示意性的，如图7a所示，以第i种预设表情控制维度对应的表情控制模块i为例，在多尺度的残差特征提取层为三级尺度的残差特征提取层的情况下，第i种预设表情控制维度对应的目标表情细节特征可以包括：三种尺度对应的残差表情细节特征。

在一个可选的实施例中，多尺度的残差特征提取层中相邻尺度的残差特征提取层之间可以通过下采样层进行连接。

在一个具体的实施例中，上述将多种预设表情控制维度中每种预设表情控制维度对应的样本表情细节信息分别输入对应预设表情控制维度的表情控制模块进行表情细节特征提取，得到每种预设表情控制维度对应的目标表情细节特征可以包括：

S6011，将每种预设表情控制维度对应的样本表情细节信息输入对应预设表情控制维度的像素逆重组层进行像素逆重组处理，得到每种预设表情控制维度对应的初始细节特征。

具体的，像素逆重组层可以用于对样本表情细节信息进行像素逆重组处理。每种预设表情控制维度对应的初始细节特征可以为对每种预设表情控制维度对应的样本表情细节信息进行像素逆重组处理后得到的特征。

具体的，像素逆重组处理（Pixel Unshuffle）可以对输入的样本表情细节信息的特征图进行下采样，以缩小特征图，减少模型的计算量。

S6012，基于每种预设表情控制维度对应的多尺度的残差特征提取层，对初始细节特征进行多尺度的残差特征提取，得到每种预设表情控制维度对应的多尺度的残差表情细节特征。

具体的，多尺度的残差特征提取层可以用于对初始细节特征进行多尺度的残差特征提取。多尺度的残差表情细节特征可以为对初始细节特征进行多尺度的残差特征提取后得到的多尺度特征。

在一个可选的实施例中，多尺度的残差特征提取层中每个尺度的残差特征提取层可以包括：第一卷积层和两个残差特征提取块，参见图7b，残差特征提取块可以为残差链接结构的特征提取块，使得模型可以通过跨层的方式传递特征信息。

在一个可选的实施例中，每个残差特征提取块可以包括：残差连接的两个第二卷积层，具体的，每个第二卷积层可以包括：时间卷积块、第一正则化层、非线性映射层和第二正则化层，示意性的，时间卷积块可以包括：膨胀因果卷积块（Dilated Causal Conv），第一正则化层可以包括：WeightNorm层，非线性映射层可以包括：Relu激活函数层，第二正则化层可以包括：Dropout层。

在一个可选的实施例中，两个第二卷积层之间可以通过特征降维层进行残差连接，示意性的，特征降维层可以包括：1×1卷积块。

相应的，上述样本表情细节特征可以包括：多尺度的表情细节特征，上述将多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到样本表情细节特征可以包括：

S6021，将多种预设表情控制维度各自对应的每一尺度的残差表情细节特征分别进行加权融合，得到每一尺度的表情细节特征。

具体的，将多种预设表情控制维度各自对应的每一尺度的残差表情细节特征分别进行加权融合，得到每一尺度的表情细节特征可以包括：

将多种预设表情控制维度各自对应的目标尺度的残差表情细节特征分别进行加权融合，得到目标尺度的表情细节特征，其中，目标尺度可以为多尺度中的一个尺度。

由以上实施例可见，通过多尺度的残差特征提取层提取得到每种预设表情控制维度对应的多尺度的残差表情细节特征，并对多种预设表情控制维度各自对应的每一尺度的残差表情细节特征分别进行加权融合，得到每一尺度的表情细节特征，后续将多级尺度的表情细节特征分别输入第一编码器对应尺度的第一下采样模块，指导第一编码器进行多尺度的表情细节控制学习，从而提升第一编码器的表情细节控制学习的训练效果。

S502，将样本加噪图像特征、第一样本先验图像特征和样本表情细节特征输入第一编码器，基于第一样本先验图像特征和样本表情细节特征，对样本加噪图像特征进行编码，得到第一编码特征。

具体的，第一编码特征可以为基于第一样本先验图像特征和样本表情细节特征，对样本加噪图像特征进行编码后得到的特征。

具体的，基于第一样本先验图像特征和样本表情细节特征，对样本加噪图像特征进行编码，得到第一编码特征可以包括：基于第一样本先验图像特征和样本表情细节特征的拼接特征，对样本加噪图像特征进行编码，得到第一编码特征。

S503，将样本加噪图像特征和第一样本先验图像特征输入第二编码器，基于第一样本先验图像特征，对样本加噪图像特征进行编码，得到第二编码特征。

具体的，第二编码特征可以为基于第一样本先验图像特征对样本加噪图像特征进行编码后得到的特征。

S504，将第一编码特征、第二编码特征和第一样本先验图像特征输入解码器，基于第一样本先验图像特征，对第一编码特征和第二编码特征进行解码，得到样本表情特征。

具体的，样本表情特征可以为基于第一样本先验图像特征，对第一编码特征和第二编码特征进行解码后得到的特征。

具体的，基于第一样本先验图像特征，对第一编码特征和第二编码特征进行解码，得到样本表情特征可以包括：基于第一样本先验图像特征，对第一编码特征和第二编码特征的拼接特征进行解码，得到样本表情特征。

在一个具体的实施例中，上述第一编码器可以包括：依次连接的多尺度的第一下采样模块，上述样本表情细节特征可以包括：多尺度的表情细节特征，上述第一编码特征可以包括：多尺度的第一下采样特征，上述第二编码器可以包括：依次连接的多尺度的第二下采样模块，上述第二编码特征可以包括：多尺度的第二下采样特征，上述解码器可以包括：依次连接的多尺度的上采样模块。示意性的，以多尺度包括三种尺度为例，如图8所示，图8示出根据本申请实施例的另一种第一表情特征生成模型和第二表情特征生成模型的并联结构示意图。

在一个具体的实施例中，上述将样本加噪图像特征、第一样本先验图像特征和样本表情细节特征输入第一编码器，基于第一样本先验图像特征和样本表情细节特征，对样本加噪图像特征进行编码，得到第一编码特征可以包括：

S5021，通过多尺度中每一尺度的第一下采样模块，基于第一样本先验图像特征，对每一尺度的第一下采样模块的输入特征进行下采样特征提取，得到每一尺度的第一下采样特征，其中，第一尺度的第一下采样模块的输入特征为样本加噪图像特征，第二尺度至最后一尺度的第一下采样模块的输入特征为自身的前一尺度的第一下采样特征和自身的前一尺度的表情细节特征；

上述将样本加噪图像特征和第一样本先验图像特征输入第二编码器，基于第一样本先验图像特征，对样本加噪图像特征进行编码，得到第二编码特征可以包括：

S5031，通过每一尺度的第二下采样模块，基于第一样本先验图像特征，对每一尺度的第二下采样模块的输入特征进行下采样特征提取，得到每一尺度的第二下采样特征，其中，第一尺度的第二下采样模块的输入特征为样本加噪图像特征，第二尺度至最后一尺度的第二下采样模块的输入特征为自身的前一尺度的第二下采样特征；

上述将第一编码特征、第二编码特征和第一样本先验图像特征输入解码器，基于第一样本先验图像特征，对第一编码特征和第二编码特征进行解码，得到样本表情特征可以包括：

S5041，通过每一尺度的上采样模块，基于第一样本先验图像特征，对每一尺度的上采样模块的输入特征进行上采样特征提取，得到每一尺度的上采样特征，其中，与最后一尺度的第二下采样模块连接的最后一尺度的上采样模块的输入特征为：最后一尺度的第二下采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征，第一尺度至最后第二尺度的上采样模块的输入特征包括：自身的后一尺度的上采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征；

S5042，将第一尺度的上采样模块输出的上采样特征作为样本表情特征。

由以上实施例可见，通过本实施例提供的并联方案，向第一编码器引入多尺度的表情细节特征，使第一编码器在学习到表情细节如何进行多尺度表征的基础上，学习对表情细节的精准控制，并由第二编码器和解码器来保留预设表情特征生成模型的已有表情生成能力，使得后续微调完成的表情特征生成模型可以快速实现细粒度表情生成控制和已有表情生成能力的复用。

S505，基于第一样本噪声信息和预设添加噪声信息之间的第一噪声损失，训练第一编码器，得到第一训练模型；第一样本噪声信息为样本加噪图像特征与样本表情特征之间的噪声信息。

在一个具体的实施例中，第一噪声损失可以表征第一样本噪声信息和预设添加噪声信息之间的差异。

在一个具体的实施例中，可以基于预设损失函数，确定第一样本噪声信息和预设添加噪声信息之间的第一噪声损失，可选的，预设损失函数可以包括但不限于：负对数似然损失函数、均方误差损失函数等。

在一个具体的实施例中，上述基于第一样本噪声信息和预设添加噪声信息之间的第一噪声损失，训练第一编码器，得到第一训练模型可以包括：

基于第一噪声损失，更新第一编码器的模型参数，得到更新后的第一编码器；

基于更新后的第一编码器，跳转至步骤S501，直至达到噪声预测收敛条件；

将达到噪声预测收敛条件的情况下得到的第一编码器，作为第一训练模型。

在一个可选的实施例中，上述方法还可以包括：基于第一样本噪声信息和预设添加噪声信息之间的第一噪声损失，训练多维表情控制模型和第一编码器，得到训练后的多维表情控制模型和第一训练模型。

在一个具体的实施例中，上述基于第一样本噪声信息和预设添加噪声信息之间的第一噪声损失，训练多维表情控制模型和第一编码器，得到训练后的多维表情控制模型和第一训练模型可以包括：

基于第一噪声损失，更新多维表情控制模型的模型参数和第一编码器的模型参数，得到更新后的多维表情控制模型和更新后的第一编码器；

基于更新后的多维表情控制模型和更新后的第一编码器，跳转至步骤S501，直至达到噪声预测收敛条件；

将达到噪声预测收敛条件的情况下得到的多维表情控制模型和第一编码器，作为训练后的多维表情控制模型和第一训练模型。

在一个可选的实施例中，上述达到噪声预测收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的，达到噪声预测收敛条件也可以为第一噪声损失小于指定阈值。本说明书实施例中，预设训练次数和指定阈值可以结合实际应用中对网络的训练速度和精准度预先设置。

由以上实施例可见，在对预设表情特征生成模型进行微调（表情细节控制学习）的过程中，仅需要学习并更新编码器部分的模型参数，其余模型参数处于冻结状态，在有效保留模型已有生成能力的同时，可以提升模型的微调效率。

S404，将第一训练模型的模型参数和第二表情特征生成模型的模型参数进行逐层拼接，得到目标模型参数。

S405，基于目标模型参数，更新预设表情特征生成模型的模型参数，得到表情特征生成模型。

在一个具体的实施例中，上述预设表情特征生成模型可以包括：预设编码器和预设解码器，上述第一表情特征生成模型可以包括：第一编码器，上述第二表情特征生成模型可以包括：第二编码器和解码器，相应的，第一训练模型可以包括：第一训练编码器，上述目标模型参数可以包括：编码器参数和解码器参数，上述将第一训练模型的模型参数和第二表情特征生成模型的模型参数进行逐层拼接，得到目标模型参数可以包括：

S4041，将第一训练编码器的模型参数和第二编码器的模型参数进行拼接处理，得到编码器参数；

S4042，将解码器的模型参数作为解码器参数。

相应的，上述基于目标模型参数，更新预设表情特征生成模型的模型参数，得到表情特征生成模型可以包括：

基于编码器参数和解码器参数，分别更新预设编码器的模型参数和预设解码器的模型参数，得到表情特征生成模型。

由以上实施例可见，通过多维表情控制模型，旁路引导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习，即对预设表情特征生成模型进行微调，使得微调后得到的表情特征生成模型可以快速实现细粒度表情生成控制和已有表情生成能力的复用，从而提升目标表情特征的细节表达的精准性，并且微调后的表情特征生成模型在实际推理阶段可以直接基于先验图像特征中含有的表情细节特征进行表情细节控制，无需再由多维表情控制模型辅助进行表情细节信息的引入，相比现有技术中实际推理阶段需要由额外的条件控制模型引入控制条件以进行特征生成控制的方案，本申请的技术方案在实际推理阶段，可以实现模型规模的精简，从而节约系统资源，提升系统性能。

S204，将原始表情图像和目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像。

具体的，目标生成表情图像可以为将原始表情图像和目标表情特征融合后生成的表情图像。

在一个可选的实施例中，目标生成表情图像可以为与原始表情图像的分辨率大小相同的表情图像。

在一个具体的实施例中，如图9所示，上述表情图像生成模型可以包括：图像编码器、图像特征融合模块和图像解码器，上述将原始表情图像和目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像可以包括：

S2041，将原始表情图像输入图像编码器进行图像特征提取，得到原始表情图像特征。

具体的，原始表情图像特征可以表征原始表情图像对应的图像特征，在一个具体的实施例中，原始表情图像特征的表现形式可以为原始表情图像特征分布。

在一个具体的实施例中，图像编码器可以用于对目标脸部图像进行图像特征提取，示意性的，图像编码器的模型类型可以包括但不限于：VAE编码器、NVAE编码器等。

在一个可选的实施例中，图像编码器可以为多尺度的编码器。

S2042，将原始表情图像特征和目标表情特征输入图像特征融合模块进行图像特征融合处理，得到融合表情图像特征。

具体的，融合表情图像特征可以为对原始表情图像特征和目标表情特征进行图像特征融合处理后得到的特征，在一个具体的实施例中，融合表情图像特征的表现形式可以为融合表情图像特征分布，示意性的，融合表情图像特征分布可以包括：融合表情图像特征的分布均值和方差。

在一个可选的实施例中，上述将原始表情图像特征和目标表情特征输入图像特征融合模块进行图像特征融合处理，得到融合表情图像特征可以包括：将原始表情图像特征和目标表情特征进行特征拼接处理，得到融合表情图像特征。

在一个可选的实施例中，上述将原始表情图像特征和目标表情特征输入图像特征融合模块进行图像特征融合处理，得到融合表情图像特征可以包括：将原始表情图像特征和目标表情特征进行基于注意力机制的特征融合处理，得到融合表情图像特征。

S2043，将融合表情图像特征输入图像解码器进行图像重构，得到目标生成表情图像。

在一个具体的实施例中，图像解码器可以用于对融合表情图像特征进行图像重构，示意性的，图像解码器的模型类型可以包括但不限于：VAE解码器、NVAE解码器等。

在一个可选的实施例中，图像解码器可以为多尺度的解码器。

在一个可选的实施例中，可以对图像编码器、图像特征融合模块和图像解码器进行联合训练，也可以对三者分别进行模型训练。

由以上实施例可见，由于前面对文本描述和表情图像生成的解耦处理，将原始表情图像对应的原始表情图像特征和目标表情特征进行图像特征融合处理，得到融合表情图像特征，再根据融合表情图像特征进行图像重构，得到目标生成表情图像，使得输出的目标生成表情图像在拥有丰富精准的表情细节表达的同时，可以保持原始表情图像的显著对象特征。

在一个可选的实施例中，如图10所示，上述方法还可以包括：

S1001，获取包含有样本表情对象的样本原始表情图像、包含有样本表情细节信息的第二样本图像描述文本，以及与第二样本图像描述文本匹配的样本生成表情图像对应的样本表情图像特征，第二样本图像描述文本用于指示生成以样本表情对象为表情对象的表情图像。

在一个具体的实施例中，样本生成表情图像可以为对第二样本图像描述文本进行图文匹配后得到的样本图像，样本生成表情图像对应的样本表情图像特征可以为对样本生成表情图像进行图像特征提取后得到的图像特征。

在一个可选的实施例中，上述先验特征提取模型可以包括：第一文本编码器，上述第一文本编码器可以为预训练图文匹配模型中的文本编码器，样本生成表情图像对应的样本表情图像特征可以通过该预训练图文匹配模型中的图像编码器对样本生成表情图像进行图像特征提取后得到。

S1002，基于第二样本图像描述文本和样本表情图像特征，对预设先验特征提取模型进行先验特征提取训练，得到先验特征提取模型。

在一个具体的实施例中，预设先验特征提取模型可以包括：第一预设文本编码器、第二预设文本编码器和预设文图特征映射模型，第一预设文本编码器可以为经过图文匹配预训练的文本编码器，第二预设文本编码器可以为经过文本语义提取预训练的文本编码器，相应的，上述基于第二样本图像描述文本和样本表情图像特征，对预设先验特征提取模型进行先验特征提取训练，得到先验特征提取模型可以包括：

1）将第二样本图像描述文本输入第一预设文本编码器进行文本语义提取，得到第一样本文本语义特征；

2）将第二样本图像描述文本输入第二预设文本编码器进行文本语义提取，得到第二样本文本语义特征；

3）将第一样本文本语义特征和第二样本文本语义特征输入预设文图特征映射模型进行文图特征映射，得到预测先验特征；

4）基于样本表情图像特征和预测先验特征之间的先验损失，训练预设文图特征映射模型，得到文图特征映射模型；

5）将第一预设文本编码器作为第一文本编码器；将第二预设文本编码器作为第二文本编码器；

6）根据第一文本编码器、第二文本编码器和文图特征映射模型，得到先验特征提取模型。

S1003，基于先验特征提取模型，确定第二样本图像描述文本对应的第二样本先验图像特征。

具体的，这里的第二样本先验图像特征的获取方式可以参见步骤S301至S303的先验图像特征的提取过程，在此不再赘述。

S1004，基于样本表情细节信息、第二样本先验图像特征、样本原始表情图像和样本生成表情图像，对预设表情特征生成模型、多维表情控制模型和预设图像生成模型进行联合训练，得到表情特征生成模型、训练后的多维表情控制模型和表情图像生成模型。

在一个具体的实施例中，上述基于样本表情细节信息、第二样本先验图像特征、样本原始表情图像和样本生成表情图像，对预设表情特征生成模型、多维表情控制模型和预设图像生成模型进行联合训练，得到表情特征生成模型、训练后的多维表情控制模型和表情图像生成模型可以包括：

1）对预设表情特征生成模型进行模型参数复制，得到并联的第一表情特征生成模型和第二表情特征生成模型；

2）在基于第二样本先验图像特征、样本加噪图像特征和样本加噪图像特征对应的预设添加噪声信息，控制第一表情特征生成模型和第二表情特征生成模型进行表情特征生成的过程中，利用多维表情控制模型向第一表情特征生成模型引入样本表情细节信息，得到预测表情特征；

3）将样本原始表情图像和预测表情特征输入预设图像生成模型进行表情图像生成，得到预测表情图像；

4）基于预测表情图像和样本生成表情图像之间的损失信息，训练第一表情特征生成模型、多维表情控制模型和预设图像生成模型，得到第一训练模型、训练后的多维表情控制模型和表情图像生成模型；

5）将第一训练模型的模型参数和第二表情特征生成模型的模型参数进行逐层拼接，得到目标模型参数；

6）基于目标模型参数，更新预设表情特征生成模型的模型参数，得到表情特征生成模型。

由以上实施例可见，在得到训练好的先验特征提取模型的基础上，对预设表情特征生成模型、多维表情控制模型和预设图像生成模型进行联合训练，可以利用第一阶段训练好的模型收集第二阶段需要的训练样本，提升样本采集效率，进而提升第二阶段的模型训练效率。

参见图11，图11是本申请实施例提供的一种细粒度表情图像生成模型的完整结构示意图，通过获取包含有目标表情对象的原始表情图像和图像描述文本，该图像描述文本用于指示生成以目标表情对象为表情对象的表情图像，该图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息，并将该原始表情图像和该图像描述文本输入如图11所示的细粒度表情图像生成模型，可以直接得到所需的目标生成表情图像，示意性的，图12是本申请实施例提供的一种目标生成表情图像的效果示意图，参见图12，在原始表情图的基础上，利用本申请实施例提供的技术方案，可以得到如生成表情图a所示的小女孩开心的表情包、如生成表情图b所示的小女孩生气的表情包，如生成表情图c所示的小女孩哭泣的表情包。

示意性的，在构建社交平台的表情中央图库的应用场景中，可以通过表情图像分发的相关数据（例如，表情图像的浏览次数，转发次数，转化率等），挖掘复用存量中已有的热门表情形象素材内容和用户需求度高的表情形象素材内容，作为原始表情图像，通过对已有的表情形象进行细粒度的表情控制（例如，情绪控制和风格控制），实现大量的表情图像的快速生成，从而快速扩展表情中央图库，进一步地可以用更精准的表情图像进行情感表达和气氛调节，提高社交沟通效率和质量；此外，通过丰富的表情中央图库，可以在社交平台的多个业务场景下为用户提供更多的表情选择，例如，根据用户聊天的内容推荐合适的表情图像，帮助用户快速找到最新的表情图像，使用户养成在平台上获取表情内容的习惯，从而增强用户对平台的依赖性和粘性，提升平台用户的留存率；此外，除了挖掘已有的表情形象素材内容，可以通过授权、衍生品引流等方式与相关形象设计平台合作，基于这些形象素材和本申请提供的表情图像生成方案可以创造生成更多高质量的表情图像，降低表情图像生产成本，形成系统的表情图像供给体系，更能够切中各类用户的不同需要，提升用户使用体验，提高用户对平台的信任度和好感度。

由以上本申请实施例提供的技术方案可见，通过获取包含有目标表情对象的原始表情图像和图像描述文本，该图像描述文本用于指示生成以目标表情对象为表情对象的表情图像，该图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息，目标表情控制维度可以为多种预设表情控制维度中的至少一种预设表情控制维度，然后将图像描述文本输入先验特征提取模型进行先验特征提取，得到图像描述文本对应的先验图像特征，由于图像描述文本包含有目标表情控制维度对应的表情细节信息，先验图像特征也可以表征该表情细节信息对应的先验特征，并且先验特征提取模型通过实现文本特征域到图像特征域的映射，将现有技术中基于文本特征到生成图像的一阶段过程，拆分成从文本特征到图像特征再到生成图像的两阶段过程，可以显著降低后续表情特征生成模型的训练难度以及提升表情图像生成效果，接着将先验图像特征输入表情特征生成模型，基于先验图像特征进行表情细节控制，生成目标表情对象对应的目标表情特征，其中，表情特征生成模型是基于多种预设表情控制维度各自对应的样本表情细节信息和多种预设表情控制维度对应的多维表情控制模型，指导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习后得到的，通过多维表情控制模型，旁路引导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习，即对预设表情特征生成模型进行微调，使得微调后得到的表情特征生成模型可以快速实现细粒度表情生成控制和已有表情生成能力的复用，从而提升目标表情特征的细节表达的精准性，最后将原始表情图像和目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像，使得输出的目标生成表情图像在拥有精准的表情细节表达和丰富的图像内容的同时，能够保持原始表情图像的显著对象特征。

本申请实施例还提供了一种图像生成装置，如图13所示，该图像生成装置130包括：

数据获取模块1310，用于获取包含有目标表情对象的原始表情图像和图像描述文本，图像描述文本用于指示生成以目标表情对象为表情对象的表情图像，图像描述文本的文本内容包含有目标表情控制维度对应的表情细节信息；

先验特征提取模块1320，用于将图像描述文本输入先验特征提取模型进行先验特征提取，得到图像描述文本对应的先验图像特征；

表情特征生成模块1330，用于将先验图像特征输入表情特征生成模型，基于先验图像特征进行表情细节控制，生成目标表情对象对应的目标表情特征；

表情图像生成模块1340，用于将原始表情图像和目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像；

其中，表情特征生成模型是基于多种预设表情控制维度各自对应的样本表情细节信息和多种预设表情控制维度对应的多维表情控制模型，指导预设表情特征生成模型进行多种预设表情控制维度的表情细节控制学习后得到的；目标表情控制维度为多种预设表情控制维度中的至少一种预设表情控制维度。

在一个具体的实施例中，上述先验特征提取模型可以包括：第一文本编码器、第二文本编码器和文图特征映射模型，上述先验特征提取模块1320可以包括：

第一文本语义提取单元，用于将图像描述文本输入第一文本编码器进行文本语义提取，得到第一文本语义特征，第一文本编码器为经过图文匹配预训练的文本编码器；

第二文本语义提取单元，用于将图像描述文本输入第二文本编码器进行文本语义提取，得到第二文本语义特征，第二文本编码器为经过文本语义提取预训练的文本编码器；

文图特征映射单元，用于将第一文本语义特征和第二文本语义特征输入文图特征映射模型进行文图特征映射，得到先验图像特征。

在一个具体的实施例中，上述表情特征生成模块1330可以包括：

图像去噪单元，用于将先验图像特征和预设加噪图像特征输入表情特征生成模型，基于先验图像特征，引导预设加噪图像特征进行针对目标表情控制维度的去噪处理，得到目标表情特征。

在一个具体的实施例中，上述表情图像生成模型可以包括：图像编码器、图像特征融合模块和图像解码器，上述表情图像生成模块1340可以包括：

图像特征提取单元，用于将原始表情图像输入图像编码器进行图像特征提取，得到原始表情图像特征；

图像特征融合单元，用于将原始表情图像特征和目标表情特征输入图像特征融合模块进行图像特征融合处理，得到融合表情图像特征；

图像重构单元，用于将融合表情图像特征输入图像解码器进行图像重构，得到目标生成表情图像。

在一个具体的实施例中，上述表情特征生成模型是通过如下装置训练得到的：

模型参数复制模块，用于对预设表情特征生成模型进行模型参数复制，得到并联的第一表情特征生成模型和第二表情特征生成模型；

第一样本获取模块，用于获取包含有样本表情细节信息的第一样本图像描述文本对应的第一样本先验图像特征，以及样本加噪图像特征；

表情细节控制学习模块，用于在基于第一样本先验图像特征、样本加噪图像特征和样本加噪图像特征对应的预设添加噪声信息，控制第一表情特征生成模型和第二表情特征生成模型进行表情特征生成的过程中，利用多维表情控制模型向第一表情特征生成模型引入样本表情细节信息，以使第一表情特征生成模型进行表情细节控制学习，得到第一训练模型；

模型参数拼接模块，用于将第一训练模型的模型参数和第二表情特征生成模型的模型参数进行逐层拼接，得到目标模型参数；

模型参数更新模块，用于基于目标模型参数，更新预设表情特征生成模型的模型参数，得到表情特征生成模型。

在一个具体的实施例中，上述第一表情特征生成模型可以包括：第一编码器，上述第二表情特征生成模型可以包括：第二编码器和解码器，上述表情细节控制学习模块可以包括：

表情细节特征提取单元，用于将多种预设表情控制维度各自对应的样本表情细节信息输入多维表情控制模型进行表情细节特征提取，得到样本表情细节特征；

第一编码器单元，用于将样本加噪图像特征、第一样本先验图像特征和样本表情细节特征输入第一编码器，基于第一样本先验图像特征和样本表情细节特征，对样本加噪图像特征进行编码，得到第一编码特征；

第二编码器单元，用于将样本加噪图像特征和第一样本先验图像特征输入第二编码器，基于第一样本先验图像特征，对样本加噪图像特征进行编码，得到第二编码特征；

解码器单元，用于将第一编码特征、第二编码特征和第一样本先验图像特征输入解码器，基于第一样本先验图像特征，对第一编码特征和第二编码特征进行解码，得到样本表情特征；

第一训练单元，用于基于第一样本噪声信息和预设添加噪声信息之间的第一噪声损失，训练第一编码器，得到第一训练模型；第一样本噪声信息为样本加噪图像特征与样本表情特征之间的噪声信息。

在一个具体的实施例中，上述多维表情控制模型可以包括：多种预设表情控制维度各自对应的表情控制模块，上述表情细节特征提取单元可以包括：

表情细节特征提取单元，用于将多种预设表情控制维度中每种预设表情控制维度对应的样本表情细节信息分别输入对应预设表情控制维度的表情控制模块进行表情细节特征提取，得到每种预设表情控制维度对应的目标表情细节特征；

加权融合单元，用于将多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到样本表情细节特征。

在一个具体的实施例中，上述表情控制模块可以包括：像素逆重组层和依次连接的多尺度的残差特征提取层，上述目标表情细节特征可以包括：多尺度的残差表情细节特征，上述表情细节特征提取单元可以包括：

像素逆重组单元，用于将每种预设表情控制维度对应的样本表情细节信息输入对应预设表情控制维度的像素逆重组层进行像素逆重组处理，得到每种预设表情控制维度对应的初始细节特征；

多尺度的残差特征提取单元，用于基于每种预设表情控制维度对应的多尺度的残差特征提取层，对初始细节特征进行多尺度的残差特征提取，得到每种预设表情控制维度对应的多尺度的残差表情细节特征；

上述样本表情细节特征可以包括：多尺度的表情细节特征，上述加权融合单元可以包括：

加权融合子单元，用于将多种预设表情控制维度各自对应的每一尺度的残差表情细节特征分别进行加权融合，得到每一尺度的表情细节特征。

在一个具体的实施例中，上述第一编码器可以包括：依次连接的多尺度的第一下采样模块，上述样本表情细节特征可以包括：多尺度的表情细节特征，上述第一编码特征可以包括：多尺度的第一下采样特征，上述第一编码器单元可以包括：

第一下采样单元，用于通过多尺度中每一尺度的第一下采样模块，基于第一样本先验图像特征，对每一尺度的第一下采样模块的输入特征进行下采样特征提取，得到每一尺度的第一下采样特征，其中，第一尺度的第一下采样模块的输入特征为样本加噪图像特征，第二尺度至最后一尺度的第一下采样模块的输入特征为自身的前一尺度的第一下采样特征和自身的前一尺度的表情细节特征；

上述第二编码器可以包括：依次连接的多尺度的第二下采样模块，上述第二编码特征可以包括：多尺度的第二下采样特征，上述第二编码器单元可以包括：

第二下采样单元，用于通过每一尺度的第二下采样模块，基于第一样本先验图像特征，对每一尺度的第二下采样模块的输入特征进行下采样特征提取，得到每一尺度的第二下采样特征，其中，第一尺度的第二下采样模块的输入特征为样本加噪图像特征，第二尺度至最后一尺度的第二下采样模块的输入特征为自身的前一尺度的第二下采样特征；

上述解码器可以包括：依次连接的多尺度的上采样模块，上述解码器单元可以包括：

上采样单元，用于通过每一尺度的上采样模块，基于第一样本先验图像特征，对每一尺度的上采样模块的输入特征进行上采样特征提取，得到每一尺度的上采样特征，其中，与最后一尺度的第二下采样模块连接的最后一尺度的上采样模块的输入特征为：最后一尺度的第二下采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征，第一尺度至最后第二尺度的上采样模块的输入特征包括：自身的后一尺度的上采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征；

样本表情特征单元，用于将第一尺度的上采样模块输出的上采样特征作为样本表情特征。

在一个具体的实施例中，上述装置还可以包括：

第二样本获取模块，用于获取包含有样本表情对象的样本原始表情图像、包含有样本表情细节信息的第二样本图像描述文本，以及与第二样本图像描述文本匹配的样本生成表情图像对应的样本表情图像特征，第二样本图像描述文本用于指示生成以样本表情对象为表情对象的表情图像；

第二训练模块，用于基于第二样本图像描述文本和样本表情图像特征，对预设先验特征提取模型进行先验特征提取训练，得到先验特征提取模型；

第三样本获取模块，用于基于先验特征提取模型，确定第二样本图像描述文本对应的第二样本先验图像特征；

第三训练模块，用于基于样本表情细节信息、第二样本先验图像特征、样本原始表情图像和样本生成表情图像，对预设表情特征生成模型、多维表情控制模型和预设图像生成模型进行联合训练，得到表情特征生成模型、训练后的多维表情控制模型和表情图像生成模型。

需要说明的，所述装置实施例中的装置与方法实施例基于同样的发明构思。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本申请实施例还提供了一种内容处理系统，以下介绍内容处理系统中各个服务模块的主要功能：

一．内容生产端

（1）PGC、PUGC、UGC或者MCN的内容生产者，通过移动端或者后端接口API（Application Programming Interface，应用程序接口）系统，提供视频、文章、至少一个图像、图文等。作者可以选择主动上传对应内容的封面图，这些都是分发内容的主要内容来源；

（2）业务生态当中各个业务场景的功能承载的载体，比如社交应用的移动端；

（3）通过和消息与内容业务接入服务器的通讯，先获取上传服务器接口地址，然后上传本地文件。本地文件可以是拍摄后进行相关视频处理的结果，相关视频处理可以是为视频选择搭配的音乐、封面图、滤镜模板等，也可以对视频进行剪辑等；

（4）通过和上报与分析接口服务器的通讯，采集各个业务场景下用户的行为数据（比如用户在各个业务场景下的表情图像使用数据和表情图像分发数据等等），将采集的数据保存至统计分析数据库当中；

二．消息与内容业务接入服务器

（1）和内容生产端同步，完成消息的上下行通讯及同步；

（2）将消息内容通过消息队列系统与消息内容数据库存储及索引系统对接，完成消息存储处理逻辑；

（3）和内容生产端直接通讯，从前端提交的内容，通常是内容的标题，发布者，摘要，封面图，发布时间，或者是拍摄的视频直接通过该服务器进入服务端，把文件存入消息与内容数据库；

（4）将视频内容的元信息（比如文件大小，封面图链接，码率，文件格式，标题，发布时间，作者等）写入消息与内容数据库；

（5）表情图像可以看作是一种在好友之间以及群组之间使用的图片消息，使用的场景和范围非常广泛；

三．消息与内容数据库

（1）临时保存用户对话的消息，实现消息的漫游和多端消息的同步；

（2）作为消息系统的核心模块，对消息的存储和索引处理高效率优化，消息多端同步的信息来源；

（3）内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息，比如文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、视频格式，是否原创的标记或者首发，还包括人工审核过程中对内容的分类（包括一、二、三级别分类和标签信息，比如一篇讲解XX品牌手机的内容，一级分类是科技，二级分类是智能手机，三级分类是国内手机，标签信息是XX品牌XX型号）；

（4）消息与内容业务接入服务器在收到视频文件的时候对内容进行标准的转码操作，转码完成后异步返回元信息主要是文件大小，码率，规格，截取封面图这些信息都会保存在消息与内容数据库当中；

四．消息系统

（1）负责消息同步和通讯的整个流转调动分发，比如社交应用的后台消息系统；

（2）负责和消息内容数据库通讯，完成消息的分发和处理，表情图像可以看作是一种图片消息；

五．上报与分析接口服务

（1）和内容生产端通讯，接收上报上来消息消费和分发过程当中的各种反馈，比如关于内容分发质量的举报和反馈；

（2）内容生产端在不同业务场景将用户的行为数据进行上报，经过数据实时清洗后存储到不同的存储引擎，结合不同业务场景的内容流构造出上层基础模型训练所需要的数据；

六．统计分析数据库

（1）和上报与分析接口服务通讯，保存脱敏处理以后的消息内容和对原始业务不同场景的数据做清洗和校验的初步处理；

（2）这里不同子场景不同结构的数据通常都保存在这里；

七．表情中央图库

（1）这里主要是保存多个渠道收集和生产的表情图库，同时建立相关表情存储范围索引，方便高效访问和获取表情数据，作为模型调试和训练的表情数据来源；

（2）细粒度表情图像生成服务最终生成的表情图像也保存在表情中央图库当中；

八．细粒度表情图像生成模型

（1）按照前述实施例的细粒度表情图像生成模型的构建方案，分多个阶段训练完成模型及能力的构建；

（2）将上述模型完成服务化；

九．细粒度表情图像生成服务

（1）将上述构建的细粒度表情图像生成模型服务化，同时和表情业务系统保持通讯，共同实现社交场景的表情业务功能；

十．全场景内容业务服务

（1）提供社交网络平台中各种内容相关的推荐服务（例如，搜索服务和社交好友推荐引擎等等），用户对内容进行评论和表达自己的情绪状态的时候，可以引用中央图库当中的表情图像作为输入，丰富对应场景下的用户情绪表达；

十一．表情业务系统

（1）实现社交网络平台的各个业务场景功能（例如，点对点和群组聊天当中的表情联想功能，用户主动的表情搜索，破冰场景的表情推荐，以及表情商城当中检索和查找各种表情包等等）的业务逻辑处理过程。

需要说明的，所述系统实施例中的系统与方法实施例基于同样的发明构思。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本申请实施例还提供了一种电子设备，所述电子设备包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现上述方法。

电子设备可以被提供为终端、服务器或其它形态的设备。

图14示出根据本申请实施例的一种电子设备的框图。例如，电子设备1400可以被提供为一服务器。参照图14，电子设备1400包括处理组件1422，其进一步包括一个或多个处理器，以及由存储器1432所代表的存储器资源，用于存储可由处理组件1422的执行的指令，例如应用程序。存储器1432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1422被配置为执行指令，以执行上述方法。

电子设备1400还可以包括一个电源组件1426被配置为执行电子设备1400的电源管理，一个有线或无线网络接口1450被配置为将电子设备1400连接到网络，和一个输入输出（I/O）接口1458。电子设备1400可以操作基于存储在存储器1432的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1432，上述计算机程序指令可由电子设备1400的处理组件1422执行以完成上述方法。

本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM)、只读存储器（ROM)、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM)、便携式压缩盘只读存储器（CD-ROM)、数字多功能盘（DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，上述编程语言包括面向对象的编程语言—诸如Smalltalk、C+等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，上述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标准的功能也可以以不同于附图中所标准的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述先验图像特征输入表情特征生成模型，基于所述先验图像特征进行表情细节控制，生成所述目标表情对象对应的目标表情特征包括：

将所述先验图像特征和预设加噪图像特征输入所述表情特征生成模型，基于所述先验图像特征，引导所述预设加噪图像特征进行针对所述目标表情控制维度的去噪处理，得到所述目标表情特征。

3.根据权利要求1所述的方法，其特征在于，所述先验特征提取模型包括：第一文本编码器、第二文本编码器和文图特征映射模型，所述将所述图像描述文本输入先验特征提取模型进行先验特征提取，得到所述图像描述文本对应的先验图像特征包括：

将所述图像描述文本输入所述第一文本编码器进行文本语义提取，得到第一文本语义特征，所述第一文本编码器为经过图文匹配预训练的文本编码器；

将所述图像描述文本输入所述第二文本编码器进行文本语义提取，得到第二文本语义特征，所述第二文本编码器为经过文本语义提取预训练的文本编码器；

将所述第一文本语义特征和所述第二文本语义特征输入所述文图特征映射模型进行文图特征映射，得到所述先验图像特征。

4.根据权利要求1所述的方法，其特征在于，所述表情图像生成模型包括：图像编码器、图像特征融合模块和图像解码器，所述将所述原始表情图像和所述目标表情特征输入表情图像生成模型进行表情图像生成，得到目标生成表情图像包括：

将所述原始表情图像输入所述图像编码器进行图像特征提取，得到原始表情图像特征；

将所述原始表情图像特征和所述目标表情特征输入所述图像特征融合模块进行图像特征融合处理，得到融合表情图像特征；

将所述融合表情图像特征输入所述图像解码器进行图像重构，得到所述目标生成表情图像。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述预设表情特征生成模型进行模型参数复制，得到并联的第一表情特征生成模型和第二表情特征生成模型；

获取包含有所述样本表情细节信息的第一样本图像描述文本对应的第一样本先验图像特征，以及样本加噪图像特征；

在基于所述第一样本先验图像特征、所述样本加噪图像特征和所述样本加噪图像特征对应的预设添加噪声信息，控制所述第一表情特征生成模型和所述第二表情特征生成模型进行表情特征生成的过程中，利用所述多维表情控制模型向所述第一表情特征生成模型引入所述样本表情细节信息，以使所述第一表情特征生成模型进行表情细节控制学习，得到第一训练模型；

将所述第一训练模型的模型参数和所述第二表情特征生成模型的模型参数进行逐层拼接，得到目标模型参数；

基于所述目标模型参数，更新所述预设表情特征生成模型的模型参数，得到所述表情特征生成模型。

6.根据权利要求5所述的方法，其特征在于，所述第一表情特征生成模型包括：第一编码器，所述第二表情特征生成模型包括：第二编码器和解码器，所述在基于所述第一样本先验图像特征、所述样本加噪图像特征和所述样本加噪图像特征对应的预设添加噪声信息，控制所述第一表情特征生成模型和所述第二表情特征生成模型进行表情特征生成的过程中，利用所述多维表情控制模型向所述第一表情特征生成模型引入所述样本表情细节信息，以使所述第一表情特征生成模型进行表情细节控制学习，得到第一训练模型包括：

将所述多种预设表情控制维度各自对应的样本表情细节信息输入所述多维表情控制模型进行表情细节特征提取，得到样本表情细节特征；

将所述样本加噪图像特征、所述第一样本先验图像特征和所述样本表情细节特征输入所述第一编码器，基于所述第一样本先验图像特征和所述样本表情细节特征，对所述样本加噪图像特征进行编码，得到第一编码特征；

将所述样本加噪图像特征和所述第一样本先验图像特征输入所述第二编码器，基于所述第一样本先验图像特征，对所述样本加噪图像特征进行编码，得到第二编码特征；

将所述第一编码特征、所述第二编码特征和所述第一样本先验图像特征输入所述解码器，基于所述第一样本先验图像特征，对所述第一编码特征和所述第二编码特征进行解码，得到样本表情特征；

基于第一样本噪声信息和所述预设添加噪声信息之间的第一噪声损失，训练所述第一编码器，得到所述第一训练模型；所述第一样本噪声信息为所述样本加噪图像特征与所述样本表情特征之间的噪声信息。

7.根据权利要求6所述的方法，其特征在于，所述第一编码器包括：依次连接的多尺度的第一下采样模块，所述样本表情细节特征包括：所述多尺度的表情细节特征，所述第一编码特征包括：所述多尺度的第一下采样特征，所述将所述样本加噪图像特征、所述第一样本先验图像特征和所述样本表情细节特征输入所述第一编码器，基于所述第一样本先验图像特征和所述样本表情细节特征，对所述样本加噪图像特征进行编码，得到第一编码特征包括：

通过所述多尺度中每一尺度的第一下采样模块，基于所述第一样本先验图像特征，对所述每一尺度的第一下采样模块的输入特征进行下采样特征提取，得到所述每一尺度的第一下采样特征，其中，第一尺度的第一下采样模块的输入特征为所述样本加噪图像特征，第二尺度至最后一尺度的第一下采样模块的输入特征为自身的前一尺度的第一下采样特征和自身的前一尺度的表情细节特征；

所述第二编码器包括：依次连接的所述多尺度的第二下采样模块，所述第二编码特征包括：所述多尺度的第二下采样特征，所述将所述样本加噪图像特征和所述第一样本先验图像特征输入所述第二编码器，基于所述第一样本先验图像特征，对所述样本加噪图像特征进行编码，得到第二编码特征包括：

通过所述每一尺度的第二下采样模块，基于所述第一样本先验图像特征，对所述每一尺度的第二下采样模块的输入特征进行下采样特征提取，得到所述每一尺度的第二下采样特征，其中，所述第一尺度的第二下采样模块的输入特征为所述样本加噪图像特征，所述第二尺度至所述最后一尺度的第二下采样模块的输入特征为自身的前一尺度的第二下采样特征；

所述解码器包括：依次连接的所述多尺度的上采样模块，所述将所述第一编码特征、所述第二编码特征和所述第一样本先验图像特征输入所述解码器，基于所述第一样本先验图像特征，对所述第一编码特征和所述第二编码特征进行解码，得到样本表情特征包括：

通过所述每一尺度的上采样模块，基于所述第一样本先验图像特征，对所述每一尺度的上采样模块的输入特征进行上采样特征提取，得到所述每一尺度的上采样特征，其中，与所述最后一尺度的第二下采样模块连接的所述最后一尺度的上采样模块的输入特征为：所述最后一尺度的第二下采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征，所述第一尺度至最后第二尺度的上采样模块的输入特征包括：自身的后一尺度的上采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征；

将所述第一尺度的上采样模块输出的上采样特征作为所述样本表情特征。

8.根据权利要求6或7所述的方法，其特征在于，所述多维表情控制模型包括：所述多种预设表情控制维度各自对应的表情控制模块，所述将所述多种预设表情控制维度各自对应的样本表情细节信息输入所述多维表情控制模型进行表情细节特征提取，得到样本表情细节特征包括：

将所述多种预设表情控制维度中每种预设表情控制维度对应的样本表情细节信息分别输入对应预设表情控制维度的表情控制模块进行表情细节特征提取，得到所述每种预设表情控制维度对应的目标表情细节特征；

将所述多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到所述样本表情细节特征。

9.根据权利要求8所述的方法，其特征在于，所述表情控制模块包括：像素逆重组层和依次连接的多尺度的残差特征提取层，所述目标表情细节特征包括：所述多尺度的残差表情细节特征，所述将所述多种预设表情控制维度中每种预设表情控制维度对应的样本表情细节信息分别输入对应预设表情控制维度的表情控制模块进行表情细节特征提取，得到所述每种预设表情控制维度对应的目标表情细节特征包括：

将所述每种预设表情控制维度对应的样本表情细节信息输入对应预设表情控制维度的像素逆重组层进行像素逆重组处理，得到所述每种预设表情控制维度对应的初始细节特征；

基于所述每种预设表情控制维度对应的多尺度的残差特征提取层，对所述初始细节特征进行所述多尺度的残差特征提取，得到所述每种预设表情控制维度对应的所述多尺度的残差表情细节特征；

所述样本表情细节特征包括：所述多尺度的表情细节特征，所述将所述多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到所述样本表情细节特征包括：

将所述多种预设表情控制维度各自对应的每一尺度的残差表情细节特征分别进行加权融合，得到所述每一尺度的表情细节特征。

10.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获取包含有样本表情对象的样本原始表情图像、包含有所述样本表情细节信息的第二样本图像描述文本，以及与所述第二样本图像描述文本匹配的样本生成表情图像对应的样本表情图像特征，所述第二样本图像描述文本用于指示生成以所述样本表情对象为表情对象的表情图像；

基于所述第二样本图像描述文本和所述样本表情图像特征，对预设先验特征提取模型进行先验特征提取训练，得到所述先验特征提取模型；

基于所述先验特征提取模型，确定所述第二样本图像描述文本对应的第二样本先验图像特征；

基于所述样本表情细节信息、所述第二样本先验图像特征、所述样本原始表情图像和所述样本生成表情图像，对所述预设表情特征生成模型、所述多维表情控制模型和预设图像生成模型进行联合训练，得到所述表情特征生成模型、训练后的多维表情控制模型和所述表情图像生成模型。

11.一种图像生成装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述表情特征生成模块包括：

图像去噪单元，用于将所述先验图像特征和预设加噪图像特征输入所述表情特征生成模型，基于所述先验图像特征，引导所述预设加噪图像特征进行针对所述目标表情控制维度的去噪处理，得到所述目标表情特征。

13.根据权利要求11所述的装置，其特征在于，所述先验特征提取模型包括：第一文本编码器、第二文本编码器和文图特征映射模型，所述先验特征提取模块包括：

第一文本语义提取单元，用于将所述图像描述文本输入所述第一文本编码器进行文本语义提取，得到第一文本语义特征，所述第一文本编码器为经过图文匹配预训练的文本编码器；

第二文本语义提取单元，用于将所述图像描述文本输入所述第二文本编码器进行文本语义提取，得到第二文本语义特征，所述第二文本编码器为经过文本语义提取预训练的文本编码器；

文图特征映射单元，用于将所述第一文本语义特征和所述第二文本语义特征输入所述文图特征映射模型进行文图特征映射，得到所述先验图像特征。

14.根据权利要求11所述的装置，其特征在于，所述表情图像生成模型包括：图像编码器、图像特征融合模块和图像解码器，所述表情图像生成模块包括：

图像特征提取单元，用于将所述原始表情图像输入所述图像编码器进行图像特征提取，得到原始表情图像特征；

图像特征融合单元，用于将所述原始表情图像特征和所述目标表情特征输入所述图像特征融合模块进行图像特征融合处理，得到融合表情图像特征；

图像重构单元，用于将所述融合表情图像特征输入所述图像解码器进行图像重构，得到所述目标生成表情图像。

15.根据权利要求11所述的装置，其特征在于，所述表情特征生成模型是通过如下装置训练得到的：

模型参数复制模块，用于对所述预设表情特征生成模型进行模型参数复制，得到并联的第一表情特征生成模型和第二表情特征生成模型；

第一样本获取模块，用于获取包含有所述样本表情细节信息的第一样本图像描述文本对应的第一样本先验图像特征，以及样本加噪图像特征；

表情细节控制学习模块，用于在基于所述第一样本先验图像特征、所述样本加噪图像特征和所述样本加噪图像特征对应的预设添加噪声信息，控制所述第一表情特征生成模型和所述第二表情特征生成模型进行表情特征生成的过程中，利用所述多维表情控制模型向所述第一表情特征生成模型引入所述样本表情细节信息，以使所述第一表情特征生成模型进行表情细节控制学习，得到第一训练模型；

模型参数拼接模块，用于将所述第一训练模型的模型参数和所述第二表情特征生成模型的模型参数进行逐层拼接，得到目标模型参数；

模型参数更新模块，用于基于所述目标模型参数，更新所述预设表情特征生成模型的模型参数，得到所述表情特征生成模型。

16.根据权利要求15所述的装置，其特征在于，所述第一表情特征生成模型包括：第一编码器，所述第二表情特征生成模型包括：第二编码器和解码器，所述表情细节控制学习模块包括：

表情细节特征提取单元，用于将所述多种预设表情控制维度各自对应的样本表情细节信息输入所述多维表情控制模型进行表情细节特征提取，得到样本表情细节特征；

第一编码器单元，用于将所述样本加噪图像特征、所述第一样本先验图像特征和所述样本表情细节特征输入所述第一编码器，基于所述第一样本先验图像特征和所述样本表情细节特征，对所述样本加噪图像特征进行编码，得到第一编码特征；

第二编码器单元，用于将所述样本加噪图像特征和所述第一样本先验图像特征输入所述第二编码器，基于所述第一样本先验图像特征，对所述样本加噪图像特征进行编码，得到第二编码特征；

解码器单元，用于将所述第一编码特征、所述第二编码特征和所述第一样本先验图像特征输入所述解码器，基于所述第一样本先验图像特征，对所述第一编码特征和所述第二编码特征进行解码，得到样本表情特征；

第一训练单元，用于基于第一样本噪声信息和所述预设添加噪声信息之间的第一噪声损失，训练所述第一编码器，得到所述第一训练模型；所述第一样本噪声信息为所述样本加噪图像特征与所述样本表情特征之间的噪声信息。

17.根据权利要求16所述的装置，其特征在于，所述第一编码器包括：依次连接的多尺度的第一下采样模块，所述样本表情细节特征包括：所述多尺度的表情细节特征，所述第一编码特征包括：所述多尺度的第一下采样特征，所述第一编码器单元包括：

第一下采样单元，用于通过所述多尺度中每一尺度的第一下采样模块，基于所述第一样本先验图像特征，对所述每一尺度的第一下采样模块的输入特征进行下采样特征提取，得到所述每一尺度的第一下采样特征，其中，第一尺度的第一下采样模块的输入特征为所述样本加噪图像特征，第二尺度至最后一尺度的第一下采样模块的输入特征为自身的前一尺度的第一下采样特征和自身的前一尺度的表情细节特征；

所述第二编码器包括：依次连接的所述多尺度的第二下采样模块，所述第二编码特征包括：所述多尺度的第二下采样特征，所述第二编码器单元包括：

第二下采样单元，用于通过所述每一尺度的第二下采样模块，基于所述第一样本先验图像特征，对所述每一尺度的第二下采样模块的输入特征进行下采样特征提取，得到所述每一尺度的第二下采样特征，其中，所述第一尺度的第二下采样模块的输入特征为所述样本加噪图像特征，所述第二尺度至所述最后一尺度的第二下采样模块的输入特征为自身的前一尺度的第二下采样特征；

所述解码器包括：依次连接的所述多尺度的上采样模块，所述解码器单元包括：

上采样单元，用于通过所述每一尺度的上采样模块，基于所述第一样本先验图像特征，对所述每一尺度的上采样模块的输入特征进行上采样特征提取，得到所述每一尺度的上采样特征，其中，与所述最后一尺度的第二下采样模块连接的所述最后一尺度的上采样模块的输入特征为：所述最后一尺度的第二下采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征，所述第一尺度至最后第二尺度的上采样模块的输入特征包括：自身的后一尺度的上采样特征、与自身同一尺度的第一下采样特征和与自身同一尺度的表情细节特征；

样本表情特征单元，用于将所述第一尺度的上采样模块输出的上采样特征作为所述样本表情特征。

18.根据权利要求16或17所述的装置，其特征在于，所述多维表情控制模型包括：所述多种预设表情控制维度各自对应的表情控制模块，所述表情细节特征提取单元包括：

表情细节特征提取子单元，用于将所述多种预设表情控制维度中每种预设表情控制维度对应的样本表情细节信息分别输入对应预设表情控制维度的表情控制模块进行表情细节特征提取，得到所述每种预设表情控制维度对应的目标表情细节特征；

加权融合单元，用于将所述多种预设表情控制维度各自对应的目标表情细节特征进行加权融合，得到所述样本表情细节特征。

19.根据权利要求18所述的装置，其特征在于，所述表情控制模块包括：像素逆重组层和依次连接的多尺度的残差特征提取层，所述目标表情细节特征包括：所述多尺度的残差表情细节特征，所述表情细节特征提取子单元包括：

像素逆重组单元，用于将所述每种预设表情控制维度对应的样本表情细节信息输入对应预设表情控制维度的像素逆重组层进行像素逆重组处理，得到所述每种预设表情控制维度对应的初始细节特征；

多尺度的残差特征提取单元，用于基于所述每种预设表情控制维度对应的多尺度的残差特征提取层，对所述初始细节特征进行所述多尺度的残差特征提取，得到所述每种预设表情控制维度对应的所述多尺度的残差表情细节特征；

所述样本表情细节特征包括：所述多尺度的表情细节特征，所述加权融合单元包括：

加权融合子单元，用于将所述多种预设表情控制维度各自对应的每一尺度的残差表情细节特征分别进行加权融合，得到所述每一尺度的表情细节特征。

20.根据权利要求11至14任一所述的装置，其特征在于，所述装置还包括：

第二样本获取模块，用于获取包含有样本表情对象的样本原始表情图像、包含有所述样本表情细节信息的第二样本图像描述文本，以及与所述第二样本图像描述文本匹配的样本生成表情图像对应的样本表情图像特征，所述第二样本图像描述文本用于指示生成以所述样本表情对象为表情对象的表情图像；

第二训练模块，用于基于所述第二样本图像描述文本和所述样本表情图像特征，对预设先验特征提取模型进行先验特征提取训练，得到所述先验特征提取模型；

第三样本获取模块，用于基于所述先验特征提取模型，确定所述第二样本图像描述文本对应的第二样本先验图像特征；

第三训练模块，用于基于所述样本表情细节信息、所述第二样本先验图像特征、所述样本原始表情图像和所述样本生成表情图像，对所述预设表情特征生成模型、所述多维表情控制模型和预设图像生成模型进行联合训练，得到所述表情特征生成模型、训练后的多维表情控制模型和所述表情图像生成模型。

21.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至10任一所述的图像生成方法。

22.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至10任一所述的图像生成方法。