CN114066790A

CN114066790A - 图像生成模型的训练方法、图像生成方法、装置和设备

Info

Publication number: CN114066790A
Application number: CN202111327211.2A
Authority: CN
Inventors: 束长勇; 刘家铭; 洪智滨; 韩钧宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-18

Abstract

本公开提供了图像生成模型的训练方法、图像生成方法、装置和设备，涉及人工智能技术领域，具体为深度学习或计算机视觉技术领域，可应用于人脸图像处理或人脸图像识别等场景下。具体实现方案为：获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像；将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像；通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，并根据所述目标损失调整所述图像生成模型的参数。本公开实施例可以提高图像生成模型的准确率。

Description

图像生成模型的训练方法、图像生成方法、装置和设备

技术领域

本公开涉及人工智能技术领域，具体为深度学习或计算机视觉技术领域，可应用于人脸图像处理或人脸图像识别等场景下，尤其涉及图像生成模型的训练方法、图像生成方法、装置和设备。

背景技术

人脸驱动在影视编辑和虚拟人等场景下有广泛应用。

人脸驱动是指给定一张原图像和目标图像，将目标图像中的身份特征迁移到原图像中得到驱动图像，使得该驱动图像既保持目标图像的身份特征，同时又具有原图像的脸部姿态表情等属性特征。

发明内容

本公开提供了一种图像生成模型的训练方法、图像生成方法、装置和设备。

根据本公开的一方面，提供了一种图像生成模型的训练方法，包括：

获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像；

将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像；

通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，并根据所述目标损失调整所述图像生成模型的参数。

根据本公开的一方面，还提供了一种图像生成方法，包括：

获取第一人物的人物身份图像，并对所述人物身份图像进行处理，得到所述人物身份图像的面部身份图像；

获取第二人物的姿态表情图像，并对所述姿态表情图像进行处理，得到所述姿态表情图像的面部表情图像；

将所述人物身份图像、所述面部身份图像、所述姿态表情图像和所述面部表情图像输入至预先训练的图像生成模型，得到合成图像；其中，所述图像生成模型根据如本公开任一项实施例所述的图像生成模型的训练方法训练得到。

根据本公开的一方面，提供了一种图像生成模型的训练装置，包括：

图像预处理模块，用于获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像；

模型输出获取模块，用于将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像；

第一调整参数模块，用于通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，并根据所述目标损失调整所述图像生成模型的参数。

根据本公开的一方面，还提供了一种图像生成装置，包括：

身份图像获取模块，用于获取第一人物的人物身份图像，并对所述人物身份图像进行处理，得到所述人物身份图像的面部身份图像；

姿态表情图像获取模块，用于获取第二人物的姿态表情图像，并对所述姿态表情图像进行处理，得到所述姿态表情图像的面部表情图像；

图像合成模块，用于将所述人物身份图像、所述面部身份图像、所述姿态表情图像和所述面部表情图像输入至预先训练的图像生成模型，得到合成图像；其中，所述图像生成模型根据本公开任一项实施例所述的图像生成模型的训练方法训练得到。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的图像生成模型的训练方法，或执行本公开任一实施例所述的图像生成方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任一实施例所述的图像生成模型的训练方法，或执行本公开任一实施例所述的图像生成方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任一实施例所述的图像生成模型的训练方法，或执行本公开任一实施例所述的图像生成方法。

本公开实施例可以提高图像生成模型准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种图像生成模型的训练方法的示意图；

图2是根据本公开实施例提供的另一种图像生成模型的训练方法的示意图；

图3是根据本公开实施例提供的另一种图像生成模型的训练方法的示意图；

图4是现有的图像的示意图；

图5是根据本公开实施例提供的一个实施例的使用的图像的示意图；

图6是根据本公开实施例提供的一种图像生成模型的训练方法的场景图；

图7是根据本公开实施例提供的一种图像生成方法的示意图；

图8是根据本公开实施例提供的一种图像生成模型的训练装置的示意图；

图9是根据本公开实施例提供的一种图像生成装置的示意图；

图10是用来实现本公开实施例的图像生成模型的训练方法或图像生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例公开的一种图像生成模型的训练方法的流程图，本实施例可以适用于训练图像生成模型的情况。本实施例方法可以由图像生成模型的训练装置来执行，该装置可采用软件和/或硬件的方式实现，并具体配置于具有一定数据运算能力的电子设备中，该电子设备可以是客户端设备或服务器设备，客户端设备例如手机、平板电脑、车载终端和台式电脑等。

S101，获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像。

第一图像和第二图像包括同一人物的图像。第一面部区域图像为包括目标人物面部的图像，第一图像包括第一面部区域图像。第二面部区域图像为包括目标人物面部的图像，第二图像包括第二面部区域图像。第一图像的数量为至少一个，第一面部区域图像的数量为至少一个，第一面部区域图像的数量与第一图像的数量相同。第一图像和第二图像中目标人物的身份信息是一致的，但属性信息不同，属性信息包括目标人物的姿态或表情等。可以从图像中截取包括目标人物的区域，确定为面部区域图像，可以理解为，在图像中剔除背景信息，保留人物的关键信息，得到面部区域图像。其中，第一图像、第一图像中第一面部区域图像、第二图像和第二图像中第二面部区域图像作为图像样本，用于训练图像生成模型。

S102，将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像。

第一图像用于提供目标人物的身份信息，第二图像用于提供目标人物的属性信息。合成图像可以是指按照属性信息进行展示的身份信息的人物的图像，合成图像既包含目标人物的身份信息，又具有目标人物的属性信息。图像生成模型用于将身份信息和属性信息进行合成，生成以属性信息展示的身份信息的人物的图像。图像生成模型可以包括编码器和生成器(或解码器)等。

S103，通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，并根据所述目标损失调整所述图像生成模型的参数。

合成图像为图像生成模型的输出结果，第一图像和第二图像既可以作为输入图像，也可以作为真值结果。损失计算模型可以是指预先训练的机器学习模型，用于计算图像生成模型的损失。目标损失用于调整图像生成模型的参数。

具体的，针对同一目标人物的第一图像和第二图像，经过图像生成模型处理，得到的真值结果为既包含目标人物的身份信息，又具有目标人物的属性信息的图像，即第二图像。可以根据第二图像与合成图像之间的差异计算损失。此外，真值结果中的身份信息与第一图像的身份信息相同，也即第一图像的身份信息可以作为真值结果的身份信息，可以根据第一图像与合成图像之间的身份特征差异，计算损失。根据第二图像与合成图像之间的损失，第一图像与合成图像之间的损失，计算目标损失，例如，累加得到目标损失。

根据本公开的技术方案，通过获取目标人物的第一图像、第一图像中第一面部区域图像、第二图像和第二图像中第二面部区域图像作为图像样本，输入至图像生成模型，得到合成图像，并根据第一图像、第二图像和合成图像计算目标损失，调整图像生成模型的参数，增加图像样本中脸部细节，丰富样本中脸部内容，通过额外的损失计算模型，引入合成图像中信息与真值信息之间的差异，从而使图像生成模型学习出更多的人物脸部细节，能够提高图像生成模型学习脸部特征的能力，提高图像生成模型的图像生成准确率。

图2是根据本公开实施例公开的另一种图像生成模型的训练方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。所述将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像，具体化为：将所述第一图像和所述第一面部区域图像输入至所述图像生成模型中身份图像特征提取网络，得到所述身份图像特征提取网络输出的身份图像特征；将所述第二图像和所述第二面部区域图像输入至所述图像生成模型中姿态表情特征提取网络，得到所述姿态表情特征提取网络输出的姿态表情特征；将所述身份图像特征和所述姿态表情特征进行融合，得到融合特征；将所述融合特征输入至所述图像生成模型中生成器中，得到所述生成器输出的合成图像。

S201，获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像。

S202，将所述第一图像和所述第一面部区域图像输入至所述图像生成模型中身份图像特征提取网络，得到所述身份图像特征提取网络输出的身份图像特征。

身份图像特征提取网络可以是特征提取网络，用于提取身份图像特征。身份图像特征用于描述第一图像中人物身份信息。第一图像用于提供全局的图像信息，第一面部区域图像用于提供细节的图像信息。从第一图像和第一面部区域图像提供全局和细节的图像信息，丰富身份图像特征的内容。示例性的，身份图像特征提取网络可以是提取特征的网络，例如，编码器或卷积神经网络等。

S203，将所述第二图像和所述第二面部区域图像输入至所述图像生成模型中姿态表情特征提取网络，得到所述姿态表情特征提取网络输出的姿态表情特征。

姿态表情特征提取网络可以是特征提取网络，用于提取姿态表情特征。姿态表情特征用于描述第二图像中人物属性信息，具体是人物的姿态表情信息。第二图像用于提供全局的图像信息，第二面部区域图像用于提供细节的图像信息。从第二图像和第二面部区域图像提供全局和细节的图像信息，丰富姿态表情特征的内容。示例性的，姿态表情特征提取网络可以是提取特征的网络，例如，编码器或卷积神经网络等。

S204，将所述身份图像特征和所述姿态表情特征进行融合，得到融合特征。

融合特征用于描述目标人物的身份信息和姿态表情信息。融合特征可以是指目标人物的身份图像特征和姿态表情特征的融合结果。其中，融合方式可以包括拼接、图像中逐个对应像素点的像素值叠加或图像对应的像素矩阵相乘等。

可选的，所述将所述身份图像特征和所述姿态表情特征进行融合，得到融合特征，包括：将所述身份图像特征和所述姿态表情特征进行拼接，得到融合特征。

拼接是指，将保留身份图像特征和姿态表情特征的信息，将两个特征进行组合。例如，身份图像特征和姿态表情特征均为10*10的图像矩阵，拼接后的融合特征为10*20或20*10的图像矩阵。拼接是指不对特征进行改变，保持原有信息的将两个特征进行组合。实际上拼接融合方式是一种解耦的融合方式，在融合特征中，身份图像特征和姿态表情特征相互不影响。

通过拼接方式对身份图像特征和姿态表情特征进行融合，实现对身份图像特征和姿态表情特征进行解耦，可以降低身份图像特征的处理过程与姿态表情特征的处理过程之间的耦合性，减少身份图像特征和姿态表情特征之间的相互影响，从而提高图像生成模型分别独立对身份图像特征和姿态表情特征的学习能力，进而提高图像生成模型的图像生成准确率。

S205，将所述融合特征输入至所述图像生成模型中生成器中，得到所述生成器输出的合成图像。

生成器用于对融合特征进行处理，输出合成图像。融合特征可以直接作为生成器的输入，生成器输出合成图像。或者，图像生成模型还可以增加多层感知器(Multi-layerPerceptron，MLP)，生成器包括多个串接的网络层，通过MLP可以将融合特征映射到不同的网络层，生成器的输入包括融合特征，和经过MLP映射的融合特征。从而，针对除了首个网络层之外的至少一个网络层，网络层的输入可以为串接的前一网络层的输出和经过MLP映射的融合特征，网络层的输出可以作为串接的后一网络层的输入。

S206，通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，并根据所述目标损失调整所述图像生成模型的参数。

可选的，所述将所述第一图像和所述第一面部区域图像输入至所述图像生成模型中身份图像特征提取网络，得到所述身份图像特征提取网络输出的身份图像特征，包括：将所述第一图像输入至所述图像生成模型中全图特征提取网络，得到所述全图特征提取网络输出的全图特征；将所述第一面部区域图像输入至所述图像生成模型中身份特征提取网络，得到所述身份特征提取网络输出的身份特征；对所述全图特征和所述身份特征进行融合，得到身份图像特征。

身份图像特征提取网络包括全图特征提取网络和身份特征提取网络。全图特征提取网络和身份特征提取网络相互独立运行提取特征。全图特征提取网络用于从第一图像中提取全图信息，得到全图特征，身份特征提取网络用于从第一面部区域图像中提取细节的身份信息，得到身份特征。全图特征用于描述第一图像中的全图信息，身份特征用于描述第一面部区域图像中的身份细节信息。对全图特征和身份特征进行融合可以是，对全图特征和身份特征进行拼接，降低全图特征和身份特征之间的耦合性，减少全图特征和身份特征之间的相互影响，从而提高图像生成模型分别独立对全图特征和身份特征的学习能力，最终提高生成的图像的准确率。

通过全图特征提取网络从第一图像中提取全图信息，得到全图特征，通过身份特征提取网络从第一面部区域图像中提取身份信息，得到身份特征，并进行融合，得到身份图像特征，使得身份图像特征既包括全局信息又包括细节信息，可以丰富身份图像特征的内容，并且，从更细节的第一面部区域图像中提取身份特征，可以获取更为准确更为精细的身份信息，提高身份特征的代表性，提高图像生成模型的图像生成准确率。

可选的，所述将所述第二图像和所述第二面部区域图像输入至所述图像生成模型中姿态表情特征提取网络，得到所述姿态表情特征提取网络输出的姿态表情特征，包括：将所述第二图像输入至所述图像生成模型中姿态特征提取网络，得到所述姿态特征提取网络输出的姿态特征；将所述第二面部区域图像输入至所述图像生成模型中表情特征提取网络，得到所述表情特征提取网络输出的表情特征；对所述姿态特征和所述表情特征进行融合，得到姿态表情特征。

姿态表情特征提取网络包括姿态特征提取网络和表情特征提取网络。姿态特征提取网络和表情特征提取网络相互独立运行提取特征。姿态特征提取网络用于从第二图像中提取全局的姿态信息，得到姿态特征，表情特征提取网络用于从第二面部区域图像中提取细节的表情信息，得到表情特征。姿态特征用于描述第二图像中的姿态信息，表情特征用于描述第二面部区域图像中的表情细节信息。对姿态特征和表情特征进行融合可以是，对姿态特征和表情特征进行拼接，降低姿态特征和表情特征之间的耦合性，减少姿态特征和表情特征之间的相互影响，从而提高图像生成模型分别独立对姿态特征和表情特征的学习能力，最终提高生成的图像的准确率。

通过姿态特征提取网络从第二图像中提取姿态信息，得到姿态特征，通过表情特征提取网络从第二面部区域图像中提取表情信息，得到表情特征，并进行融合，得到姿态表情特征，使得姿态表情特征既包括全局信息又包括细节信息，可以丰富姿态表情特征的内容，并且，从更细节的第二面部区域图像中提取表情特征，可以获取更为准确更为精细的表情信息，提高表情特征的代表性，提高图像生成模型的图像生成准确率。

其中，全图特征提取网络、身份特征提取网络、姿态特征提取网络和表情特征提取网络均为编码器，可以是任意可以实现特征提取的网络。其中，身份特征提取网络可以是经训练的人脸分类网络中的特征提取网络，例如，深度人脸识别中的附加角裕度损失网络(Additive Angular Margin Loss for Deep Face Recognition，ArcFace)中的特征提取网络。全图特征提取网络、姿态特征提取网络和表情特征提取网络可以是残差神经网络(Residual Neural Network，Resnet)。

根据本公开的技术方案，通过从第一图像和第一面部区域图像提取身份图像特征，并从第二图像和第二面部区域图像提取姿态表情特征，可以丰富提取的身份图像特征和姿态表情特征的内容，提高特征的代表性，从而，提高图像生成模型的图像生成准确率。

图3是根据本公开实施例公开的另一种图像生成模型的训练方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。将通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，具体化为：将所述第一图像和所述合成图像输入至第一损失特征提取网络，计算身份特征损失；将所述第二图像和所述合成图像输入至第二损失特征提取网络，计算姿态表情特征损失；将所述第二图像和所述合成图像输入至判别器中，计算真实特征损失和真实生成损失；根据所述身份特征损失、姿态表情特征损失、真实特征损失和真实生成损失，确定目标损失。

S301，获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像。

S302，将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像。

S303，将所述第一图像和所述合成图像输入至第一损失特征提取网络，计算身份特征损失。

身份特征损失用于描述合成图像与第一图像之间的特征差异。第一损失特征提取网络用于提取第一损失特征，示例性的，第一损失特征提取网络可以与身份特征提取网络的结构相同，但第一损失特征提取网络为预先训练的特征提取网络，如预先训练的ArcFace中的特征提取网络。此外，身份特征提取网络可以是经过训练但未训练完成的ArcFace中的特征提取网络。第一损失特征提取网络可以是训练完成的ArcFace中的特征提取网络。

第一图像可以理解为真值身份的图像，合成图像可以理解为输出身份的图像。根据身份特征损失，调整图像生成模型的参数，实际是将输出身份的图像不断逼近真值身份的图像，以提高图像生成模型学习到身份特征的能力。

示例性的，采用第一损失特征提取网络提取的中间特征在高维信息空间中对齐，具体可以基于如下公式计算身份特征损失L_ID：

L_ID＝||A(Y)-A(X_ID)||₂

其中，A(Y)为通过第一损失特征提取网络从合成图像提取的身份特征，A(X_ID)为通过第一损失特征提取网络从第一图像提取的身份特征。||*||₂表示L2范数损失函数。A(Y)-A(X_ID)为第一损失特征提取网络中至少一个特征层提取的特征损失之和。

实际上，第一损失特征提取网络中同一特征层输出的身份特征尺寸相同，身份特征实际是一个特征图，也即同一特征层输出的特征图的尺寸相同，可以根据构成特征图的像素，计算像素差异，以从像素维度计算图像之间的差异的绝对值，作为特征层的像素损失。根据特征层的像素损失，计算特征损失，具体可以是：特征层的数量为一个，将像素损失作为特征损失；特征层的数量为至少两个，计算像素损失之和，作为特征损失。可以选择任意的特征层，例如，选择中间的至少一个特征层，或者可以选择首尾的至少一个特征层，示例性的，选择第1个特征层、第2个特征层和最后1个特征层，针对每个特征层，计算针对合成图像输出的特征图，与针对第一图像输出的特征图，之间的像素损失，并计算第1个特征层、第2个特征层和最后1个特征层的像素损失之和，确定为身份特征损失。

S304，将所述第二图像和所述合成图像输入至第二损失特征提取网络，计算姿态表情特征损失。

姿态表情特征损失用于描述合成图像与第二图像之间的特征差异。第二损失特征提取网络用于提取第二损失特征，示例性的，第二损失特征提取网络可以是深度卷积神经网络(Visual Geometry Group，VGG)。第二图像可以理解为真值姿态表情的图像，合成图像可以理解为输出姿态表情的图像。根据姿态表情特征损失，调整图像生成模型的参数，实际是将输出姿态表情的图像不断逼近真值姿态表情的图像，以提高图像生成模型学习到姿态表情特征的能力。其中，第二损失特征提取网络可以与姿态特征提取网络、表情特征提取网络和姿态表情特征提取网络不同。

第二图像可以理解为真值姿态表情的图像，合成图像可以理解为输出姿态表情的图像。根据姿态表情特征损失，调整图像生成模型的参数，实际是将输出姿态表情的图像不断逼近真值姿态表情的图像，以提高图像生成模型学习到姿态表情特征的能力。

示例性的，采用第二损失特征提取网络提取的中间特征在高维信息空间中对齐，具体可以基于如下公式计算姿态表情损失L_pose：

L_pose＝||B(Y)-B(X_pose)||₂

其中，B(Y)为通过第二损失特征提取网络从合成图像提取的姿态表情特征，B(X_pose)为通过第二损失特征提取网络从第二图像提取的姿态表情特征。B(Y)-B(X_pose)为第二损失特征提取网络中至少一个特征层提取的特征损失之和。

实际上，第二损失特征提取网络中同一特征层输出的姿态表情特征尺寸相同，姿态表情特征实际是一个特征图，也即同一特征层输出的特征图的尺寸相同，可以根据构成特征图的像素，计算像素差异，以从像素维度计算图像之间的差异的绝对值，作为特征层的像素损失。根据特征层的像素损失，计算特征损失，具体可以是：特征层的数量为一个，将像素损失作为特征损失；特征层的数量为至少两个，计算像素损失之和，作为特征损失。可以选择任意的特征层，例如，选择中间的至少一个特征层，或者可以选择首尾的至少一个特征层，示例性的，选择第1个特征层、第2个特征层和最后1个特征层，针对每个特征层，计算针对合成图像输出的特征图，与针对第二图像输出的特征图，之间的像素损失，并计算第1个特征层、第2个特征层和最后1个特征层的像素损失之和，确定为姿态表情特征损失。

S305，将所述第二图像和所述合成图像输入至判别器中，计算真实特征损失和真实生成损失。

判别器用于对图像进行分类，以判别图像是否为真人图像，具体是区分真人图像和模型生成的图像。真实特征损失用于描述合成图像与第二图像之间的真实图像特征差异。真实生成损失用于描述合成图像的判别结果与模型生成图像判别结果之间的差异，以及第二图像的判别结果与真实图像判别结果之间的差异。

第二图像可以理解为真实的图像，合成图像可以理解为输出的假的图像。根据真实特征损失，调整图像生成模型的参数，实际是将输出假的图像不断逼近真实的图像，以提高图像生成模型学习到真实图像特征的能力。根据真实生成损失，调整图像生成模型的参数，实际是将输出假的图像不断逼近真实的图像，以提高图像生成模型学习到生成真实图像的能力。其中，第二图像可以替换为第一图像。

示例性的，采用判别器提取的中间特征在高维信息空间中对齐，具体可以基于如下公式计算真实特征损失L_D：

L_D＝||D(Y)-D(X_pose)||₂

其中，D(Y)为通过判别器从合成图像提取的图像特征，D(X_pose)为通过判别器从第二图像提取的图像特征。D(Y)-D(X_pose)为判别器中至少一个特征层提取的特征损失之和。

实际上，判别器中同一特征层输出的图像特征尺寸相同，图像特征实际是一个特征图，也即同一特征层输出的特征图的尺寸相同，可以根据构成特征图的像素，计算像素差异，以从像素维度计算图像之间的差异的绝对值，作为特征层的像素损失。根据特征层的像素损失，计算特征损失，具体可以是：特征层的数量为一个，将像素损失作为特征损失；特征层的数量为至少两个，计算像素损失之和，作为特征损失。可以选择任意的特征层，例如，选择中间的至少一个特征层，或者可以选择首尾的至少一个特征层，示例性的，选择第1个特征层、第2个特征层和最后1个特征层，针对每个特征层，计算针对合成图像输出的特征图，与针对第二图像输出的特征图，之间的像素损失，并计算第1个特征层、第2个特征层和最后1个特征层的像素损失之和，确定为真实特征损失。

模型生成图像可以称为假的图像，采集到的真实图像可以称为真的图像。针对判别器，可以标注模型生成图像为假(例如，值为0)，标准真是图像为真(例如，值为1)。将合成图像输入至判别器中，对于判别器来说，预期输出应该为0，即假。判别器实际输出为D_GAN(X_pose)，判别器的一部分损失根据合成图像的预期输出与实际输出的差异，即D_GAN(X_pose)-0，确定。将第二图像输入至判别器中，对于判别器来说，预期输出应该为1，即真。判别器实际输出为D_GAN(Y)，可以使用均方差计算判别器的损失，判别器的一部分损失根据第二图像或第一图像的预期输出与实际输出的差异，即1-D_GAN(Y)，确定。可以使用均方差计算判别器的损失。将两部分损失之和，确定为真实生成损失。

例如，采用判别器的对抗训练减少生成图像中人工痕迹，具体可以基于如下公式计算真实生成损失L_GAN：

L_GAN＝E(logD_GAN(X_pose))+E(log(1-D_GAN(Y)))

其中，D_GAN(X_pose)为合成图像的预期输出与实际输出的差异，1-D_GAN(Y)第二图像或第一图像的预期输出与实际输出的差异。E(*)表示均方差函数。

S306，根据所述身份特征损失、姿态表情特征损失、真实特征损失和真实生成损失，确定目标损失，并根据所述目标损失调整所述图像生成模型的参数。

可选的，所述获取目标人物的第一图像和第二图像，包括：获取目标人物的视频流；从所述视频流中，将至少一个图像确定为第一图像，并将与所述第一图像不同的图像确定为第二图像。

视频流可以是从网络中获取，或者是实时采集的视频流。视频流中包括至少一个人物，可以选择一个人物确定为目标人物。对视频流进行解析，得到至少两个图像，从各图像中，筛选出至少一个图像，确定为第一图像，并筛选出与第一图像不同的图像，确定为第二图像。第一图像和第二图像中目标人物的属性不同，具体是表情姿态不同。其中，各第一图像中目标人物之间的属性不同。

此外，还可以对视频流直接解析得到的图像进行预处理，并在预处理后的图像中筛选第一图像和第二图像。从视频流中，将至少一个图像确定为第一图像，并将与第一图像不同的图像确定为第二图像可以包括：对视频流进行解析，得到至少一个图像，并根据选定的目标人物，对各帧图像进行预处理，得到包括目标人物头部的图像，并从预处理的图像中，筛选出至少一个预处理的图像，确定为第一图像，并筛选出与第一图像不同的预处理的图像，确定为第二图像。其中，预处理方式可以是，对图像进行人脸关键点检测，根据人脸关键点，确定与该人脸关键点对齐的剪裁框，根据剪裁框对图像进行剪裁，可以得到正向的包括目标人物的头部的图像，且，剪裁后的图像包括完整的头顶以及头发边缘，丰富目标人物的信息，减少图像信息损失，从而丰富基于图像提取的特征的内容，提高图像质量和图像准确率。

通过获取同一目标人物的视频流，并筛选得到第一图像和第二图像，可以快速获取第一图像和第二图像，减少样本的采集成本，提高样本的采集效率，提高模型训练效率。

根据本公开的技术方案，通过计算身份特征损失调整模型参数，以使输出身份的图像不断逼近真值身份的图像，以提高图像生成模型学习到身份特征的能力，通过计算姿态表情特征损失调整模型参数，以使输出姿态表情的图像不断逼近真值姿态表情的图像，以提高图像生成模型学习到姿态表情特征的能力，通过计算真实特征损失调整模型参数，以使输出的图像不断逼近真实的图像，以提高图像生成模型学习到真实图像特征的能力，通过计算真实生成损失调整模型参数，以使输出的图像不断逼近真实的图像，以提高图像生成模型学习到生成真实图像的能力，从而提高图像生成模型生成图像的准确率。

图4是现有中的图像的可视化效果图。如图4所示，图像的尺寸为256*256，并且头顶不完整，头发底部边缘不完整。其中，图像是指第一图像或第二图像。现有的抠图模型，由于数据的约束，输出图像的尺寸为256*256，清晰度较低，且输出的图像中存在削顶以及对披肩长发剪裁的问题，这会导致换脸后的合成图像与目标人物的身份特征不相似的情况，例如，头发不同。从而导致合成图像的质量差，并且身份错误的问题。

图5是根据本公开实施例提供的一个实施例的图像的可视化效果图。如图5所示，图像的尺寸为512*512，面部区域的占比较小，并且头顶完整，头发底部边缘完整。其中，图像是指第一图像或第二图像。图5所示的图像比图4所示的图像的清晰度高，图5所示的图像中面部区域占比小于图4所示的图像中面部区域占比，并且，图5所示的图像不存在削顶以及长发截断的问题。基于包括完整的头顶以及头发边缘的图像输入至图像生成模型中，保留更加完整和细节的身份信息和姿态表情信息，提高生成的合成图像的准确率。

图6是根据本公开实施例提供的一种图像生成模型的训练方法的场景图。图像分类模型包括全图特征提取网络605、身份特征提取网络606、姿态特征提取网络607、表情特征提取网络608和生成器613。此外，图像分类模型还可以包括MLP，以及其他结构，对此不进行限定。

图像生成模型的训练可以是：从目标人物的视频流中解析得到图像，并对图像进行预处理，得到包括目标人物头部的图像，并从中筛选出多个第一图像601和第二图像603，每个第一图像601各不相同，同时，各第一图像601和第二图像603均不同。包括目标人物头部的图像，可以是保留头顶和头发底部边缘的图像，并且图像的清晰度提高到512的分辨率。

将每个第一图像601进行面部抠取，得到对应的第一脸部区域图像602；将第二图像603进行面部抠取，得到对应的第二脸部区域图像604。将多个第一图像601输入至全图特征提取网络605中，得到多个全图特征；将多个第一面部区域图像602输入至身份特征提取网络606种，得到多个身份特征；将同一第一图像601对应的身份特征和全图特征进行拼接，并对拼接后的多个拼接特征进行累加求平均，得到身份图像特征609。将第二图像603输入至姿态特征提取网络607中，得到姿态特征；将第二脸部区域图像604输入至表情特征提取网络608中，得到表情特征，将姿态特征和表情特征进行拼接，得到姿态表情特征611。将身份图像特征609和姿态表情特征611拼接，得到融合特征612，将融合特征612输入至生成器613中，得到合成图像614。在配置有MLP的情况下，将融合特征612输入至生成器613中，并通过MLP将融合特征612映射到生成器613的不同深度中进行处理，最终生成器613输出合成图像614。

将第一图像601(或第二图像603)和合成图像614输入至第一损失特征提取网络，计算身份特征损失；将第二图像603和合成图像614输入至第二损失特征提取网络，计算姿态表情特征损失；将第一图像601(或第二图像603)和合成图像614输入至判别器中，计算真实特征损失和真实生成损失；根据身份特征损失、姿态表情特征损失、真实特征损失和真实生成损失，确定目标损失，根据目标损失调整图像生成模型的参数，具体是调整全图特征提取网络605、身份特征提取网络606、姿态特征提取网络607、表情特征提取网络608和生成器613的参数。

在获取全图特征的基础上，针对面部区域图像进行身份特征提取，可以更好的提取身份特征，以及提取出更丰富的身份特征，减少样本数量，从而减少k-shot次数，减少训练阶段，提高身份特征的提取准确率，从而提高图像生成模型的图像质量和准确率。另外，在获取目标人物的整个人物的姿态特征的基础上，面部占比较小，姿态特征对微表情的编码的细粒度程度较低，即丢失了很多微表情的细节信息，针对面部区域图像进行表情特征提取，可以更好的提取表情征，以及提取出更丰富的表情特征，提高表情特征的提取准确率，从而提高图像生成模型的图像质量和准确率。从而，根据本公开的技术方案，提出了微表情更好的单阶段驱动方案，并且，采用大尺寸图像提升了驱动结果清晰度，且解决了历史抠图中削顶以及长发截断的情况，改善了合成图像的清晰度，提高了合成图像的质量。

图7是根据本公开实施例公开的一种图像生成方法的流程图，本实施例可以适用于训练图像生成模型的情况。本实施例方法可以由图像生成装置来执行，该装置可采用软件和/或硬件的方式实现，并具体配置于具有一定数据运算能力的电子设备中，该电子设备可以是客户端设备或服务器设备，客户端设备例如手机、平板电脑、车载终端和台式电脑等。

S701，获取第一人物的人物身份图像，并对所述人物身份图像进行处理，得到所述人物身份图像的面部身份图像。

第一人物的人物身份图像用于提供第一人物的身份信息。可以对第一人物进行实时拍摄，采集第一人物的至少一个人物身份图像。面部身份图像用于提供第一人物的面部上的更为细节的身份信息。对人物身份图像进行处理，得到人物身份图像的面部身份图像，具体可以是在人物身份图像中进行面部识别，得到面部身份图像。通常面部身份图像为包括完整的人物的面部的图像，例如，包括完整的发顶和头发底部边缘等。

S702，获取第二人物的姿态表情图像，并对所述姿态表情图像进行处理，得到所述姿态表情图像的面部表情图像。

第二人物的姿态表情图像用于提供第二人物的姿态表情等属性信息。可以从预存的本地库中或网络上获取姿态表情图像。面部表情图像用于提供第二人物的面部的更为细节的表情信息。对姿态表情图像进行处理，得到姿态表情图像的面部表情图像，具体可以是在姿态表情图像中进行面部识别或人脸识别，得到面部表情图像。

S703，将所述人物身份图像、所述面部身份图像、所述姿态表情图像和所述面部表情图像输入至预先训练的图像生成模型，得到合成图像；其中，所述图像生成模型根据如本公开任一项实施例所述的图像生成模型的训练方法训练得到。

合成图像为以第二人物表情和姿态驱动的第一人物的图像。图像生成模型是根据图像生成模型的训练方法训练得到的。

可以选择不同人物的姿态表情图像，或者同一人物的姿态表情图像，根据第一人物的人物身份图像，输入到图像生成模型中，得到不同姿态表情的第一人物的合成图像，实现快速得到第一人物的不同姿态表情的图像，能够满足用户多样化的需求，提高用户体验。

根据本公开的技术方案，通过获取人物身份图像、面部身份图像、姿态表情图像和面部表情图像输入至预先训练的图像生成模型，得到合成图像，可以实现准确生成第二人物姿态表情的第一人物的图像，实现人脸驱动，提高人脸驱动的图像生成准确率，提高人脸驱动的图像生成效率，降低人脸驱动的图像生成人工成本。

根据本公开的实施例，图8是本公开实施例中的图像生成模型的训练装置的结构图，本公开实施例适用于训练图像生成模型，其中，图像生成模型用于将源域风格的字转换为目标域风格的字的情况。该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图8所示的一种图像生成模型的训练装置800，包括：图像预处理模块801、模型输出获取模块802和第一调整参数模块803；其中，

图像预处理模块801，用于获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像；

模型输出获取模块802，用于将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像；

第一调整参数模块803，用于通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，并根据所述目标损失调整所述图像生成模型的参数。

进一步的，所述模型输出获取模块802，包括：身份图像特征提取单元，用于将所述第一图像和所述第一面部区域图像输入至所述图像生成模型中身份图像特征提取网络，得到所述身份图像特征提取网络输出的身份图像特征；姿态表情特征提取单元，用于将所述第二图像和所述第二面部区域图像输入至所述图像生成模型中姿态表情特征提取网络，得到所述姿态表情特征提取网络输出的姿态表情特征；第一特征融合单元，用于将所述身份图像特征和所述姿态表情特征进行融合，得到融合特征；合成图像输出单元，用于将所述融合特征输入至所述图像生成模型中生成器中，得到所述生成器输出的合成图像。

进一步的，所述第一特征融合单元，包括：特征拼接子单元，用于将所述身份图像特征和所述姿态表情特征进行拼接，得到融合特征。

进一步的，所述身份图像特征提取单元，包括：全图特征提取子单元，用于将所述第一图像输入至所述图像生成模型中全图特征提取网络，得到所述全图特征提取网络输出的全图特征；身份特征提取子单元，用于将所述第一面部区域图像输入至所述图像生成模型中身份特征提取网络，得到所述身份特征提取网络输出的身份特征；第二特征融合子单元，用于对所述全图特征和所述身份特征进行融合，得到身份图像特征。

进一步的，所述姿态表情特征提取单元，包括：姿态特征提取子单元，用于将所述第二图像输入至所述图像生成模型中姿态特征提取网络，得到所述姿态特征提取网络输出的姿态特征；表情特征提取子单元，用于将所述第二面部区域图像输入至所述图像生成模型中表情特征提取网络，得到所述表情特征提取网络输出的表情特征；第三特征融合子单元，用于对所述姿态特征和所述表情特征进行融合，得到姿态表情特征。

进一步的，所述第一调整参数模块803，包括：身份特征损失计算单元，用于将所述第一图像和所述合成图像输入至第一损失特征提取网络，计算身份特征损失；姿态表情特征损失计算单元，用于将所述第二图像和所述合成图像输入至第二损失特征提取网络，计算姿态表情特征损失；真值损失计算单元，用于将所述第二图像和所述合成图像输入至判别器中，计算真实特征损失和真实生成损失；目标损失计算单元，用于根据所述身份特征损失、姿态表情特征损失、真实特征损失和真实生成损失，确定目标损失。

进一步的，所述图像预处理模块801，包括：视频流获取单元，用于获取目标人物的视频流；图像解析单元，用于从所述视频流中，将至少一个图像确定为第一图像，并将与所述第一图像不同的图像确定为第二图像。

上述图像生成模型的训练装置可执行本公开任意实施例所提供的图像生成模型的训练方法，具备执行图像生成模型的训练方法相应的功能模块和有益效果。

根据本公开的实施例，图9是本公开实施例中的图像生成装置的结构图，本公开实施例适用于将第二人物的姿态表情迁移到第一人物的脸部，得到第一人物以第二人物的姿态表情展示的合成图像的情况。该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图9所示的一种图像生成装置900，包括：身份图像获取模块901、姿态表情图像获取模块902和图像合成模块903；其中，

身份图像获取模块901，用于获取第一人物的人物身份图像，并对所述人物身份图像进行处理，得到所述人物身份图像的面部身份图像；

姿态表情图像获取模块902，用于获取第二人物的姿态表情图像，并对所述姿态表情图像进行处理，得到所述姿态表情图像的面部表情图像；

图像合成模块903，用于将所述人物身份图像、所述面部身份图像、所述姿态表情图像和所述面部表情图像输入至预先训练的图像生成模型，得到合成图像；其中，所述图像生成模型根据如如本公开任一实施例所述的图像生成模型的训练方法训练得到。

上述图像生成装置可执行本公开任意实施例所提供的图像生成方法，具备执行图像生成方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性区域图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图像生成模型的训练方法或图像生成方法。例如，在一些实施例中，图像生成模型的训练方法或图像生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的图像生成模型的训练方法或图像生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像生成模型的训练方法或图像生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像生成模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型，得到合成图像，包括：

将所述第一图像和所述第一面部区域图像输入至所述图像生成模型中身份图像特征提取网络，得到所述身份图像特征提取网络输出的身份图像特征；

将所述第二图像和所述第二面部区域图像输入至所述图像生成模型中姿态表情特征提取网络，得到所述姿态表情特征提取网络输出的姿态表情特征；

将所述身份图像特征和所述姿态表情特征进行融合，得到融合特征；

将所述融合特征输入至所述图像生成模型中生成器中，得到所述生成器输出的合成图像。

3.根据权利要求2所述的方法，其中，所述将所述身份图像特征和所述姿态表情特征进行融合，得到融合特征，包括：

将所述身份图像特征和所述姿态表情特征进行拼接，得到融合特征。

4.根据权利要求2所述的方法，其中，所述将所述第一图像和所述第一面部区域图像输入至所述图像生成模型中身份图像特征提取网络，得到所述身份图像特征提取网络输出的身份图像特征，包括：

将所述第一图像输入至所述图像生成模型中全图特征提取网络，得到所述全图特征提取网络输出的全图特征；

将所述第一面部区域图像输入至所述图像生成模型中身份特征提取网络，得到所述身份特征提取网络输出的身份特征；

对所述全图特征和所述身份特征进行融合，得到身份图像特征。

5.根据权利要求2所述的方法，其中，所述将所述第二图像和所述第二面部区域图像输入至所述图像生成模型中姿态表情特征提取网络，得到所述姿态表情特征提取网络输出的姿态表情特征，包括：

将所述第二图像输入至所述图像生成模型中姿态特征提取网络，得到所述姿态特征提取网络输出的姿态特征；

将所述第二面部区域图像输入至所述图像生成模型中表情特征提取网络，得到所述表情特征提取网络输出的表情特征；

对所述姿态特征和所述表情特征进行融合，得到姿态表情特征。

6.根据权利要求1所述的方法，其中，所述通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中，计算目标损失，包括：

将所述第一图像和所述合成图像输入至第一损失特征提取网络，计算身份特征损失；

将所述第二图像和所述合成图像输入至第二损失特征提取网络，计算姿态表情特征损失；

将所述第二图像和所述合成图像输入至判别器中，计算真实特征损失和真实生成损失；

根据所述身份特征损失、所述姿态表情特征损失、所述真实特征损失和所述真实生成损失，确定目标损失。

7.根据权利要求1所述的方法，其中，所述获取目标人物的第一图像和第二图像，包括：

获取目标人物的视频流；

从所述视频流中，将至少一个图像确定为第一图像，并将与所述第一图像不同的图像确定为第二图像。

8.一种图像生成方法，包括：

将所述人物身份图像、所述面部身份图像、所述姿态表情图像和所述面部表情图像输入至预先训练的图像生成模型，得到合成图像；其中，所述图像生成模型根据如权利要求1至7中任一项所述的图像生成模型的训练方法训练得到。

9.一种图像生成模型的训练装置，包括：

10.根据权利要求9所述的装置，其中，所述模型输出获取模块，包括：

身份图像特征提取单元，用于将所述第一图像和所述第一面部区域图像输入至所述图像生成模型中身份图像特征提取网络，得到所述身份图像特征提取网络输出的身份图像特征；

姿态表情特征提取单元，用于将所述第二图像和所述第二面部区域图像输入至所述图像生成模型中姿态表情特征提取网络，得到所述姿态表情特征提取网络输出的姿态表情特征；

第一特征融合单元，用于将所述身份图像特征和所述姿态表情特征进行融合，得到融合特征；

合成图像输出单元，用于将所述融合特征输入至所述图像生成模型中生成器中，得到所述生成器输出的合成图像。

11.根据权利要求10所述的装置，其中，所述第一特征融合单元，包括：

特征拼接子单元，用于将所述身份图像特征和所述姿态表情特征进行拼接，得到融合特征。

12.根据权利要求10所述的装置，其中，所述身份图像特征提取单元，包括：

全图特征提取子单元，用于将所述第一图像输入至所述图像生成模型中全图特征提取网络，得到所述全图特征提取网络输出的全图特征；

身份特征提取子单元，用于将所述第一面部区域图像输入至所述图像生成模型中身份特征提取网络，得到所述身份特征提取网络输出的身份特征；

第二特征融合子单元，用于对所述全图特征和所述身份特征进行融合，得到身份图像特征。

13.根据权利要求10所述的装置，其中，所述姿态表情特征提取单元，包括：

姿态特征提取子单元，用于将所述第二图像输入至所述图像生成模型中姿态特征提取网络，得到所述姿态特征提取网络输出的姿态特征；

表情特征提取子单元，用于将所述第二面部区域图像输入至所述图像生成模型中表情特征提取网络，得到所述表情特征提取网络输出的表情特征；

第三特征融合子单元，用于对所述姿态特征和所述表情特征进行融合，得到姿态表情特征。

14.根据权利要求9所述的装置，其中，所述第一调整参数模块，包括：

身份特征损失计算单元，用于将所述第一图像和所述合成图像输入至第一损失特征提取网络，计算身份特征损失；

姿态表情特征损失计算单元，用于将所述第二图像和所述合成图像输入至第二损失特征提取网络，计算姿态表情特征损失；

真值损失计算单元，用于将所述第二图像和所述合成图像输入至判别器中，计算真实特征损失和真实生成损失；

目标损失计算单元，用于根据所述身份特征损失、所述姿态表情特征损失、所述真实特征损失和所述真实生成损失，确定目标损失。

15.根据权利要求9所述的装置，其中，所述图像预处理模块，包括：

视频流获取单元，用于获取目标人物的视频流；

图像解析单元，用于从所述视频流中，将至少一个图像确定为第一图像，并将与所述第一图像不同的图像确定为第二图像。

16.一种图像生成装置，包括：

图像合成模块，用于将所述人物身份图像、所述面部身份图像、所述姿态表情图像和所述面部表情图像输入至预先训练的图像生成模型，得到合成图像；其中，所述图像生成模型根据如权利要求1至7中任一项所述的图像生成模型的训练方法训练得到。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的图像生成模型的训练方法，或者权利要求8中所述的图像生成方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的图像生成模型的训练方法，或者权利要求8中所述的图像生成方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的图像生成模型的训练方法，或者权利要求8中所述的图像生成方法。