CN116012883A

CN116012883A - 一种图像生成模型的训练方法、图像生成方法及装置

Info

Publication number: CN116012883A
Application number: CN202310014499.0A
Authority: CN
Inventors: 黄星; 刘家宏
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-25

Abstract

本公开关于一种图像生成模型的训练方法、图像生成方法及装置，涉及计算机技术领域。该方法包括：确定至少一个手势的空间信息以及手部特征；将该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征输入第一图像生成模型，得到与该至少一个手势对应的目标图像；基于该每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对该第一图像生成模型训练，生成第二图像生成模型。本公开中，电子设备能够生成真实性更高的第二图像生成模型，并且基于该第二图像生成模型生成的图像的真实性较高，更贴近于真实图像，能够提升图像生成的有效性，提高图像的真实性。

Description

一种图像生成模型的训练方法、图像生成方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种图像生成模型的训练方法、图像生成方法及装置。

背景技术

目前，电子设备可以通过计算机图形学渲染出不同动作下的手势图像，并且可以通过纹理贴图等方式增加该手势图像的真实感。

但是，上述方法中生成的手势图像的虚假感比较强，很难贴近真实图像，可能会降低图像生成的有效性。

发明内容

本公开提供一种图像生成模型的训练方法、图像生成方法及装置，解决了相关技术中生成的手势图像的虚假感比较强，很难贴近真实图像，可能会降低图像生成的有效性的技术问题。

本公开实施例的技术方案如下：

根据本公开实施例的第一方面，提供一种图像生成模型的训练方法。该方法可以包括：确定至少一个手势的空间信息以及手部特征，其中，一个手势的空间信息用于表征该手势中包括的至少两个关键点之间的位置关系，该手部特征用于表征手部的属性信息；将该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征输入第一图像生成模型，得到与该至少一个手势对应的目标图像；基于该每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对该第一图像生成模型训练，生成第二图像生成模型。

可选地，该图像生成模型的训练方法还包括：获取样本数据，该样本数据包括至少一个样本图像以及该至少一个样本图像中每一个样本图像中包括的手势的描述信息，其中，一个样本图像中包括的手势的描述信息用于表征该样本图像中包括的手势的含义，该至少一个样本图像为与该至少一个手势对应的样本图像；当该样本数据中存在第一手势的描述信息时，对第一样本图像进行编码处理，得到该第一手势对应的手部特征，该第一手势为该至少一个手势中的一个，该第一样本图像为与该第一手势对应的样本图像。

可选地，该图像生成模型的训练方法还包括：当该样本数据中不存在该第一手势的描述信息时，将预设手部特征确定为该第一手势对应的手部特征。

可选地，上述确定至少一个手势的空间信息具体包括：基于第一手势的描述信息对该第一手势进行渲染处理，得到该第一手势的空间信息，该第一手势的空间信息包括该第一手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数，该第一手势为该至少一个手势中的一个。

可选地，上述基于该每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对该第一图像生成模型训练，生成第二图像生成模型，包括：确定第一损失，该第一损失用于表征该每个手势对应的手部特征的概率分布与预设正态分布之间的不一致程度；将至少一个目标图像中的每一个目标图像输入初始判别器，得到第一概率，该第一概率用于表征该每一个目标图像被判别为第一标签的概率，该第一标签用于表征样本图像，该至少一个目标图像为与该至少一个手势对应的目标图像；确定第二损失，该第二损失用于表征至少一个样本图像中每一个样本图像的像素与该至少一个目标图像的像素之间的不一致程度，该至少一个样本图像为与该至少一个手势对应的样本图像；基于该第一损失、该第一概率以及该第二损失，确定第三损失；基于该第三损失，更新该第一图像生成模型中的参数，生成该第二图像生成模型。

可选地，该图像生成模型的训练方法还包括：将该每一个目标图像输入该初始判别器，得到第二概率，该第二概率用于表征该每一个目标图像被判别为第二标签的概率，该第二标签用于表征非样本图像；将该每一个样本图像输入该初始判别器，得到第三概率，该第三概率用于表征该每一个样本图像被判别为该第一标签的概率；基于该第二概率以及该第三概率，确定第四损失；基于该第四损失，更新该初始判别器中的参数，生成目标判别器。

根据本公开实施例的第二方面，提供一种图像生成方法。该方法可以包括：确定预设手势的空间信息以及预设手部特征，该预设手势的空间信息用于表征该预设手势中包括的至少两个关键点之间的位置关系，该预设手部特征用于表征手部的属性信息；将该预设手势的空间信息以及该预设手部特征输入第二图像生成模型，得到目标生成图像，该第二图像生成模型是基于上述第一方面中任一种可选地的图像生成模型的训练方法训练得到的。

可选地，该图像生成方法还包括：获取该预设手势的描述信息，该预设手势的描述信息用于表征该预设手势的含义；基于该预设手势的描述信息对该预设手势进行渲染处理，得到该预设手势的空间信息，该预设手势的空间信息包括该预设手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数。

根据本公开实施例的第三方面，提供一种图像生成模型的训练装置。该装置可以包括：确定模块和处理模块；该确定模块，被配置为确定至少一个手势的空间信息以及手部特征，其中，一个手势的空间信息用于表征该手势中包括的至少两个关键点之间的位置关系，该手部特征用于表征手部的属性信息；该处理模块，被配置为将该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征输入第一图像生成模型，得到与该至少一个手势对应的目标图像；该处理模块，还被配置为基于该每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对该第一图像生成模型训练，生成第二图像生成模型。

可选地，该图像生成模型的训练装置还包括获取模块；该获取模块，被配置为获取样本数据，该样本数据包括至少一个样本图像以及该至少一个样本图像中每一个样本图像中包括的手势的描述信息，其中，一个样本图像中包括的手势的描述信息用于表征该样本图像中包括的手势的含义，该至少一个样本图像为与该至少一个手势对应的样本图像；该处理模块，还被配置为当该样本数据中存在第一手势的描述信息时，对第一样本图像进行编码处理，得到该第一手势对应的手部特征，该第一手势为该至少一个手势中的一个，该第一样本图像为与该第一手势对应的样本图像。

可选地，该确定模块，还被配置为当该样本数据中不存在该第一手势的描述信息时，将预设手部特征确定为该第一手势对应的手部特征。

可选地，该处理模块，具体被配置为基于第一手势的描述信息对该第一手势进行渲染处理，得到该第一手势的空间信息，该第一手势的空间信息包括该第一手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数，该第一手势为该至少一个手势中的一个。

可选地，该确定模块，具体被配置为确定第一损失，该第一损失用于表征该每个手势对应的手部特征的概率分布与预设正态分布之间的不一致程度；该处理模块，具体被配置为将至少一个目标图像中的每一个目标图像输入初始判别器，得到第一概率，该第一概率用于表征该每一个目标图像被判别为第一标签的概率，该第一标签用于表征样本图像，该至少一个目标图像为与该至少一个手势对应的目标图像；该确定模块，具体还被配置为确定第二损失，该第二损失用于表征至少一个样本图像中每一个样本图像的像素与该至少一个目标图像的像素之间的不一致程度，该至少一个样本图像为与该至少一个手势对应的样本图像；该确定模块，具体还被配置为基于该第一损失、该第一概率以及该第二损失，确定第三损失；该处理模块，具体还被配置为基于该第三损失，更新该第一图像生成模型中的参数，生成该第二图像生成模型。

可选地，该处理模块，还被配置为将该每一个目标图像输入该初始判别器，得到第二概率，该第二概率用于表征该每一个目标图像被判别为第二标签的概率，该第二标签用于表征非样本图像；该处理模块，还被配置为将该每一个样本图像输入该初始判别器，得到第三概率，该第三概率用于表征该每一个样本图像被判别为该第一标签的概率；该确定模块，还被配置为基于该第二概率以及该第三概率，确定第四损失；该处理模块，还被配置为基于该第四损失，更新该初始判别器中的参数，生成目标判别器。

根据本公开实施例的第四方面，提供一种图像生成装置。该装置可以包括：确定模块和处理模块；该确定模块，被配置为确定预设手势的空间信息以及预设手部特征，该预设手势的空间信息用于表征该预设手势中包括的至少两个关键点之间的位置关系，该预设手部特征用于表征手部的属性信息；该处理模块，被配置为将该预设手势的空间信息以及该预设手部特征输入第二图像生成模型，得到目标生成图像，该第二图像生成模型是基于上述第一方面中任一种可选地图像生成模型的训练方法训练得到的。

可选地，上述图像生成装置还包括获取模块；该获取模块，被配置为获取该预设手势的描述信息，该预设手势的描述信息用于表征该预设手势的含义；该处理模块，还被配置为基于该预设手势的描述信息对该预设手势进行渲染处理，得到该预设手势的空间信息，该预设手势的空间信息包括该预设手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数。

根据本公开实施例的第五方面，提供一种电子设备，可以包括：处理器和被配置为存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地图像生成模型的训练方法，或者实现上述第二方面中任一种可选地图像生成方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得该电子设备能够执行上述第一方面中任一种可选地图像生成模型的训练方法，或者执行上述第二方面中任一种可选地图像生成方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当该计算机指令在电子设备的处理器上运行时，使得该电子设备执行如第一方面中任一种可选地图像生成模型的训练方法，或者执行上述第二方面中任一种可选地图像生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于上述任一方面，本公开中，电子设备可以确定至少一个手势的空间信息以及手部特征，并且将该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征输入第一图像生成模型，得到与该至少一个手势对应的目标图像；然后该电子设备可以基于该每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对该第一图像生成模型训练，生成第二图像生成模型。本公开中，由于手部特征用于表征手部的属性信息，该属性信息可以表征手部的风格(或样式)；并且与至少一个手势对应的目标图像为电子设备基于该第一图像生成模型生成的新的图像，与至少一个手势对应的样本图像可以理解为真实图像。如此，电子设备基于每个手势对应的手部特征、第一图像生成模型生成的新的图像以及真实图像对该第一图像生成模型训练，能够生成真实性更高的第二图像生成模型。具体为电子设备基于该第二图像生成模型生成的图像的真实性较高，更贴近于真实图像，能够提升图像生成的有效性，提高图像的真实性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了本公开实施例提供的一种图像生成模型的训练方法的流程示意图；

图2示出了本公开实施例提供的又一种图像生成模型的训练方法的流程示意图；

图3示出了本公开实施例提供的又一种图像生成模型的训练方法的流程示意图；

图4示出了本公开实施例提供的又一种图像生成模型的训练方法的流程示意图；

图5示出了本公开实施例提供的又一种图像生成模型的训练方法的流程示意图；

图6示出了本公开实施例提供的又一种图像生成模型的训练方法的流程示意图；

图7示出了本公开实施例提供的一种图像生成方法的流程示意图；

图8示出了本公开实施例提供的又一种图像生成方法的流程示意图；

图9示出了本公开实施例提供的一种图像生成模型的训练装置的结构示意图；

图10示出了本公开实施例提供的又一种图像生成模型的训练装置的结构示意图；

图11示出了本公开实施例提供的一种图像生成装置的结构示意图；

图12示出了本公开实施例提供的又一种图像生成装置的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于样本数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

相关技术中，基于计算机图形学以及纹理贴图等方式生成的手势图像的虚假感比较强，很难贴近真实图像，可能会降低图像生成的有效性。

基于此，本公开实施例提供一种图像生成模型的训练方法、图像生成方法及装置方法，由于手部特征用于表征手部的属性信息，该属性信息可以表征手部的风格(或样式)；并且与至少一个手势对应的目标图像为电子设备基于该第一图像生成模型生成的新的图像，与至少一个手势对应的样本图像可以理解为真实图像。如此，电子设备基于每个手势对应的手部特征、第一图像生成模型生成的新的图像以及真实图像对该第一图像生成模型训练，能够生成真实性更高的第二图像生成模型。具体为电子设备基于该第二图像生成模型生成的图像的真实性较高，更贴近于真实图像，能够提升图像生成的有效性，提高图像的真实性。

本公开实施例提供的图像生成模型的训练方法、图像生成方法及装置，应用于图像生成(具体为生成包含手势的图像)的场景中。当电子设备确定至少一个手势的空间信息以及手部特征时，可以依据本公开实施例提供的方法，对第一图像生成模型训练，生成第二图像生成模型。进而电子设备可以将某一手势的空间信息以及某一手部特征输入该第二图像生成模型，得到目标生成图像。

以下结合附图对本公开实施例提供的图像生成模型的训练方法以及图像生成方法进行示例性说明：

示例性的，执行本公开实施例提供的图像生成模型的训练方法以及图像生成方法的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等，本公开对电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

如图1所示，本公开实施例提供的图像生成模型的训练方法可以包括S101-S103。

S101、电子设备确定至少一个手势的空间信息以及手部特征。

其中，一个手势的空间信息用于表征该手势中包括的至少两个关键点之间的位置关系，该手部特征用于表征手部的属性信息。

应理解，一个手势为手部的一个姿势，该手势中包括的至少两个关键点为手部的关键点(或骨骼点)。

在本公开实施例的一种实现方式中，手部的属性信息可以包括手部的颜色、手部的亮度以及手部的纹理中的至少一项。

S102、电子设备将至少一个手势中每个手势的空间信息以及每个手势对应的手部特征输入第一图像生成模型，得到与至少一个手势对应的目标图像。

应理解，一个手势的空间信息以及一个手部特征(具体为该手势对应的一个手部特征)对应一个目标图像(即与该手势对应的目标图像)。

在一种情况下，一个手势可以对应一个手部特征。此时电子设备基于该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征，得到的与该至少一个手势对应的目标图像的数量与该至少一个手势的数量相同。

在另一种情况下，一个手势也可以对应至少两个手部特征。此时电子设备基于该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征，得到的与该至少一个手势对应的目标图像的数量大于该至少一个手势的数量。

S103、电子设备基于每个手势对应的手部特征、与至少一个手势对应的目标图像以及与至少一个手势对应的样本图像，对第一图像生成模型训练，生成第二图像生成模型。

结合上述实施例的描述，应理解，一个手势对应的手部特征用于表征该属性信息。该属性信息可以表征手部的风格(或样式)。

可以理解的是，第一图像生成模型(或第二图像生成模型)为用于生成图像的神经网络模型。与该至少一个手势对应的目标图像为电子设备基于该第一图像生成模型生成的新的图像，与该至少一个手势对应的样本图像可以理解为真实图像。

在一种可选的实现方式中，与该至少一个手势对应的样本图像为样本数据中包括的图像。电子设备可以通过获取该样本数据以获取到与该至少一个手势对应的样本图像。

可以理解的是，对于与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像而言，一个手势对应的目标图像中包括的手势与该手势对应的样本图像中包括的手势相同。

本公开实施例中，电子设备基于每个手势对应的手部特征、第一图像生成模型生成的新的图像以及真实图像，对该第一图像生成模型训练，能够生成真实性更高的第二图像生成模型。具体为电子设备基于该第二图像生成模型生成的图像的真实性较高，更贴近于真实图像，能够提升图像生成的有效性，提高图像的真实性。

可选地，上述第一图像生成模型(或第二图像生成模型)可以为生成对抗网络(generative adversarial network，GAN)。

上述实施例提供的技术方案至少能够带来以下有益效果：由S101-S103可知，电子设备可以确定至少一个手势的空间信息以及手部特征，并且将该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征输入第一图像生成模型，得到与该至少一个手势对应的目标图像；然后该电子设备可以基于该每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对该第一图像生成模型训练，生成第二图像生成模型。本公开中，由于手部特征用于表征手部的属性信息，该属性信息可以表征手部的风格(或样式)；并且与至少一个手势对应的目标图像为电子设备基于该第一图像生成模型生成的新的图像，与至少一个手势对应的样本图像可以理解为真实图像。如此，电子设备基于每个手势对应的手部特征、第一图像生成模型生成的新的图像以及真实图像对该第一图像生成模型训练，能够生成真实性更高的第二图像生成模型。具体为电子设备基于该第二图像生成模型生成的图像的真实性较高，更贴近于真实图像，能够提升图像生成的有效性，提高图像的真实性。

结合图1，如图2所示，本公开实施例提供的图像生成模型的训练方法还可以包括S104-S105。

S104、电子设备获取样本数据。

其中，该样本数据包括至少一个样本图像以及该至少一个样本图像中每一个样本图像中包括的手势的描述信息。一个样本图像中包括的手势的描述信息用于表征该样本图像中包括的手势的含义，该至少一个样本图像为与上述至少一个手势对应的样本图像。

示例性的，一个手势的描述信息可以为“胜利”、“了不起”、“比心”或者“OK”等。

S105、当样本数据中存在第一手势的描述信息时，电子设备对第一样本图像进行编码处理，得到第一手势对应的手部特征。

其中，该第一手势为上述至少一个手势中的一个，该第一样本图像为与该第一手势对应的样本图像。

应理解，当该样本数据中存在该第一手势的描述信息时，说明该样本数据中存在与该第一手势对应的样本图像，即存在与该第一手势对应的真实图像。此时电子设备可以对与该第一手势对应的真实图像(即该第一样本图像)进行编码处理，得到该第一手势对应的手部特征。

在一种可选的实现方式中，电子设备可以基于某一样式编码器对该第一样本图像进行编码处理，得到该第一手势对应的手部特征。

上述实施例提供的技术方案至少能够带来以下有益效果：由S104-S105可知，电子设备可以获取样本数据，该样本数据包括至少一个样本图像以及该至少一个样本图像中每一个样本图像中包括的手势的描述信息。当该样本数据中存在第一手势的描述信息时，说明该样本数据中存在与该第一手势对应的样本图像，即存在与该第一手势对应的真实图像。此时电子设备可以对与该第一手势对应的真实图像(即第一样本图像)进行编码处理，得到该第一手势对应的手部特征。能够准确、有效地确定出手势对应的手部特征，进而可以提升模型训练的准确性。

结合图2，如图3所示，本公开实施例提供的图像生成模型的训练方法还包括S106。

S106、当样本数据中不存在第一手势的描述信息时，电子设备将预设手部特征确定为第一手势对应的手部特征。

应理解，当该样本数据中不存在该第一手势的描述信息时，说明该样本数据中不存在与该第一手势对应的样本图像，即不存在与该第一手势对应的真实图像。此时电子设备可以随机为该第一手势分配一个手部特征(即该预设手部特征)，能够快速、有效地确定出手势对应的手部特征。

上述实施例提供的技术方案至少能够带来以下有益效果：由S106可知，当样本数据中不存在第一手势的描述信息时，说明该样本数据中不存在与该第一手势对应的样本图像，即不存在与该第一手势对应的真实图像。此时电子设备可以随机为该第一手势分配一个手部特征，能够快速、有效地确定出手势对应的手部特征，进而可以提升模型训练的效率。

结合图2，如图4所示，在本公开实施例的一种实现方式中，上述电子设备确定至少一个势的空间信息具体可以包括S1011。

S1011、电子设备基于第一手势的描述信息对第一手势进行渲染处理，得到第一手势的空间信息。

其中，该第一手势的空间信息包括该第一手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数，该第一手势为上述至少一个手势中的一个。

可选地，电子设备可以通过渲染函数(render)对该第一手势进行渲染处理。

在一种可选的实现方式中，一个手势的空间信息可以理解为在预设空间下进行体素表示的结果，该手势的空间信息(或体素)需要与该手势对应的图片对齐。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1011可知，电子设备可以基于一个手势的描述信息对该手势进行渲染处理，得到的该手势的空间信息包括该手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数，该每个关键点的三维坐标以及该每个关键点的旋转参数能够更加准确地表征出该第一手势的空间信息，进而可以提升模型训练的准确性。

结合图1，如图5所示，在本公开实施例的一种实现方式中，上述电子设备基于每个手势对应的手部特征、与至少一个手势对应的目标图像以及与至少一个手势对应的样本图像，对第一图像生成模型训练，生成第二图像生成模型，具体可以包括S1031-S1035。

S1031、电子设备确定第一损失。

其中，该第一损失用于表征上述至少一个手势中每个手势对应的手部特征的概率分布与预设正态分布之间的不一致程度。

应理解，该每个手势对应的手部特征的概率分布可以为正态分布(或高斯分布)。

在一种可选的实现方式中，该预设正态分布可以为标准正态分布，即是以0为平均数、以1为标准差的正态分布，可以记为N(0，1)。

可选地，电子设备可以将该每个手势对应的手部特征的概率分布与预设正态分布之间的K-L散度(或相对熵)确定为该第一损失。

即电子设备可以确定该第一损失满足下述公式：

L₁＝KL(A,B)

其中，L表示该第一损失，A表示该每个手势对应的手部特征的概率分布，B表示该预设正态分布，KL(A,B)表示该每个手势对应的手部特征的概率分布与预设正态分布之间的K-L散度。

S1032、电子设备将至少一个目标图像中的每一个目标图像输入初始判别器，得到第一概率。

其中，该第一概率用于表征该每一个目标图像被判别为第一标签的概率，该第一标签用于表征样本图像，该至少一个目标图像为与上述至少一个手势对应的目标图像。

本公开实施例中，一个样本图像可以理解为一个真实图像。

应理解，该初始判别器用于对输入的每一个图像(包括该每一个目标图像以及上述每一个样本图像)进行判别，以确定该每一个图像为第一标签(即样本图像)的概率以及该每一个图像为第二标签(即非样本图像)的概率。

可以理解的是，该第一概率可以为该每一个目标图像被判别为第一标签的概率之和。

S1033、电子设备确定第二损失。

其中，该第二损失用于表征至少一个样本图像中每一个样本图像的像素与该至少一个目标图像的像素之间的不一致程度，该至少一个样本图像为上述至少一个手势对应的样本图像。

在一种可选的实现方式中，电子设备可以基于L1范数损失函数(即最小绝对值误差)确定该第二损失。具体的，电子设备可以确定该第二损失满足下述公式：

其中，L₂表示该第二损失，P_i表示第i个样本图像的像素，P_i'表示该第i个样本图像对应的目标图像的像素，n表示该至少一个样本图像的数量，1≤i≤n。

S1034、电子设备基于第一损失、第一概率以及第二损失，确定第三损失。

可选地，电子设备可以将该第一损失、该第一概率以及该第二损失之和，确定为该第三损失。

S1035、电子设备基于第三损失，更新第一图像生成模型中的参数，生成第二图像生成模型。

上述实施例提供的技术方案至少能够带来以下有益效果：由S1031-S1035可知，电子设备可以确定第一损失和第二损失，并且将至少一个目标图像中的每一个目标图像输入初始判别器，得到第一概率；然后该电子设备可以基于该第一损失、该第二损失以及该第一概率确定第三损失，并且基于该第三损失更新第一图像生成模型中的参数，生成第二图像生成模型。本公开实施例中，由于该第一损失用于表征每个手势对应的手部特征的概率分布与预设正态分布之间的不一致程度，该第二损失用于表征至少一个样本图像中每一个样本图像的像素与该至少一个目标图像的像素之间的不一致程度，该第一概率用于表征每一个目标对象被判别为第一标签(即样本图像)的概率，如此电子设备基于第三损失，能够准确、有效地对第一图像生成模型中的参数进行更新，能够训练出准确性及真实性更高的第二图像生成模型。

结合图5，如图6所示，本公开实施例提供的图像生成模型的训练方法还可以包括S107-S110。

S107、电子设备将为每一个目标图像输入初始判别器，得到第二概率。

其中，该第二概率用于表征该每一个目标图像被判别为第二标签的概率，该第二标签用于表征非样本图像。

结合上述实施例的描述，应理解，该初始判别器用于对输入的每一个图像(包括该每一个目标图像以及每一个样本图像)进行判别，以确定该每一个图像为第一标签(即样本图像)的概率以及该每一个图像为第二标签(即非样本图像)的概率。

本公开实施例中，一个非样本图像可以理解为一个新生成的图像，具体为基于一个图像生成模型(例如第一图像生成模型或第二图像生成模型)生成的新的图像。

可以理解的是，该第二概率可以为该每一个目标图像被判别为第二标签的概率之和。

S108、电子设备将每一个样本图像输入初始判别器，得到第三概率。

其中，该第三概率用于表征该每一个样本图像被判别为上述第一标签的概率。

应理解，该第三概率可以为该每一个样本图像被判别为第一标签的概率之和。

S109、电子设备基于第二概率以及第三概率，确定第四损失。

可选地，电子设备可以将该第二概率以及该第三概率之和，确定为该第四损失。

S110、电子设备基于第四损失，更新初始判别器中的参数，生成目标判别器。

上述实施例提供的技术方案至少能够带来以下有益效果：由S107-S110可知，电子设备可以将每一个目标图像输入初始判别器得到第二概率，并且将每一个样本图像输入该初始判别器得到第三概率；然后该电子设备可以基于该第二概率以及该第三概率确定第四损失，并且基于该第四损失，更新该初始判别器中的参数，生成目标判别器。本申请实施例中，由于该第二概率用于表征该每一个目标图像被判别为第二标签(即非样本图像)的概率，该第三概率用于表征该每一个样本图像被判别为第一标签(即样本图像)的概率，如此电子设备基于第四损失，能够准确、有效地对初始判别器中的参数进行更新，能够训练出准确度更高的目标判别器，该目标判别器能够更加准确地判别出每一个输入的图像是否为真实图像。

在本公开实施例的一种实现方式中，上述初始判别器可以包括第一初始判别器以及第二初始判别器，该第一初始判别器为手部特征对应的初始判别器，该第二初始判别器为空间信息对应的判别器。

应理解，该第一初始判别器用于监督优化手部特征的真实性，该第二初始判别器用于监督优化手部的形状。

如图7所示，本公开实施例提供的图像生成方法可以包括S201-S202。

S201、电子设备确定预设手势的空间信息以及预设手部特征。

其中，该预设手势的空间信息用于表征该预设手势中包括的至少两个关键点之间的位置信息，该预设手部特征用于表征手部的属性信息。颜色、手部的特征以及手部的纹理中的至少一项。

结合上述实施例的描述，应理解，手部的属性信息可以包括手部的颜色、手部的亮度以及手部的纹理中的至少一项，该属性信息可以表征手部的风格(或样式)。

在一种可选的实现方式中，该预设手势可以为上述至少一个手势中的一个。

S202、电子设备将预设手势的空间信息以及预设手部特征输入第二图像生成模型，得到目标生成图像。

其中，该第二图像生成模型是基于上述本公开实施例中提供的图像生成模型的训练方法训练得到的。

具体的，该第二图像生成模型是电子设备基于至少一个手势中每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对第一图像生成模型训练生成的。与该至少一个手势对应的目标图像是电子设备将该每个手势的空间信息以及该每个手势的手部特征输入该第一图像生成模型得到的，与该至少一个手势对应的样本图像为样本数据中包括的图像。

可以理解的是，该第一图像生成模型为初始状态下的图像生成模型，该第二图像生成模型为已经训练完成的图像生成模型。

上述实施例提供的技术方案至少能够带来以下有益效果：由S201-S202可知，电子设备可以确定预设手势的空间信息以及预设手部特征；然后该电子设备可以将该预设手势的空间信息以及该预设手部特征输入第二图像生成模型，得到目标生成图像。本公开实施例中，由于一个手部特征用于表征手部的属性信息，该属性信息可以表征手部的风格(或样式)，并且该第二图像生成模型的真实性较高；如此，电子设备将预设手部特征以及该预设手势的空间信息输入该第二图像生成模型，能够生成真实性更高的目标生成图像，该目标生成图像更贴近于真实图像，能够提升图像生成的有效性，提高图像的真实性。

结合图7，如图8所示，本公开实施例提供的图像生成方法还可以包括S203-S204。

S203、电子设备获取预设手势的描述信息。

其中，该预设手势的描述信息用于表征该预设手势的含义。

S204、电子设备基于预设手势的描述信息对预设手势进行渲染处理，得到预设手势的空间信息。

其中，该预设手势的空间信息包括该预设手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数。

需要说明的是，电子设备基于预设手势的描述信息对预设手势进行渲染处理，得到预设手势的空间信息的解释说明，与上述电子设备基于第一手势的描述信息对第一手势进行渲染处理，得到第一手势的空间信息的描述是相同或类似的，此处不再赘述。

上述实施例提供的技术方案至少能够带来以下有益效果：由S203-S204可知，电子设备可以获取预设手势的描述信息，并且基于该预设手势的描述信息对该预设手势进行渲染处理，得到该预设手势的空间信息，该预设手势的空间信息包括该预设手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数。本公开实施例中，该每个关键点的三维坐标以及该每个关键点的旋转参数能够更加准确地表征出该预设手势的空间信息，进而可以提升图像生成的准确性。

可以理解的，在实际实施时，本公开实施例所述的电子设备可以包含有用于实现前述对应图像生成模型的训练方法以及图像生成方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

基于这样的理解，本公开实施例还对应提供一种图像生成模型的训练装置，图9示出了本公开实施例提供的图像生成模型的训练装置的结构示意图。如图9所示，该图像生成模型的训练装置10可以包括：确定模块101和处理模块102。

确定模块101，被配置为确定至少一个手势的空间信息以及手部特征，其中，一个手势的空间信息用于表征该手势中包括的至少两个关键点之间的位置关系，该手部特征用于表征手部的属性信息。

处理模块102，被配置为将该至少一个手势中每个手势的空间信息以及该每个手势对应的手部特征输入第一图像生成模型，得到与该至少一个手势对应的目标图像。

处理模块102，还被配置为基于该每个手势对应的手部特征、与该至少一个手势对应的目标图像以及与该至少一个手势对应的样本图像，对该第一图像生成模型训练，生成第二图像生成模型。

可选地，该图像生成模型的训练装置10还包括获取模块103。

获取模块103，被配置为获取样本数据，该样本数据包括至少一个样本图像以及该至少一个样本图像中每一个样本图像中包括的手势的描述信息，其中，一个样本图像中包括的手势的描述信息用于表征该样本图像中包括的手势的含义，该至少一个样本图像为与该至少一个手势对应的样本图像。

处理模块102，还被配置为当该样本数据中存在第一手势的描述信息时，对第一样本图像进行编码处理，得到该第一手势对应的手部特征，该第一手势为该至少一个手势中的一个，该第一样本图像为与该第一手势对应的样本图像。

可选地，确定模块101，还被配置为当该样本数据中不存在该第一手势的描述信息时，将预设手部特征确定为该第一手势对应的手部特征。

可选地，处理模块102，具体被配置为基于第一手势的描述信息对该第一手势进行渲染处理，得到该第一手势的空间信息，该第一手势的空间信息包括该第一手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数，该第一手势为该至少一个手势中的一个。

可选地，确定模块101，具体被配置为确定第一损失，该第一损失用于表征该每个手势对应的手部特征的概率分布与预设正态分布之间的不一致程度。

处理模块102，具体被配置为将至少一个目标图像中的每一个目标图像输入初始判别器，得到第一概率，该第一概率用于表征该每一个目标图像被判别为第一标签的概率，该第一标签用于表征样本图像，该至少一个目标图像为与该至少一个手势对应的目标图像。

确定模块101，具体还被配置为确定第二损失，该第二损失用于表征至少一个样本图像中每一个样本图像的像素与该至少一个目标图像的像素之间的不一致程度，该至少一个样本图像为与该至少一个手势对应的样本图像。

确定模块101，具体还被配置为基于该第一损失、该第一概率以及该第二损失，确定第三损失。

处理模块102，具体还被配置为基于该第三损失，更新该第一图像生成模型中的参数，生成该第二图像生成模型。

可选地，处理模块102，还被配置为将该每一个目标图像输入该初始判别器，得到第二概率，该第二概率用于表征该每一个目标图像被判别为第二标签的概率，该第二标签用于表征非样本图像。

处理模块102，还被配置为将该每一个样本图像输入该初始判别器，得到第三概率，该第三概率用于表征该每一个样本图像被判别为该第一标签的概率。

确定模块101，还被配置为基于该第二概率以及该第三概率，确定第四损失。

处理模块102，还被配置为基于该第四损失，更新该初始判别器中的参数，生成目标判别器。

如上所述，本公开实施例可以根据上述方法示例对图像生成模型的训练装置进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的图像生成模型的训练装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

图10是本公开提供的另一种图像生成模型的训练装置的结构示意图。如图10，该图像生成模型的训练装置20可以包括至少一个处理器201以及用于存储处理器可执行指令的存储器203。其中，处理器201被配置为执行存储器203中的指令，以实现上述实施例中的图像生成模型的训练方法。

另外，图像生成模型的训练装置20还可以包括通信总线202以及至少一个通信接口204。

处理器201可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线202可包括一通路，在上述组件之间传送信息。

通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器203用于存储执行本公开方案的指令，并由处理器201来控制执行。处理器201用于执行存储器203中存储的指令，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图10中的CPU0和CPU1。

在具体实现中，作为一种实施例，图像生成模型的训练装置20可以包括多个处理器，例如图10中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，图像生成模型的训练装置20还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，LCD)，发光二级管(lightemitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接受用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

图11为本公开提供的一种图像生成装置的结构示例图。如图11所示，该图像生成装置30可以包括：确定模块301和处理模块302。

确定模块301，被配置为确定预设手势的空间信息以及预设手部特征，该预设手势的空间信息用于表征该预设手势中包括的至少两个关键点之间的位置关系，该预设手部特征用于表征手部的属性信息。

处理模块302，被配置为将该预设手势的空间信息以及该预设手部特征输入第二图像生成模型，得到目标生成图像，该第二图像生成模型是基于上述本公开实施例中提供的图像生成模型的训练方法训练得到的。

可选地，该图像生成装置30还包括获取模块303。

获取模块303，被配置为获取该预设手势的描述信息，该预设手势的描述信息用于表征该预设手势的含义。

处理模块302，还被配置为基于该预设手势的描述信息对该预设手势进行渲染处理，得到该预设手势的空间信息，该预设手势的空间信息包括该预设手势中包括的至少两个关键点中每个关键点的三维坐标以及该每个关键点的旋转参数。

图12是本公开提供的另一种图像生成装置的结构示意图。如图12，该图像生成装置40可以包括至少一个处理器401以及用于存储处理器可执行指令的存储器403。其中，处理器401被配置为执行存储器403中的指令，以实现上述实施例中的图像生成方法。

另外，图像生成装置40还可以包括通信总线402以及至少一个通信接口404。

处理器401可以是一个CPU，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线402可包括一通路，在上述组件之间传送信息。

通信接口404，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，RAN，WLAN等。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器403用于存储执行本公开方案的指令，并由处理器401来控制执行。处理器401用于执行存储器403中存储的指令，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器401可以包括一个或多个CPU，例如图12中的CPU0和CPU1。

在具体实现中，作为一种实施例，图像生成装置40可以包括多个处理器，例如图12中的处理器401和处理器407。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，图像生成装置40还可以包括输出设备405和输入设备406。输出设备405和处理器401通信，可以以多种方式来显示信息。例如，输出设备405可以是LCD，LED显示设备，CRT显示设备，或投影仪(projector)等。输入设备406和处理器401通信，可以以多种方式接受用户的输入。例如，输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，上述图10以及图12中示出的结构并不构成对图像生成模型的训练装置以及图像生成装置的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

另外，本公开还提供一种计算机可读存储介质，包括指令，当指令由电子设备的处理器执行时，使得电子设备执行如上述实施例所提供的图像生成模型的训练方法以及图像生成方法。

另外，本公开还提供一种计算机程序产品，包括指令，当指令由电子设备的处理器执行时，使得电子设备执行如上述实施例所提供的图像生成模型的训练方法以及图像生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种图像生成模型的训练方法，其特征在于，包括：

确定至少一个手势的空间信息以及手部特征，其中，一个手势的空间信息用于表征所述手势中包括的至少两个关键点之间的位置关系，所述手部特征用于表征手部的属性信息；

将所述至少一个手势中每个手势的空间信息以及所述每个手势对应的手部特征输入第一图像生成模型，得到与所述至少一个手势对应的目标图像；

基于所述每个手势对应的手部特征、与所述至少一个手势对应的目标图像以及与所述至少一个手势对应的样本图像，对所述第一图像生成模型训练，生成第二图像生成模型。

2.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述方法还包括：

获取样本数据，所述样本数据包括至少一个样本图像以及所述至少一个样本图像中每一个样本图像中包括的手势的描述信息，其中，一个样本图像中包括的手势的描述信息用于表征所述样本图像中包括的手势的含义，所述至少一个样本图像为与所述至少一个手势对应的样本图像；

当所述样本数据中存在第一手势的描述信息时，对第一样本图像进行编码处理，得到所述第一手势对应的手部特征，所述第一手势为所述至少一个手势中的一个，所述第一样本图像为与所述第一手势对应的样本图像。

3.根据权利要求2所述的图像生成模型的训练方法，其特征在于，所述方法还包括：

当所述样本数据中不存在所述第一手势的描述信息时，将预设手部特征确定为所述第一手势对应的手部特征。

4.根据权利要求1-3中任一项所述的图像生成模型的训练方法，其特征在于，所述确定至少一个手势的空间信息，包括：

基于第一手势的描述信息对所述第一手势进行渲染处理，得到所述第一手势的空间信息，所述第一手势的空间信息包括所述第一手势中包括的至少两个关键点中每个关键点的三维坐标以及所述每个关键点的旋转参数，所述第一手势为所述至少一个手势中的一个。

5.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述基于所述每个手势对应的手部特征、与所述至少一个手势对应的目标图像以及与所述至少一个手势对应的样本图像，对所述第一图像生成模型训练，生成第二图像生成模型，包括：

确定第一损失，所述第一损失用于表征所述每个手势对应的手部特征的概率分布与预设正态分布之间的不一致程度；

将至少一个目标图像中的每一个目标图像输入初始判别器，得到第一概率，所述第一概率用于表征所述每一个目标图像被判别为第一标签的概率，所述第一标签用于表征样本图像，所述至少一个目标图像为与所述至少一个手势对应的目标图像；

确定第二损失，所述第二损失用于表征至少一个样本图像中每一个样本图像的像素与所述至少一个目标图像的像素之间的不一致程度，所述至少一个样本图像为与所述至少一个手势对应的样本图像；

基于所述第一损失、所述第一概率以及所述第二损失，确定第三损失；

基于所述第三损失，更新所述第一图像生成模型中的参数，生成所述第二图像生成模型。

6.根据权利要求5所述的图像生成模型的训练方法，其特征在于，所述方法还包括：

将所述每一个目标图像输入所述初始判别器，得到第二概率，所述第二概率用于表征所述每一个目标图像被判别为第二标签的概率，所述第二标签用于表征非样本图像；

将所述每一个样本图像输入所述初始判别器，得到第三概率，所述第三概率用于表征所述每一个样本图像被判别为所述第一标签的概率；

基于所述第二概率以及所述第三概率，确定第四损失；

基于所述第四损失，更新所述初始判别器中的参数，生成目标判别器。

7.一种图像生成方法，其特征在于，包括：

确定预设手势的空间信息以及预设手部特征，所述预设手势的空间信息用于表征所述预设手势中包括的至少两个关键点之间的位置关系，所述预设手部特征用于表征手部的属性信息；

将所述预设手势的空间信息以及所述预设手部特征输入第二图像生成模型，得到目标生成图像，所述第二图像生成模型是基于权利要求1-6中任一项所述的图像生成模型的训练方法训练得到的。

8.根据权利要求7所述的图像生成方法，其特征在于，所述方法还包括：

获取所述预设手势的描述信息，所述预设手势的描述信息用于表征所述预设手势的含义；

基于所述预设手势的描述信息对所述预设手势进行渲染处理，得到所述预设手势的空间信息，所述预设手势的空间信息包括所述预设手势中包括的至少两个关键点中每个关键点的三维坐标以及所述每个关键点的旋转参数。

9.一种图像生成模型的训练装置，其特征在于，包括：确定模块和处理模块；

所述确定模块，被配置为确定至少一个手势的空间信息以及手部特征，其中，一个手势的空间信息用于表征所述手势中包括的至少两个关键点之间的位置关系，所述手部特征用于表征手部的属性信息；

所述处理模块，被配置为将所述至少一个手势中每个手势的空间信息以及所述每个手势对应的手部特征输入第一图像生成模型，得到与所述至少一个手势对应的目标图像；

所述处理模块，还被配置为基于所述每个手势对应的手部特征、与所述至少一个手势对应的目标图像以及与所述至少一个手势对应的样本图像，对所述第一图像生成模型训练，生成第二图像生成模型。

10.一种图像生成装置，其特征在于，包括：确定模块和处理模块；

所述确定模块，被配置为确定预设手势的空间信息以及预设手部特征，所述预设手势的空间信息用于表征所述预设手势中包括的至少两个关键点之间的位置关系，所述预设手部特征用于表征手部的属性信息；

所述处理模块，被配置为将所述预设手势的空间信息以及所述预设手部特征输入第二图像生成模型，得到目标生成图像，所述第二图像生成模型是基于权利要求1-6中任一项所述的图像生成模型的训练方法训练得到的。

11.一种电子设备，其特征在于，所述电子设备包括：

处理器；

被配置为存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述的图像生成模型的训练方法，或者实现如权利要求7或8所述的图像生成方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-6中任一项所述的图像生成模型的训练方法，或者执行如权利要求7或8所述的图像生成方法。