CN117173269A

CN117173269A - 一种人脸图像生成方法、装置、电子设备和存储介质

Info

Publication number: CN117173269A
Application number: CN202311124685.6A
Authority: CN
Inventors: 张晓峰; 颜聪泉; 杨彭举; 谢迪
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-12-05

Abstract

本申请实施例提供了一种人脸图像生成方法、装置、电子设备和存储介质，该人脸图像生成方法包括：获取待生成人脸图像的目标描述信息，并基于预设的描述信息与特征序列的对应关系，确定目标描述信息所对应的目标特征序列；基于预设的特征序列与人脸特征的对应关系，确定目标特征序列所对应的目标人脸特征，并利用目标人脸特征，生成初始人脸图像；获取针对初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定目标调整信息和初始人脸图像对应的目标人脸图像。应用本申请实施例提供的人脸图像生成方法可以提高所生成的人脸图像的精度。

Description

一种人脸图像生成方法、装置、电子设备和存储介质

技术领域

本申请涉及图像生成技术领域，特别是涉及一种人脸图像生成方法、装置、电子设备和存储介质。

背景技术

在一些应用场景下，需要根据用户的想法生成符合用户需求的人脸画像，例如，影视作品中的人脸图像生成，可以避免使用真实人脸带来的肖像侵权问题；游戏中的形象融合照，可以提升玩家的DIY乐趣，可以自主决定游戏中的角色形象等等。

然而，相关技术中，通常，所生成的人脸图像并不能很好地符合用户的想法，从而，与用户所希望得到的人脸图像的差距较大，即所生成的人脸图像的精度较低，因此，当前亟需一种人脸图像生成方法以提高所生成的人脸图像的精度。

发明内容

本申请实施例的目的在于提供一种人脸图像生成方法、装置、电子设备和存储介质，以提高所生成的人脸图像的精度。具体技术方案如下：

第一方面，本申请实施例提供了一种人脸图像生成方法，所述方法包括：

获取待生成人脸图像的目标描述信息，并基于预设的描述信息与特征序列的对应关系，确定所述目标描述信息所对应的目标特征序列；

基于预设的特征序列与人脸特征的对应关系，确定所述目标特征序列所对应的目标人脸特征，并利用所述目标人脸特征，生成初始人脸图像；

获取针对所述初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定所述目标调整信息和所述初始人脸图像对应的目标人脸图像；其中，所述第二人脸图像和所述第一人脸图像为同一对象的人脸图像；所述调整信息是基于所述第一人脸图像确定的。

可选的，一种具体实现方式中，所述基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定所述目标调整信息和所述初始人脸图像对应的目标人脸图像，包括：

将所述初始人脸图像和所述目标调整信息输入至预设的人脸调整模型，并获取所述人脸调整模型输出的目标人脸图像；

其中，所述人脸调整模型的训练方式，包括：

将预设的第一人脸图像、调整信息和第二人脸图像输入到预设的第一初始模型中，并获取所述第一初始模型生成的样本调整图像，以及基于所述样本调整图像和所述第一人脸图像确定的所述第一初始模型的第一损失函数；其中，所述样本调整图像是通过对所述第二人脸图像和所述调整信息进行特征融合得到的；

若所述第一损失函数满足第一损失条件，则停止训练，得到人脸调整模型；

若所述第一损失函数不满足第一损失条件，根据所述第一损失函数，调整所述第一初始模型的模型参数，并返回所述获取所述第一初始模型生成的样本调整图像的步骤。

可选的，一种具体实现方式中，所述基于预设的特征序列与人脸特征的对应关系，确定所述目标特征序列所对应的目标人脸特征，并利用所述目标人脸特征，生成初始人脸图像，包括：

将所述目标特征序列输入至预设的图像重构模型中，并获取所述图像重构模型输出的初始人脸图像；

其中，所述图像重构模型的训练方式，包括：

将样本人脸图像输入预设的第二初始模型，并获取所述第二初始模型生成的预测人脸图像，以及基于所述样本人脸图像和所述预测人脸图像，确定的所述第二初始模型的第二损失函数；

若所述第二损失函数满足第二损失条件，则停止训练，得到图像重构模型；

若所述第二损失函数不满足所述第二损失条件，则根据所述第二损失函数，调整所述第二初始模型的模型参数，并返回所述获取所述第二初始模型生成的预测人脸图像的步骤；

所述图像重构模型包括：解码器、码本和编码器；

所述编码器用于对所述样本人脸图像进行特征提取，得到样本特征序列；

所述解码器用于对所述码本中所述样本特征序列对应的样本人脸特征进行解码，得到所述预测人脸图像。

可选的，一种具体实现方式中，所述基于预设的描述信息与特征序列的对应关系，确定所述目标描述信息所对应的目标特征序列，包括：

将所述目标描述信息输入预设的序列特征提取模型，并获取所述序列特征提取模型输出的特征序列，作为所述目标描述信息所对应的目标特征序列；

其中，所述序列特征提取模型的训练方式，包括：

将样本描述信息输出到预设的第三初始模型中，并获取所述第三初始模型输出的样本特征序列；

将所述样本特征序列输入到所述图像重构模型中，并获取所述图像重构模型输出的样本重构图像，以及基于所述样本描述信息对应的样本描述图像和所述样本重构图像，确定的所述第三初始模型的第三损失函数；

若所述第三损失函数满足第三损失条件，则停止训练，得到序列特征提取模型；

若所述第三损失函数不满足第三损失条件，则根据所述第三损失函数，调整所述第三初始模型的模型参数，并返回所述获取所述第三初始模型输出的样本特征序列的步骤。

可选的，一种具体实现方式中，在所述获取针对所述初始人脸图像的目标调整信息之前，所述方法还包括：

检测是否获取到所述初始人脸图像的新增描述信息；

如果是，将所述新增描述信息添加至所述目标描述信息，并返回所述基于预设的描述信息与特征序列的对应关系，确定所述目标描述信息所对应的目标特征序列的步骤；

否则，获取针对所述初始人脸图像的目标调整信息。

可选的，一种具体实现方式中，所述获取待生成人脸图像的目标描述信息，包括：

获取待生成人脸图像的语音描述信息，作为所述待生成人脸图像的目标描述信息。

第二方面，本申请实施例提供了一种人脸图像生成设备，所述设备包括：语音采集装置和图像生成装置；

所述语音采集装置，用于获取待生成人脸图像的语音描述信息，作为所述待生成人脸图像的目标描述信息，并将所述目标描述信息传输至所述图像生成装置；

所述图像生成装置，用于执行上述任一所述的人脸图像生成方法。

第三方面，本申请实施例提供了一种人脸图像生成装置，所述装置包括：

序列确定模块，用于获取待生成人脸图像的目标描述信息，并基于预设的描述信息与特征序列的对应关系，确定所述目标描述信息所对应的目标特征序列；

特征确定模块，用于基于预设的特征序列与人脸特征的对应关系，确定所述目标特征序列所对应的目标人脸特征，并利用所述目标人脸特征，生成初始人脸图像；

图像确定模块，用于获取针对所述初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定所述目标调整信息和所述初始人脸图像对应的目标人脸图像；其中，所述第二人脸图像和所述第一人脸图像为同一对象的人脸图像；所述调整信息是基于所述第一人脸图像确定的。

可选的，一种具体实现方式中，所述图像确定模块具体用于：

其中，所述人脸调整模型的训练方式，包括：

可选的，一种具体实现方式中，所述特征确定模块具体用于：

其中，所述图像重构模型的训练方式，包括：

所述图像重构模型包括：解码器、码本和编码器；

可选的，一种具体实现方式中，所述序列确定模块具体用于：

其中，所述序列特征提取模型的训练方式，包括：

可选的，一种具体实现方式中，所述装置还包括：

信息检测模块，用于检测是否获取到所述初始人脸图像的新增描述信息；

信息添加模块，用于如果是，将所述新增描述信息添加至所述目标描述信息，并返回所述基于预设的描述信息与特征序列的对应关系，确定所述目标描述信息所对应的目标特征序列的步骤；

信息获取模块，用于否则，获取针对所述初始人脸图像的目标调整信息。

第四方面，本申请实施例提供了一种电子设备，包括：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的人脸图像生成方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的人脸图像生成方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的人脸图像生成方法。

本申请实施例有益效果：

以上可见，应用本申请实施例提供的方案，可以先获取待生成人脸图像的目标描述信息，并基于预设的描述信息与特征序列的对应关系，确定目标描述信息所对应的目标特征序列；进而，基于预设的特征序列与人脸特征的对应关系，可以确定目标特征序列所对应的目标人脸特征，并利用所得到的目标人脸特征，生成初始人脸图像；然后，获取针对初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定目标调整信息和初始人脸图像对应的目标人脸图像。

基于此，应用本申请实施例提供的方案，可以根据待生成人脸图像的目标描述信息，生成初始人脸图像，然后再根据目标调整信息对初始人脸图像进行优化，从而得到目标人脸图像。由于上述第一人脸图像和第二人脸图像为同一对象的人脸图像，调整信息是基于第一人脸图像确定的，且第一人脸图像、调整信息和第二人脸图像可以存在一个预设的对应关系，进而，基于该预设的对应关系，根据调整信息和第二人脸图像，便可以得到第一人脸图像。因此，上述第二人脸图像可以为初始人脸图像，上述第一人脸图像可以为用户希望得到的待生成人脸图像，目标调整信息可以为用户根据其希望得到的待生成人脸图像所提供的调整信息，在得到初始人脸图像后，根据目标调整信息和初始人脸图像确定目标人脸图像，可以使所得到的目标人脸图像更接近于用户所希望得到的待生成人脸图像，也就是说，应用本申请实施例提供的方案，可以提高所生成的人脸图像的精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的人脸图像生成方法的一种流程示意图；

图2为本申请实施例应用的一种VQVAE模型的示意图；

图3为本申请实施例提供的对第一初始模型进行模型训练的一种流程示意图；

图4为本申请实施例提供的一种人脸调整模型根据初始人脸图像生成目标人脸图像的示意图；

图5为本申请实施例提供的一种人脸图像生成装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图；

图7为本申请实施例提供的一种人脸图像生成设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

相关人脸生成技术中，所生成的人脸图像并不能很好地符合用户的想法，从而，与用户所希望得到的人脸图像的差距较大，即所生成的人脸图像的精度较低，因此，当前亟需一种人脸图像生成方法以提高所生成的人脸图像的精度。

基于此，本申请实施例提供了一种人脸图像生成方法。

其中，该方法适用于各种需要进行人脸生成的场景，例如，影视作品中的人脸图像生成，可以避免使用真实人脸带来的肖像侵权问题；游戏中的通过人脸图像生成创建虚拟形象，等等。对此，本申请实施例不进行具体限定。

并且，该方法可以应用于服务器、笔记本电脑、台式电脑等各种可以获取数据并进行数据处理的电子设备，以下简称电子设备。其中，该电子设备可以是一个独立的电子设备，也可以是多个电子设备的集群。基于此，本申请实施例不对执行主体进行具体限定。

需要说明的是，本申请的技术方案中，所涉及的用户个人信息的获取、存储、使用、加工、传输、提供和公开等操作，均是在已取得用户授权的情况下进行的。

需要说明的是，本实施例中的人脸图像并不是针对某一特定用户的人脸图像，并不能反映出某一特定用户的个人信息。

需要说明的是，本实施例中的人脸图像来自于公开数据集。

本申请实施例提供的一种人脸图像生成方法，可以包括如下步骤：

下面，结合附图，对本申请实施例提供的一种人脸图像生成方法进行具体说明。

图1为本申请实施例提供的人脸图像生成方法的一种流程示意图，如图1所示，该方法可以包括如下步骤S101-S103。

S101：获取待生成人脸图像的目标描述信息，并基于预设的描述信息与特征序列的对应关系，确定目标描述信息所对应的目标特征序列。

在应用本申请实施例提供的人脸图像生成方法生成人脸图像时，可以先获取待生成人脸图像的目标描述信息，描述信息和特征序列之间可以存在一个预设的对应关系，进而，便可以基于该对应关系，确定目标描述信息所对应的目标特征序列。

其中，上述描述信息可以为语音描述信息、文字描述信息、图像描述信息等各种形式，本申请实施例在此不进行具体限定。

可选的，当上述描述信息为语音描述信息时，本申请实施例的执行主体可以是具有声音采集功能的电子设备，如嵌入有麦克风或与麦克风相连接的手机、平板电脑、笔记本电脑等；当上述描述信息为文字描述信息时，本申请实施例的执行主体可以是具有文字录入功能的电子设备，如嵌入有键盘等文字输入设备的或与键盘等文字输入设备相连接的手机、平板电脑、笔记本电脑等，另外，当上述描述信息为文字描述信息时，本申请实施例的执行主体还可以是具有声音采集功能和语音转文字功能的电子设备；当上述描述信息为图像描述信息时，本申请实施例的执行主体可以是具有图像采集功能的电子设备，如嵌入有摄像头等图像采集设备的或与摄像头等图像采集设备相连接的手机、平板电脑、笔记本电脑等。

可选的，一种具体实现方式中，上述描述信息可以为语音描述信息；进而，上述步骤S101：获取待生成人脸图像的目标描述信息，可以包括如下步骤1011。

步骤1011：获取待生成人脸图像的语音描述信息，作为待生成人脸图像的目标描述信息。

也就是说，本申请实施例的执行主体可以为具有声音采集功能的电子设备，用户可以对其所希望生成的待生成人脸图像进行语音描述，电子设备可以通过声音采集获取关于待生成人脸图像的语音描述信息，所获取到的待生成人脸图像的语音描述信息可以作为待生成人脸图像的目标描述信息，电子设备在得到目标描述信息后，便可以基于预设的描述信息与特征序列的对应关系，确定目标描述信息所对应的目标特征序列。

示例性的，上述语音描述信息可以为用户口述的包括“短头发、大眼睛、粗眉毛、高鼻梁、络腮胡、30岁左右的男性”的一段语音。

可选的，上述具有声音采集功能的电子设备可以为包括有嵌入式的声音采集模块的电子设备，如手机、平板电脑等；也可以为与声音采集设备相连接的电子设备，如连接有麦克风的台式电脑。

其中，声音采集设备与电子设备间的连接方式可以为有线连接，也可以为无线连接，本申请实施例不进行具体限定。

S102：基于预设的特征序列与人脸特征的对应关系，确定目标特征序列所对应的目标人脸特征，并利用目标人脸特征，生成初始人脸图像。

在得到目标描述信息所对应的目标特征序列后，可以根据预设的特征序列与人脸特征的对应关系，确定目标特征序列所对应的目标人脸特征，并利用目标人脸特征，生成初始人脸图像。

S103：获取针对初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定目标调整信息和初始人脸图像对应的目标人脸图像。

其中，上述第二人脸图像和上述第一人脸图像为同一对象的人脸图像；上述调整信息是基于上述第一人脸图像确定的。

在生成初始人脸图像后，电子设备可以获取针对初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定目标调整信息和初始人脸图像对应的目标人脸图像。

示例性的，在生成初始人脸图像后，用户可以查看所生成的初始人脸图像和该初始人脸图像的参数值，并根据所希望生成的待生成人脸图像调整该初始人脸图像的参数值，例如，若用户认为初始人脸图像中的人脸的眼睛较小，便可以将该初始人脸图像的参数之中的眼睛大小参数值调大一些。进而，电子设备便可以将用户调整后的参数值作为针对初始人脸图像的目标调整信息。

然而，一次参数调整可能并不能使所得到的目标人脸图像满足用户需求，因此，可选的，在生成目标人脸图像后，用户还可以查看所生成的目标人脸图像，若当前的目标人脸图像不能满足用户需求，用户便可以根据所希望生成的待生成人脸图像继续调整该目标人脸图像的参数值。进而，电子设备便可以将当前的目标人脸图像作为新的初始人脸图像，并获取用户调整后的参数值作为针对新的初始人脸图像的新的目标调整信息，从而基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定新的目标调整信息和新的初始人脸图像对应的新的目标人脸图像。基于此，用户便可以根据所希望生成的待生成人脸图像反复调整所生成的人脸图像的参数值，直至所生成的目标人脸图像可以满足用户需求。

可选的，一种具体实现方式中，用户所提供的目标描述信息可能较少，从而导致电子设备根据目标描述信息所生成的初始人脸图像与用户希望得到的待生成人脸图像的差距可能较大。因此，为了进一步提高所生成的人脸图像的精度，使所生成的人脸图像可以更接近于用户希望得到的待生成人脸图像，在获取针对初始人脸图像的目标调整信息之前，本申请实施例提供的人脸图像生成方法还可以包括如下步骤1021-1022。

步骤1021：检测是否获取到初始人脸图像的新增描述信息。

如果是，则执行步骤1022；否则，执行步骤S103。

步骤1022：将新增描述信息添加至目标描述信息，并返回基于预设的描述信息与特征序列的对应关系，确定目标描述信息所对应的目标特征序列的步骤。

也就是说，在获取针对初始人脸图像的目标调整信息之前，可以先检测是否获取到初始人脸图像的新增描述信息，如果获取到了初始人脸图像的新增描述信息，便可以将新增描述信息添加至目标描述信息，并基于预设的描述信息与特征序列的对应关系，确定添加了新增描述信息的目标描述信息所对应的目标特征序列，从而继续根据新确定的目标特征序列确定初始人脸图像；如果没有获取到初始人脸图像的新增描述信息，便可以获取针对初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定目标调整信息和初始人脸图像对应的目标人脸图像。

可选的，在生成初始人脸图像后，电子设备可以输出该初始人脸图像，用户可以通过客户端查看电子设备所输出的初始人脸图像，并确定是否需要通过增加新的描述信息，重新生成初始人脸图像。用户若确定需要通过增加新的描述信息，重新生成初始人脸图像，便可以通过客户端向电子设备发送关于待生成人脸图像的新增描述信息；用户若确定不需要增加新的描述信息，则可以通过客户端向电子设备发送针对初始人脸图像的目标调整信息。

上述新增描述信息和目标调整信息均可以视作指定信息，电子设备可以接收客户端发送的指定信息，并在接收到指定信息后，检测是否获取到初始人脸图像的新增描述信息。如果指定信息为上述新增描述信息，则说明获取到了初始人脸图像的新增描述信息，电子设备便可以将新增描述信息添加至目标描述信息，并返回上述基于预设的描述信息与特征序列的对应关系，确定目标描述信息所对应的目标特征序列的步骤，从而继续确定新的目标描述信息所对应的目标特征序列，进而确定目标特征序列所对应的目标人脸特征，并利用目标人脸特征，生成初始人脸图像，并在生成初始人脸图像后将该初始人脸图像发送至目标客户端，依此循环，直至在输出初始人脸图像后，用户确定不需要增加新的描述信息。

如果指定信息为针对初始人脸图像的目标调整信息，则说明没有获取到初始人脸图像的新增描述信息，用户已经确定不需要增加新的描述信息，进而，电子设备便可以获取针对初始人脸图像的目标调整信息，基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定目标调整信息和初始人脸图像对应的目标人脸图像。

基于此，应用本具体实现方式，可以通过增加新的描述信息，使所生成的初始人脸图像更加满足用户需求。

另外，由于当上述目标描述信息为语音描述信息时，本申请实施例提供的方法可以应用于具有声音采集功能的电子设备，如手机、平板电脑等，因此，应用本申请实施例提供的方法，用户便可以基于一个手机或一个平板电脑，通过语言描述和参数调整，简单、方便、快捷地得到所希望生成的目标人脸图像。

可选的，一种具体实现方式中，上述步骤S102：基于预设的特征序列与人脸特征的对应关系，确定目标特征序列所对应的目标人脸特征，并利用目标人脸特征，生成初始人脸图像，可以包括如下步骤1。

步骤1：将目标特征序列输入至预设的图像重构模型中，并获取图像重构模型输出的初始人脸图像。

其中，在本具体实现方式中，上述图像重构模型的训练方式，可以包括如下步骤11-13。

步骤11：将样本人脸图像输入预设的第二初始模型，并获取第二初始模型生成的预测人脸图像，以及基于样本人脸图像和预测人脸图像，确定的第二初始模型的第二损失函数。

步骤12：若第二损失函数满足第二损失条件，则停止训练，得到图像重构模型。

步骤13：若第二损失函数不满足第二损失条件，则根据第二损失函数，调整第二初始模型的模型参数，并返回获取第二初始模型生成的预测人脸图像的步骤。

其中，上述第二初始模型可以包括：解码器、码本和编码器；且编码器用于对样本人脸图像进行特征提取，得到样本特征序列；解码器用于对码本中样本特征序列对应的样本人脸特征进行解码，得到预测人脸图像。

由于第二初始模型可以包括：解码器、码本和编码器，且编码器可以对样本人脸图像进行特征提取，得到样本特征序列，解码器可以对码本中样本特征序列对应的样本人脸特征进行解码，得到预测人脸图像，因此，在训练图像重构模型时，可以将样本人脸图像输入预设的第二初始模型，获取第二初始模型生成的预测人脸图像，以及基于样本人脸图像和预测人脸图像，确定的第二初始模型的第二损失函数。如果第二损失函数满足第二损失条件，则可以停止训练，得到图像重构模型；如果第二损失函数不满足第二损失条件，则可以根据第二损失函数，调整第二初始模型的模型参数，并返回获取第二初始模型生成的预测人脸图像的步骤。

进而，由于图像重构模型是通过使用样本人脸图像对第二初始模型进行训练得到的，第二初始模型中的解码器可以对码本中样本特征序列对应的样本人脸特征进行解码，得到预测人脸图像。因此，图像重构模型可以反映特征序列与人脸特征的对应关系，并根据目标人脸特征，生成初始人脸图像。进而，在得到目标特征序列后，便可以将目标特征序列输入至预设的图像重构模型中，并获取图像重构模型输出的初始人脸图像。

可选的，上述第二初始模型可以是各种可以进行图像重构的模型，本申请实施例不进行具体限定。

可选的，一种具体实现方式中，上述第二初始模型可以是如图2所示的VQVAE模型，VQVAE模型可以包括：解码器、码本和编码器，且编码器可以对样本人脸图像进行特征提取，得到样本特征序列，解码器可以对码本中样本特征序列对应的样本人脸特征进行解码，得到预测人脸图像。该VQVAE模型的损失函数的计算过程可以如下。

其中，第一行公式表示的是根据编码器提取出来的特征从码本中采用最近邻的方式来进行量化的过程，q表示量化操作，/>表示的是位置(i,j)处的特征，z_k表示的是码本Z中的任一特征，/>与z_k间的欧式距离/>即为(i,j)处的量化特征。

第二行公式表示根据量化特征z_q生成图像的过程。G表示解码网络，E表示编码网络，x表示输入图像，经过编码网络E得到特征E(x)，再经过量化操作得到量化特征q(E(x))，最后送入解码网络G得到重构图像

第三行公式表示VQVAE模型的训练损失，需要优化的部分分别是编码网络E，解码网络G，以及码本Z。为重构损失，用于表示重构图像/>和输入图像x的L2距离的平方，/>为码本损失，用于约束码本的特征向编码网络的输出靠近；为commitment损失，commitment损失是一种约束网络训练的损失，用于约束编码器的特征向码本靠近，其中sg表示stop gradient，即梯度阻断操作。

可选的，一种具体实现方式中，上述S101中，基于预设的描述信息与特征序列的对应关系，确定目标描述信息所对应的目标特征序列可以包括如下步骤2。

步骤2：将目标描述信息输入预设的序列特征提取模型，并获取序列特征提取模型输出的特征序列，作为目标描述信息所对应的目标特征序列。

其中，上述序列特征提取模型的训练方式，可以包括如下步骤21-23。

步骤21：将样本描述信息输出到预设的第三初始模型中，并获取第三初始模型输出的样本特征序列。

步骤22：将样本特征序列输入到图像重构模型中，并获取图像重构模型输出的样本重构图像，以及基于样本描述信息对应的样本描述图像和样本重构图像，确定的第三初始模型的第三损失函数；

步骤23：若第三损失函数满足第三损失条件，则停止训练，得到序列特征提取模型；

步骤24：若第三损失函数不满足第三损失条件，则根据第三损失函数，调整第三初始模型的模型参数，并返回获取第三初始模型输出的样本特征序列的步骤。

在训练序列特征提取模型时，可以先将样本描述信息输出到预设的第三初始模型中，并获取第三初始模型输出的样本特征序列。然后，将样本特征序列输入到图像重构模型中，并获取图像重构模型输出的样本重构图像，以及基于样本描述信息对应的样本描述图像和样本重构图像，确定的第三初始模型的第三损失函数。进而，如果第三损失函数满足第三损失条件，则可以停止训练，得到序列特征提取模型；如果第三损失函数不满足第三损失条件，则可以根据第三损失函数，调整第三初始模型的模型参数，并返回获取第三初始模型输出的样本特征序列的步骤。

以上可见，序列特征提取模型可以反映描述信息与特征序列的对应关系，因此，在得到目标描述信息后，可以将目标描述信息输入预设的序列特征提取模型，并获取序列特征提取模型输出的特征序列，作为目标描述信息所对应的目标特征序列。

其中，上述第三初始模型可以是各种可以基于描述信息输出特征序列的模型，本申请实施例不进行具体限定。

可选的，一种具体实现方式中，上述第三初始模型可以是Transformer模型。

其中，Transformer模型是自然语言处理的一个模型，其完全基于注意力机制，抛弃了传统的RNN(Recurrent Neural Network，循环神经网络)和CNN(ConvolutionalNeural Network，卷积神经网络)。

可选的，一种具体实现方式中，上述步骤S103中，基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定目标调整信息和初始人脸图像对应的目标人脸图像，可以包括如下步骤3。

步骤3：将初始人脸图像和目标调整信息输入至预设的人脸调整模型，并获取人脸调整模型输出的目标人脸图像。

其中，上述人脸调整模型的训练方式可以包括如下步骤31-33。

步骤31：将预设的第一人脸图像、调整信息和第二人脸图像输入到预设的第一初始模型中，并获取第一初始模型生成的样本调整图像，以及基于样本调整图像和第一人脸图像确定的第一初始模型的第一损失函数。

其中，样本调整图像是通过对第二人脸图像和调整信息进行特征融合得到的。

步骤32：若第一损失函数满足第一损失条件，则停止训练，得到人脸调整模型。

步骤33：若第一损失函数不满足第一损失条件，根据第一损失函数，调整第一初始模型的模型参数，并返回获取第一初始模型生成的样本调整图像的步骤。

在训练人脸调整模型时，可以将预设的第一人脸图像、调整信息和第二人脸图像输入到预设的第一初始模型中，第一初始模型可以对第二人脸图像和调整信息进行特征融合得到样本调整图像，由于调整信息是基于第一人脸图像确定的，因此，第一初始模型对第二人脸图像和调整信息进行特征融合所得到的样本调整图像越接近第一人脸图像，第一初始模型的训练效果越好。因此，可以基于样本调整图像和第一人脸图像确定第一初始模型的第一损失函数。进而，如果第一损失函数满足第一损失条件，则可以停止训练，得到人脸调整模型。如果第一损失函数不满足第一损失条件，则可以根据第一损失函数，调整第一初始模型的模型参数，并返回获取第一初始模型生成的样本调整图像的步骤。

以上可见，人脸调整模型可以反映第一人脸图像、调整信息和第二人脸图像的对应关系，因此，在得到目标调整信息后，可以将目标调整信息输入预设的人脸调整模型，并获取人脸调整模型输出的目标人脸图像。

可选的，一种具体实现方式中，上述人脸调整模型可以为CVQVAE模型。

可选的，一种具体实现方式中，上述人脸调整模型的训练方式可以如图3所示。

由图3可见，可以根据一个预设的人脸属性提取器提取第一人脸图像的人脸属性信息，作为第一人脸图像的调整信息。其中，人脸属性信息可以包括人脸的各项属性值，且属性值可以包括连续值和离散值两种类型，例如，是否佩戴口罩可以表示为0/1这种二值化数值，年龄可以表示为[0,150]之间的整数值，姿态可以表示为[-1,1]之间的连续值，等等。

第一初始模型可以根据人脸属性信息生成属性描述向量，第一初始模型中的属性转换网络可以根据属性描述向量生成大小为R^c*H*w的属性特征图；第一初始模型中的人脸转换网络可以根据第二人脸图像生成大小为R^C*H*W的人脸特征图，将属性特征图和人脸特征图在通道维度(C)串联在一起，可以得到大小为R^2C**的组合特征图。进而，第一初始模型便可以根据组合特征图生成样本调整图像。

其中，上述特征图有三个维度，分别是通道维度C、高度维度H和宽度维度W。

进而，如图4所示，通过训练第一初始模型得到人脸调整模型后，将初始人脸图像和目标调整信息输入人脸调整模型，便可以得到目标人脸图像。

相应于上述本申请实施例提供的一种人脸图像生成方法，本申请实施例还提供了一种人脸图像生成装置。

图5为本申请实施例提供的一种人脸图像生成装置的结构示意图，如图5所示，该人脸图像生成装置可以包括如下模块：

序列确定模块501，用于获取待生成人脸图像的目标描述信息，并基于预设的描述信息与特征序列的对应关系，确定所述目标描述信息所对应的目标特征序列；

特征确定模块502，用于基于预设的特征序列与人脸特征的对应关系，确定所述目标特征序列所对应的目标人脸特征，并利用所述目标人脸特征，生成初始人脸图像；

图像确定模块503，用于获取针对所述初始人脸图像的目标调整信息，并基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定所述目标调整信息和所述初始人脸图像对应的目标人脸图像；其中，所述第二人脸图像和所述第一人脸图像为同一对象的人脸图像；所述调整信息是基于所述第一人脸图像确定的。

其中，所述人脸调整模型的训练方式，包括：

其中，所述图像重构模型的训练方式，包括：

所述图像重构模型包括：解码器、码本和编码器；

其中，所述序列特征提取模型的训练方式，包括：

可选的，一种具体实现方式中，所述装置还包括：

本申请实施例还提供了一种电子设备，如图6所示，包括:

存储器601，用于存放计算机程序；

处理器602，用于执行存储器601上所存放的程序时，本申请实施例提供的任一人脸图像生成方法的步骤。

并且上述电子设备还可以包括通信总线和/或通信接口，处理器602、通信接口、存储器601通过通信总线完成相互间的通信。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种人脸图像生成设备。

图7为本申请实施例提供的一种人脸图像生成设备的结构示意图，如图7所示，该人脸图像生成设备可以包括语音采集装置701和图像生成装置702。

所述语音采集装置701，用于获取待生成人脸图像的语音描述信息，作为所述待生成人脸图像的目标描述信息，并将所述目标描述信息传输至所述图像生成装置；

所述图像生成装置702，用于执行上述任一人脸图像生成方法。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人脸图像生成方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一人脸图像生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者固态硬盘(Solid StateDisk，SSD)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种人脸图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设的第一人脸图像、调整信息和第二人脸图像的对应关系，确定所述目标调整信息和所述初始人脸图像对应的目标人脸图像，包括：

其中，所述人脸调整模型的训练方式，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于预设的特征序列与人脸特征的对应关系，确定所述目标特征序列所对应的目标人脸特征，并利用所述目标人脸特征，生成初始人脸图像，包括：

其中，所述图像重构模型的训练方式，包括：

若所述第二损失函数不满足所述第二损失条件，则根据所述第二损失函数，调整所述第二初始模型的模型参数，并返回所述获取所述第二初始模型生成的预测人脸图像的步骤_；

所述图像重构模型包括：解码器、码本和编码器；

4.根据权利要求3所述的方法，其特征在于，所述基于预设的描述信息与特征序列的对应关系，确定所述目标描述信息所对应的目标特征序列，包括：

其中，所述序列特征提取模型的训练方式，包括：

5.根据权利要求1所述的方法，其特征在于，在所述获取针对所述初始人脸图像的目标调整信息之前，所述方法还包括：

检测是否获取到所述初始人脸图像的新增描述信息；

否则，获取针对所述初始人脸图像的目标调整信息。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获取待生成人脸图像的目标描述信息，包括：

7.一种人脸图像生成设备，其特征在于，所述设备包括：语音采集装置和图像生成装置；

所述图像生成装置，用于执行权利要求1-5任一项所述的人脸图像生成方法。

8.一种人脸图像生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法。