CN117115295B

CN117115295B - 人脸纹理生成方法、电子设备及计算机存储介质

Info

Publication number: CN117115295B
Application number: CN202311284572.2A
Authority: CN
Inventors: 杨超杰; 张涛; 周润楠; 闫浩男
Original assignee: Beijing Digital Power Field Technology Co ltd
Current assignee: Beijing Digital Power Field Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-09-06
Anticipated expiration: 2043-09-28
Also published as: CN117115295A

Abstract

本申请实施例提供了一种人脸纹理生成方法、电子设备及计算机存储介质，其中，人脸纹理生成方法包括：获取去除了头发后的光头人脸图像对应的光头人脸特征图像和随机噪声图像，对所述光头人脸特征图像和所述随机噪声图像进行拼接，获得拼接图像；通过人脸纹理生成模型中的扩散模型对所述拼接图像进行扩散处理，获得与所述光头人脸图像对应的去噪图像；通过所述人脸纹理生成模型中的解码器对所述去噪图像进行解码处理，获得对应的人脸纹理图像。通过本申请实施例，可以使得生成的人脸纹理图像更加真实和自然。

Description

人脸纹理生成方法、电子设备及计算机存储介质

技术领域

本申请实施例涉及视觉处理技术领域，尤其涉及一种人脸纹理生成方法、电子设备及计算机存储介质。

背景技术

随着人工智能技术的发展，越来越多的行业借助于机器学习模型实现不同业务需求，基于人脸UV进行人脸建模便是其中之一。

UV是UVW的简称，意指纹理贴图坐标，其和模型的XYZ坐标互相联系。UV定义了图片上每个点的位置信息，每个模型由一个个的面组成的，UV纹理可以通俗地看作是由这些所有的面构成的模型的“皮肤”。而人脸UV即人脸纹理，则是人脸的“皮肤”，若想生成类似真实人脸的三维人脸模型，则人脸UV的生成至关重要。

现有的人脸UV生成多采用线性化深度学习模型拟合人脸姿态，然后根据人脸关键点的对应关系，从2D人脸映射出人脸UV。但由于是拟合人脸姿态，存在估计不准确等问题，造成人脸UV生成真实感较弱。

发明内容

有鉴于此，本申请实施例提供一种人脸纹理生成方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种人脸纹理生成方法，包括：获取去除了头发后的光头人脸图像对应的光头人脸特征图像和随机噪声图像，对所述光头人脸特征图像和所述随机噪声图像进行拼接，获得拼接图像；通过人脸纹理生成模型中的扩散模型对所述拼接图像进行扩散处理，获得与所述光头人脸图像对应的去噪图像；通过所述人脸纹理生成模型中的解码器对所述去噪图像进行解码处理，获得对应的人脸纹理图像。

根据本申请实施例的第二方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的方法对应的操作。

根据本申请实施例的第三方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

根据本申请实施例提供的方案，通过人脸纹理生成模型来生成人脸纹理图像，一方面，该人脸纹理生成模型以光头人脸特征图像和随机噪声图像拼接后生成的拼接图像为输入，通过扩散和解码处理，可以使得生成的人脸纹理图像更加真实和自然，且通用性较好，只需获得人脸图像的光头图像即可，使用场景广泛。另一方面，该人脸纹理生成模型包括扩散模型和解码器，通过扩散模型可以得到与输入图像对应的、能够满足纹理变换所需的图像，进而再经由解码器转换为人脸纹理图像，通过这种方式，既满足了人脸纹理生成的需求，又因在该过程中不再需要进行人脸姿态拟合，避免了传统人脸姿态拟合方式中存在的估计不准确、人脸纹理生成真实感弱的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为一种示例性的扩散模型的示意图；

图2为一种示例性的编解码模型的示意图；

图3为根据本申请实施例的一种人脸纹理生成模型的结构示意图；

图4为图3所示人脸纹理生成模型中的训练过程的步骤流程图；

图5为图4所示示例中的一种具体人脸纹理生成模型的结构示意图；

图6为根据本申请实施例的一种人脸纹理生成方法的步骤流程图；

图7为根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

为了便于理解本申请实施例的方案，以下首先对扩散模型进行简要示例性说明，一种示例性的扩散模型如图1所示。

扩散模型是图像生成模型的一种，其学习由于噪声引起的信息衰减，然后使用学习到的模式来生成图像，一种上述过程的示意如图1所示，传统方式中，扩散模型利用正向过程的图像加噪和逆向过程的图像去噪，以去噪后图像与原图像的差异为依据，来实现对模型的训练。而在模型的推理阶段，则可直接利用扩散模型的逆向过程实现图像的生成。

对于扩散模型来说，如图1中所示，其使用图像样本即可实现模型训练，包括：在正向过程(如图1中从右向左为正向过程)阶段，通过多个扩散加噪层，对图像样本进行加噪生成加噪后图像样本；在逆向过程阶段，再对正向过程生成的加噪后图像样本进行去噪处理，生成去噪后图像；再基于去噪后图像与图像样本的差异，对扩散模型进行训练。示例性地，在扩散模型的训练阶段，其正向过程通过扩散加噪将数据(如清晰的图像数据)逐步加噪生成噪声数据(如噪声图像)，如图1中所示，需要对前一扩散加噪层输出的图像按照预先设置的参数向图像中加入噪声，以基于扩散加噪层X_t-1输出的图像加噪生成扩散加噪层X_t的图像，该过程在图中示意为q(x_t|x_t-1)，通过正向过程，利用扩散加噪来生成加噪后的图像样本(如图中左侧图像)；进而，再基于该加噪后的图像样本，通过逆向过程，逐步去噪输出原图像(如图中右侧图像)，以基于去噪层X_t输出的图像去噪生成去噪层x_t-1的图像为示例，该过程在图中示意为p_θ(x_t-1|x_t)。

扩散模型中，正向过程与逆向过程的步数由下标t定义，并且有预先定义好的总步数T(示例性地，如为1000)。t＝0时为采样得到的一张真实图像，t＝T时近似为一张纯粹的噪声图像。通过扩散模型，可以实现有效的图像重建。

以下，再对本申请实施例涉及的编解码模型进行说明。

编解码模型是一种由编码器和解码器构成的模型，编解码模型可对各种不同类型的数据进行编解码处理，包括但不限于文本数据、图像数据、音频数据等。本申请实施例中主要涉及图像数据类型。在训练阶段，通过编码器对输入图像的向量表示进行编码，得到编码向量；再通过解码器对编码向量进行解码处理，以获得解码向量，该解码向量表示输入图像对应的预测图；进而，基于该预测图和输入图像的差异，对该编解码模型进行训练。在推理阶段，则可直接使用解码器对图像的向量表示进行解码，以获得所需的图像。实际应用中，编解码模型可以根据需要实现为任意适当的形式，包括但不限于，基于卷积结构的形式、基于Transformer结构的形式，基于VAE(Variational AutoEncode，变分自动编码器)结构的形式，等等。

本申请实施例中，采用了VAE结构的编解码模型。一种示例性的VAE结构如图2所示，其包括编码器和解码器。在该模型中，先通过编码器将输入数据，本示例中，为输入图像数据如输入的UV图像，编码到低维表示；然后，再通过解码器将低维表示解码回原始空间，即原始维度表示，从而实现对输入图像数据的重构。

传统方式中，上述扩散模型和编解码模型独立使用，实现各自独立的功能。但本申请发明人基于上述扩散模型和编解码模型各自的特点，对其进行了改进，构建了本申请实施例中的人脸纹理生成模型。本申请实施例中的人脸纹理生成模型，示例性地，如图3所示，其包括像素空间模型和隐空间模型。其中，像素空间模型通过VAE结构的编解码模型实现，隐空间模型通过扩散模型实现。在训练阶段，像素空间模型和隐空间模型分别进行训练。在像素空间模型和隐空间模型都训练完成后，在推理阶段，将训练完成的扩散模型的逆向过程的输出端与训练完成的像素空间模型中的解码器的输入端连接，生成最终的人脸纹理生成模型。使用时，通过扩散模型的逆向过程和解码器，对输入的图像进行处理，即可获得所需的人脸纹理图像，即人脸UV图像。

基于上述人脸纹理生成模型的结构，以下先对其训练过程进行说明，再将训练完成后的人脸纹理生成模型应用于人脸纹理生成的过程进行说明。

参照图4，示出了根据本申请实施例的一种人脸纹理生成模型的训练过程的步骤流程图。如前所述，本实施例中的人脸纹理生成模型包括像素空间模型和隐空间模型。其中，像素空间模型通过编解码模型实现，包括编码器和解码器；隐空间模型则通过扩散模型实现，即包括扩散模型。像素空间模型和隐空间模型分别进行训练，不分训练先后顺序，也可并行进行训练。

其中，在像素空间模型的训练阶段中，通过编码器接收第一向量维度的人脸纹理样本图像的向量表示并进行编码处理，以获得第二向量维度的编码向量，其中，第一向量维度高于第二向量维度；通过解码器对编码向量进行解码处理，以预测生成人脸纹理预测图；基于人脸纹理预测图和人脸纹理样本图像的差异，进行编码器和解码器的训练。

而对于隐空间模型的训练主要是针对其扩散模型的训练，与传统扩散模型的训练既包括正向过程又包括逆向过程不同，本申请实施例中，使用噪声图像仅针对逆向过程进行训练，无需正向过程。具体地，通过扩散模型接收随机噪声样本图像，并且，以输入的光头人脸样本图像为训练条件，通过逆向过程对拼接样本图像进行去噪处理，获得对应的去噪样本图像，其中，拼接样本图像为随机噪声样本图像和光头人脸样本图像对应的特征样本图像拼接生成的图像；根据去噪样本图像与光头人脸样本图像的差异，对扩散模型进行训练。

基于此，本实施例的人脸纹理生成模型的训练过程包括以下步骤：

步骤S402：对人脸纹理生成模型中的像素空间模型进行训练。

相较于将人脸纹理生成模型作为一个整体进行统一训练的方式，采用对其像素空间模型单独进行训练的方式，一方面可以使得训练更有针对性，针对像素空间模型的训练效果更好；另一方面，也可大大节约训练过程中模型的数据处理负担，提高训练效率，降低训练成本。

在一种可行方式中，对像素空间模型的训练可以包括：通过编码器接收第一向量维度的人脸纹理样本图像的向量表示并进行编码处理，以获得第二向量维度的编码向量，其中，第一向量维度高于第二向量维度；通过解码器对编码向量进行解码处理，以预测生成人脸纹理预测图；基于人脸纹理预测图和人脸纹理样本图像的差异，进行编码器和解码器的训练。

本申请实施例中，使用像素空间模型实现图像重建，如人脸UV图像的重建。示例性地，对像素空间模型的训练主要包括对其编码器和解码器的训练，该模型的输入和输出都是人脸UV图像，具体地，输入的训练样本可以为人脸纹理样本图像即人脸UV样本图像，输出为人脸UV预测图。如前所述，该编码器-解码器结构的像素空间模型采用VAE架构，网络结构采用UNet结构，编码器和解码器间的隐向量的维度可以为输入图像即人脸纹理样本图像的八分之一，如，假设输入编码器的人脸UV样本图像的维度是B*3*512*512(其中的B表示Batch Size)，则先经过编码器进行编码处理，输出编码向量，其维度可以是B*4*64*64。然后，解码器从编码器接收B*4*64*64维度的编码向量，对其进行解码，得到维度为B*3*512*512的人脸UV预测图。进而，通过预测的损失函数，基于人脸UV预测图与人脸UV样本图像的差异，来进行编码器-解码器的训练。其中，上述损失函数可由本领域技术人员根据实际需求灵活设置，本申请实施例对此不作限制。

其中，编码器在具体实现时采用VAE结构，对其训练的训练过程可以简单分为三部分：

1)首先输入B*3*512*512的人脸UV样本图像，经过编码网络，如ResNetblock的网络，实现特征的编码提取，得到B*8*64*64维度的编码向量；

2)再经过一个量化网络，可以为一层卷积网络，对上述B*8*64*64维度的编码向量进行卷积处理，输出卷积后的、维度仍为B*8*64*64的编码向量；

3)最后是一个采样网络，将仍为B*8*64*64维度的编码向量拆成两部分，一部分作为高斯分布的mean(均值)，另一部分作为高斯分布的std(标准误差)，这样就得到了一个高斯分布，然后随机采样得到隐向量，维度为B*4*64*64，作为编码器输出的编码向量。

而对于解码器来说，其解码过程包括两部分：

1)对编码器输出的维度为B*4*64*64的编码向量先反量化，得到维度为B*8*64*64的特征向量；

2)将维度为B*8*64*64的特征向量经过解码网络得到人脸UV预测图，维度为B*3*512*512。其中，解码网络也可采用ResNetblock结构的网络。

上述训练过程迭代往复，直至达到训练终止条件，如达到预设的训练次数，或者，损失值达到预设阈值。

在一种可行方式中，人脸纹理样本图像可以通过以下方式获得：获取通过多组相机同步采集的、多视角的真实人脸图像；通过人脸重建算法，获得多视角的真实人脸图像的人脸纹理样本图像。

示例性地，可以基于180度半圆搭建相机阵列，针对真人采集多视角上半身数据，具体为：在均匀光线的较理想场景下，给一个人戴上头套，保证人脸和额头处都没有被遮挡，多组相机同步采集此人在某一个时刻的照片，同步录制此人的一组视频，主要是不同打光下，此人的头部在一定角度内转动，以获得多视角的真实人脸图像。进而，基于多视角的真实人脸图像，用重建算法得到此人的人头mesh(网格)和人脸UV图像。可选地，还可通过人工介入修正。由此，就可获得理想条件下的人脸UV图像、及不同角度和光线下的人脸图像。通过此种方式，即可获得大量的人脸图像及对应的人脸UV图像，形成训练样本集。则，其中的任一人脸UV图像在用于模型训练时，即可作为人脸纹理样本图像。

步骤S404：对扩散模型进行训练。

需要说明的是，本实施例中，以先对像素空间模型进行训练再对扩散模型进行训练为示例，但如前所述，两者训练可不分先后顺序，也可并行执行。

对扩散模型的训练包括：接收随机噪声样本图像，并且，接收输入的光头人脸样本图像，将光头人脸样本图像对应的特征图像和随机噪声样本图像进行拼接，获得拼接样本图像；以光头人脸样本图像为训练条件，通过逆向过程对拼接样本图像进行去噪处理，获得对应的去噪样本图像；基于去噪样本图像对应的向量和编码向量的差异，对扩散模型进行训练。其中，光头人脸样本图像对应的特征图像可以通过任意适当的结构或模型对光头人脸样本图像进行特征提取获得，示例性地，可采用另一编码器对光头人脸样本图像以编码形式进行特征提取来获得。

其中，与人脸纹理样本图像对应的光头人脸样本图像可以通过以下方式获得：对多视角的真实人脸图像中的每张图像，分别进行人脸检测、人脸特征点检测、和头发分割处理，以获得每张图像对应的头发掩模；根据每张图像及其对应的头发掩模，获得每个图像对应的光头人脸样本图像。

如前所述，训练样本集中包含有大量的人脸图像及对应的人脸UV图像，在获得光头人脸图像时，可以对其中的人脸图像分别进行人脸检测-人脸特征点检测-头发分割的处理，则可获得人脸图像的头发掩模MASK。在此基础上，可再采用相应的神经网络模型，基于人脸图像及对应的头发掩模MASK进行处理，获得对应的光头人脸图像。采用此种方式，对训练样本集中的人脸图像均进行如此处理，则训练样本集中，每个人脸图像除具有对应的人脸UV图像外，还具有对应的光头人脸图像。

基于此，在以光头人脸样本图像为训练条件，通过逆向过程对拼接样本图像进行去噪处理，获得对应的去噪样本图像时：针对逆向过程中的每个去噪步，基于前一去噪步输出的、拼接样本图像的特征图，使用光头人脸样本图像对应的图像向量对该特征图进行引导，以输出引导后的特征图，直至通过最后一个去噪步，获得去噪样本特征图。在每个去噪步中，使用光头人脸样本图像的图像向量对去噪步生成的特征图进行引导，可以使得该特征图更接近光头人脸样本图像，也由此使得基于有噪声的拼接样本图像，通过扩散模型的逆向过程处理后获得的最终的去噪样本图像与光头人脸样本图像的特征更为接近。由此，极大地提升了针对扩散模型的训练效果。

在像素空间模型和扩散模型均完成训练后，将两者相连接，形成本申请实施例中的人脸纹理生成模型。具体地，可将扩散模型的逆向过程的输出端与像素空间模型中的解码器的输入端连接。

但不限于像素空间模型和扩散模型单独训练的方式，两者也可联合训练。以下，以一个具体人脸纹理生成模型的结构进行示例性说明，如图5所示。

图5中，左侧方框表示包括编码器和解码器的像素空间模型，，中间方框表示包括扩散模型的隐空间模型，右侧方框表示扩散模型的条件输入。

由图5中可见，编码器(图中表示为ε)与扩散模型的正向过程的输入端连接，解码器(图中表示为)与扩散模型的逆向过程的输出端连接。扩散模型的逆向过程的每一个去噪步中，对其输入的特征数据进行交叉注意力处理(图中表示为QKV)，并且，使用光头人脸样本图像的特征图像对每一去噪步的去噪处理进行引导，以使通过去噪步获得的特征更接近于光头人脸样本图像的特征，包括但不限于纹理特征、姿态特征等。

基于图5中所示的模型结构，其训练过程包括：

第一阶段，对包括编码器和解码器的像素空间模型进行预训练。

如图5中左边方框所示，像素空间模型包括编码器和解码器，，可以先对其进行独立的训练。对该部分进行训练时，输入为人脸UV样本图像，维度B*3*512*512，其中B表示batch size。先经过编码器编码得到隐向量，维度为B*4*64*64，然后经过解码器解码得到人脸UV预测图；再和输入的原图即人脸UV样本图像做loss，来训练编码器和解码器。

其中，编码器采用VAE结构，可以简单分三部分:

(1)首先输入B*3*512*512的人脸UV样本图像，经过编码网络得到B*8*64*64的特征向量，该部分编码网络可以采用ResNetblock结构的网络，实现特征的编码提取；

(2)再经过一个量化网络，可以实现为一层卷积网络，输入上述B*8*64*64的特征向量，进行卷积处理，输出卷积后的B*8*64*64的特征向量；

(3)最后是一个采样网络，将B*8*64*64的特征向量拆成两部分，一部分作为高斯分布的mean，另一部分作为高斯分布的std，由此得到一个高斯分布，然后随机采样得到隐向量，维度为B*4*64*64，即为编码器输出的编码向量。

解码器部分分两部分：

(1)对编码器输出的编码向量先反量化得到B*8*64*64的特征向量；

(2)将该B*8*64*64的特征向量经解码网络得到人脸UV预测图，维度B*3*512*512，即解码器输出的解码向量，其中，解码网络也可采用ResNetblock结构的网络。

第二阶段：基于训练完成的像素空间模型，对扩散模型进行训练。

如图5中的中间方框所示，扩散网络可以是一个UNet网络，比如扩散步数是T次，那么真正的扩散过程就是经过T步的UNet网络。

结合图5，该扩散模型的训练过程包括：

(1)人脸UV样本图像(如图5中左上角的图像)先以图像向量的形式(图5中示意为“x”)输入训练完成的编码器(图5中示意为ε)，经过训练完成的编码器的编码处理得到编码向量latent，该编码向量laten被输入扩散模型(图5中示意为)，从第1步至第T步随机选择一步t，可以根据预设的权重W_t，设计这一步的扩散输入：I_t＝laten*W_t+noise*(1-W_t),目标输出是noise，即噪声图像图5中示意为

(2)在获得噪声后，会进入扩散模型的逆向过程。本示例中，该逆向过程基于该噪声图像和条件图进行。其中，输入逆向过程的条件图可以是与输入编码器的人脸UV样本图像对应的去除了头发后的人脸光头样本图像所对应的特征图像。具体地，该条件图会经过一个编码网络(如采用4层卷积实现的编码网络，图5中示意为“τ_θ”)提取特征，获得特征图像，维度会从B*3*512*512变到B*3*64*64。

(3)一方面，提取出的该条件图的特征图像会和噪声图像concat(拼接)到一起，得到新的输入特征，即拼接样本图像，其特征维度为B*7*64*64，然后，该拼接样本图像会被送到UNet网络里进行去噪处理，在该过程中，如图5中所示，条件图的特征还会在每一步引导去噪处理，直至获得去噪处理还原出的特征图该特征图会和输入扩散模型的做L1loss，来指引扩散模型的学习。

进一步地，该会被输入解码器进行解码处理，获得人脸UV预测图，图5中示意为

需要说明的是，在上述扩散模型的训练过程中，像素空间模型中的编码器和解码器的模型参数既可保持固定不变，也即不再参与训练。但较优地，其还可以根据对扩散模型的训练，作为人脸纹理生成模型的一部分，对其模型参数进行微调，以更好地适应模型整体，取得更好的UV生成效果。

此外，在模型的推理阶段，人脸纹理生成模型最开始的输入可以是纯噪声，如纯噪声图像，再结合人脸光头图像作为UNet的条件图(具体为该条件图对应的特征图像)，在其中的每一步t，UNet每次预测的是当前这一步t的噪声，然后输入该步t的特征图和预测获得的噪声图作差得到该步t的输出特征图，如此循环T步之后得到的结果即为预测的隐向量，该隐向量经过解码器的处理就可以得到预测的人脸UV预测图。

经由上述训练，即可获得以人脸光头图像为条件输入，以人脸UV图像为输出的人脸纹理生成模型。

可见，通过本实施例的训练过程，无需对人脸光影或角度或姿态等进行处理，即可获得能够生成真实、自然的人脸UV图像的人脸纹理生成模型，该模型具有更高的通用性，更广的应用场景，并且极大地降低了对输入图像的要求，且人脸纹理处理更为准确和高效。

以下，基于上述训练完成的人脸纹理生成模型，对本申请实施例提供的人脸纹理生成方法进行说明，如图6所示。

参照图6，本实施例的人脸纹理生成方法包括以下步骤：

步骤S602：获取去除了头发后的光头人脸图像对应的光头人脸特征图像和随机噪声图像。

其中，在进行人脸纹理生成时，获得的图像可能本身即为光头人脸图像，如真人即为光头。但在大多数情况下，可能获得的人脸图像为带有头发的图像，此种情况下，需要对图像进行去除头发的处理。

示例性地，可通过对图像依次进行人脸检测、人脸特征点检测、和头发分割处理，以获得每张图像对应的头发掩模；再根据每张图像及其对应的头发掩模，获得每个图像对应的光头人脸图像。

一个具体示例中，上述过程可以包括：

(1)人脸检测

具体地，该人脸检测过程可以包括：

第一阶段，使用P-Net全卷积网络来获取人脸图像的人脸及其边界框的回归向量，利用边界框回归出可能的向量校准人脸候选框，最后，采用非极大值抑制(NMS)对高度重合的人脸候选框进行合并，获得最终的候选检测框。

第二阶段，从P-Net输出的所有候选检测框都被输入到另一个CNN网络，如R-Net。在该R-Net网络中，非人脸的候选检测框会被过滤掉，并会利用边界框回归进行校准、使用NMS合并候选检测框，获得最终的人脸检测框。

第三阶段O-net，输出人脸检测框的位置以及五个人脸关键点。

(2)人脸特征点检测

可以采用以ResNet18为主干网络的人脸关键点识别模型，对人脸图像进行检测和识别，以获得人脸特征点的在图像中的一系列二维坐标，从而定位到人脸的关键信息。

(3)头发分割

可以采用deeplab v3+网络为基础的头发分割模型，以实现发丝级分割，去除掉人脸图像中的头发。该模型的输入为人脸图像，输出为头发的掩模MASK。

(4)光头模型

可以采用Pix2Pix网络为基础的模型，输入是人脸图像和其对应的头发掩模MASK，输出是对应的光头人脸图像。

该模型在训练阶段，需要两部分训练样本：一部分是对真实人脸图像把头发部分去掉，该部分训练样本虽然成本较高，数据量少，但效果更加真实自然；另一部分是收集的真实光头人脸图像，然后给这些光头人脸图像添加上头发，该部分数据量大。由此，既可保障该模型的训练效果，又可扩充训练样本的数量。

通过上述过程，即可获得需要生成人脸UV的人脸图像对应的光头人脸图像。在此基础上，对该光头人脸图像进行特征提取，示例性地，可通过用于进行特征提取的编码器(不同于像素空间模型中的编码器)，进行特征提取，获得光头人脸图像对应的光头人脸特征图像。

此外，本实施例中，还需要噪声图像，选择随机噪声图像即可。随机噪声图像生成简单，实现成本低。

步骤S604：对光头人脸特征图像和随机噪声图像进行拼接，获得拼接图像。

具体地，可以分别获取光头人脸特征图像对应的人脸特征和随机噪声图像对应的噪声特征；对人脸特征和噪声特征进行拼接，获取拼接特征图像。

步骤S606：通过人脸纹理生成模型中的扩散模型对拼接图像进行扩散处理，获得与光头人脸图像对应的去噪图像。

人脸纹理生成模型在完成训练后，在推理阶段，使用其扩散模型的逆向过程部分和解码器部分即可。具体到本步骤中，将拼接图像对应的图像向量输出扩散模型，通过其逆向过程部分进行去噪处理，即可获得对应的去噪图像，该图像为携带了人脸纹理特征、姿态特征等特性的特征图。

在一种可行方式中，可以对上述拼接特征图像对应的特征进行交叉注意力处理；基于进行了交叉注意力处理后的特征进行扩散处理，获得与光头人脸图像对应的去噪图像。通过交叉注意力处理，既可对人脸的各种特征信息进行有效融合，又可使人脸特征更为突显，取得更好的扩散处理效果。

步骤S608：通过人脸纹理生成模型中的解码器对去噪图像进行解码处理，获得对应的人脸纹理图像。

在获得了去噪图像后，将其输出解码器，通过解码处理，即可获得对应的人脸UV图像。

根据本实施例，通过人脸纹理生成模型来生成人脸纹理图像，一方面，该人脸纹理生成模型以光头人脸特征图像和随机噪声图像拼接后生成的拼接图像为输入，通过扩散和解码处理，可以使得生成的人脸纹理图像更加真实和自然，且通用性较好，只需获得人脸图像的光头图像即可，使用场景广泛。另一方面，该人脸纹理生成模型包括扩散模型和解码器，通过扩散模型可以得到与输入图像对应的、能够满足纹理变换所需的图像，进而再经由解码器转换为人脸纹理图像，通过这种方式，既满足了人脸纹理生成的需求，又因在该过程中不再需要进行人脸姿态拟合，避免了传统人脸姿态拟合方式中存在的估计不准确、人脸纹理生成真实感弱的问题。

需要说明的是，本实施例中部分步骤的实现描述较为简单，相关之处可参照前述模型训练实施例中的描述。

参照图7，示出了根据本申请实施例的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备或服务器进行通信。

处理器702，用于执行程序710，具体可以执行上述方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行上述各方法实施例中所描述的方法对应的操作。

程序710中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种人脸纹理生成方法，包括：

获取去除了头发后的光头人脸图像对应的光头人脸特征图像和随机噪声图像，对所述光头人脸特征图像和所述随机噪声图像进行拼接，获得拼接图像；

通过人脸纹理生成模型中的扩散模型对所述拼接图像进行扩散处理，获得与所述光头人脸图像对应的去噪图像；

通过所述人脸纹理生成模型中的解码器对所述去噪图像进行解码处理，获得对应的人脸纹理图像；

所述对所述光头人脸特征图像和所述随机噪声图像进行拼接，获得拼接图像，包括：分别获取所述光头人脸特征图像对应的人脸特征和所述随机噪声图像对应的噪声特征；对所述人脸特征和所述噪声特征进行拼接，获取拼接特征图像；

所述通过人脸纹理生成模型中的扩散模型对所述拼接图像进行扩散处理，获得与所述光头人脸图像对应的去噪图像，包括：对所述拼接特征图像对应的特征进行交叉注意力处理；基于进行了交叉注意力处理后的特征进行扩散处理，获得与所述光头人脸图像对应的去噪图像。

2.根据权利要求1所述的方法，其中，所述人脸纹理生成模型包括像素空间模型和隐空间模型；所述像素空间模型包括编码器和解码器，所述隐空间模型包括扩散模型；所述像素空间模型和所述隐空间模型分别进行训练。

3.根据权利要求2所述的方法，其中，所述隐空间模型的训练包括：

通过所述扩散模型接收随机噪声样本图像，并且，以输入的光头人脸样本图像为训练条件，通过逆向过程对拼接样本图像进行去噪处理，获得对应的去噪样本图像，其中，所述拼接样本图像为所述随机噪声样本图像和所述光头人脸样本图像对应的特征样本图像拼接生成的图像；

根据所述去噪样本图像与所述光头人脸样本图像的差异，对所述扩散模型进行训练。

4.根据权利要求3所述的方法，其中，所述以输入的光头人脸样本图像为训练条件，通过逆向过程对拼接样本图像进行去噪处理，获得对应的去噪样本图像，包括：

针对所述逆向过程中的每个去噪步骤，基于前一去噪步骤输出的、所述拼接样本图像的特征图，使用所述光头人脸样本图像对应的图像向量对所述特征图进行引导，输出引导后的特征图，直至通过最后一个去噪步骤，获得去噪样本特征图。

5.根据权利要求2所述的方法，其中，所述像素空间模型的训练包括：

通过所述编码器接收第一向量维度的人脸纹理样本图像的向量表示并进行编码处理，以获得第二向量维度的编码向量，其中，第一向量维度高于第二向量维度；

通过所述解码器对所述编码向量进行解码处理，以预测生成人脸纹理预测图；

基于所述人脸纹理预测图和所述人脸纹理样本图像的差异，进行所述编码器和所述解码器的训练。

6.根据权利要求2所述的方法，其中，所述方法还包括：

将训练完成的扩散模型的逆向过程的输出端与训练完成的所述像素空间模型中的解码器的输入端连接。

7.根据权利要求5所述的方法，其中，

所述人脸纹理样本图像通过以下方式获得：获取通过多组相机同步采集的、多视角的真实人脸图像；通过人脸重建算法，获得所述多视角的真实人脸图像的人脸纹理样本图像；

与所述人脸纹理样本图像对应的光头人脸样本图像通过以下方式获得：对所述多视角的真实人脸图像中的每张图像，分别进行人脸检测、人脸特征点检测、和头发分割处理，以获得每张图像对应的头发掩模；根据每张图像及其对应的头发掩模，获得每个图像对应的光头人脸样本图像。

8.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述方法对应的操作。

9.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。