CN113506220B

CN113506220B - 3d顶点驱动的人脸姿态编辑方法、系统及电子设备

Info

Publication number: CN113506220B
Application number: CN202110805660.7A
Authority: CN
Inventors: 肖文
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2024-04-05
Anticipated expiration: 2041-07-16
Also published as: CN113506220A

Abstract

本发明提供了3D顶点驱动的人脸姿态编辑方法、系统及电子设备，所述方法包括：获取包含人脸信息的基础图片；对所述基础图片进行信息编码，生成信息数据；获取信息数据，对所述信息数据进行处理，生成目标轮廓图；对所述目标轮廓图进行细节补充，生成目标图。本发明通过将复杂的人脸姿态编辑任务划分成几个不同功能的模块，分别进行信息编码，目标轮廓生成以及细节补充3个子任务，简化模型的学习难度。轮廓生成时不需要还原过多的细节信息，避免因为人脸区域外的引导信息缺失造成的明显编辑痕迹。此外，通过3D顶点的姿态变化学习到的姿态变形场仅对细节信息起作用，可以避免变形造成的人脸扭曲。

Description

3D顶点驱动的人脸姿态编辑方法、系统及电子设备

技术领域

本发明涉及人脸三维重建技术领域，特别涉及3D顶点驱动的人脸姿态编辑方法及系统及电子设备。

背景技术

人脸图片包含丰富的信息，对图片中人脸的属性进行编辑可以产生各种有趣的玩法。在各类属性编辑问题中，大部分问题是像素值变化的过程，而姿态编辑问题是像素位置和像素值同时变化的过程，自由度相对较大，尤其姿态变化过程需要还原遮挡区域时将造成明显的编辑痕迹。

现有的姿态编辑技术主要可以分为3大类：

1)基于生成对抗网络(GAN)的方式，将人脸图像编码到GAN的隐空间，通过修改隐空间中与姿态相关的通道，再将隐空间的编码还原成图片。该方案的主要缺点是在GAN的隐空间中各属性是互相耦合的，编辑姿态的同时会导致其他属性被修改，且编辑尺度较大时，人脸会发生畸变；

2)基于人脸驱动的方式，通过输入一张参考图，使用深度学习的方法建立原图与参考图姿态之间的变化关系，根据该关系将原图的姿态朝参考图变化。该方案的主要缺点是编辑的过程中会将参考图的特征引入到原图中，使编辑后人脸的身份信息发生改变；

3)基于人脸3维重建的方案，重建2D人脸的3维模型，对3D人脸旋转后，再投影成2D人脸。该方案的主要缺点是3D重建仅对人脸区域内有效，无法重建头发和背景等区域，且经过旋转后的3D人脸再投影成2D后，会存在部分像素点的纹理缺失，最终编辑后的人脸边缘附近会有明显的编辑痕迹，人脸区域内部会存在不自然的纹理。

发明内容

针对上述问题，本申请实施例提供一种3D顶点驱动的人脸姿态编辑方法及系统及电子设备，至少部分解决现有技术中存在的问题，能够避免在人脸姿态编辑的过程中，因为人脸区域外的引导信息缺失造成的明显编辑痕迹。

3D顶点驱动的人脸姿态编辑方法包括：

获取包含人脸信息的基础图片；

对所述基础图片进行信息编码，生成信息数据；

获取信息数据，对所述信息数据进行处理，生成目标轮廓图；

对所述目标轮廓图进行细节补充，生成目标图。

根据本申请实施例的一种具体实现方式，所述对所述基础图片进行信息编码，生成信息数据包括：

利用3DMM模型对所述基础图片进行三维人脸模型重建，生成三维人脸形状顶点坐标数据信息。

根据本申请实施例的一种具体实现方式，所述三维人脸形状顶点坐标数据信息包括形状向量、纹理向量；

所述形状向量S＝(X1，Y1，Z1；X2，Y2，Z2；...；Xn，Yn，Zn)；

所述纹理向量T＝(R1，G1，B1；R2，G2，B2；…；Rn，Gn，Bn)。

根据本申请实施例的一种具体实现方式，所述对所述信息数据进行处理，生成目标轮廓图包括：

于灰度图上绘制所述形状向量，生成深度图；

将所述基础图片与所述深度图拼接，输入编码器，生成特征图；

将目标姿态的深度图降采样至与所述特征图尺寸相同；

将所述特征图与降采样后的所述目标姿态的深度图拼接，输入第一生成器，生成目标轮廓图。

根据本申请实施例的一种具体实现方式，在灰度图上绘制所述形状向量过程中，所述形状向量V的x,y坐标分别表示在图像上列和行的位置，将V的z坐标用于表示对应像素点的亮度值。

根据本申请实施例的一种具体实现方式，所述基础图片与所述深度图拼接包括：

所述基础图片与所述深度图进行通道维度的拼接，获得尺寸为[3+1,h,w]的4通道图像。

根据本申请实施例的一种具体实现方式，所述对所述目标轮廓图进行细节补充，生成目标图包括：

将所述特征图与降采样后的所述目标姿态的深度图拼接，输入第一生成器，获得所述基础图片的姿态转换到目标图姿态的变形场；

将所述特征图输入第二生成器，获取所述基础图片的细节信息数据；

使用所述变形场对细节信息数据进行变形，生成具备目标姿态的细节图；

所述目标姿态细节图与所述目标轮廓图相加，生成目标图。

根据本申请实施例的一种具体实现方式，所述变形场尺寸为[2,h,w]，每个位置(x,y)的2个通道数值分别为(x’,y’)，表示对应位置重采样点在原图上的X，Y轴坐标。

本发明还提供了3D顶点驱动的人脸姿态编辑系统，所述系统包括：

信息采集单元，所述信息采集单元用于获取包含人脸信息的基础图片；

信息编码单元，所述信息编码单元用于对所述基础图片进行信息编码，生成信息数据；

姿态编辑单元，所述姿态编辑单元用于对所述信息数据进行处理，生成目标轮廓图；

细节补充单元，所述细节补充单元用于对所述目标轮廓图进行细节补充，生成目标图。

本发明还提供了一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述3D顶点驱动的人脸姿态编辑方法。

本发明通过将复杂的人脸姿态编辑任务划分成几个不同功能的模块，分别进行信息编码，目标轮廓生成以及细节补充3个子任务，简化模型的学习难度。使用具备人脸区域3D信息的顶点作为控制参数，该参数仅控制原图朝目标姿态进行编辑，不需要还原过多的细节信息，避免因为人脸区域外的引导信息缺失造成的明显编辑痕迹。此外，通过3D顶点的姿态变化学习到的姿态变形场仅对细节信息起作用，可以避免变形造成的人脸扭曲。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的3D顶点驱动的人脸姿态编辑方法流程示意图；

图2示出了本发明实施例的训练流程图；

图3示出了本发明实施例的3D顶点驱动的人脸姿态编辑系统结构示意图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本申请实施中提供一种3D顶点驱动的人脸姿态编辑方法，方法包括：获取包含人脸信息的基础图片；对所述基础图片进行信息编码，生成信息数据；获取信息数据，对所述信息数据进行处理，生成目标轮廓图；对所述目标轮廓图进行细节补充，生成目标图。通过将复杂的人脸姿态编辑任务划分成几个不同功能的模块，分别进行信息编码，目标轮廓生成以及细节补充3个子任务，简化模型的学习难度。使用具备人脸区域3D信息的顶点作为控制参数，该参数仅控制原图朝目标姿态进行编辑，不需要还原过多的细节信息，避免因为人脸区域外的引导信息缺失造成的明显编辑痕迹。

具体的，请参照图1，图1示出了本发明实施例的3D顶点驱动的人脸姿态编辑方法流程示意图。如图1所示，3D顶点驱动的人脸姿态编辑方法，包括：

S100、获取包含人脸信息的基础图片；其中包含人脸信息的基础图片为二维图片；

S200、对所述基础图片进行信息编码，生成信息数据；

S300、获取信息数据，对所述信息数据进行处理，生成目标轮廓图；

S400、对所述目标轮廓图进行细节补充，生成目标图。

其中，述对所述基础图片进行信息编码，生成信息数据包括：

其中，所述对所述信息数据进行处理，生成目标轮廓图包括：

于灰度图上绘制所述形状向量，生成深度图；

将目标姿态的深度图降采样至与所述特征图尺寸相同；

其中，所述对所述目标轮廓图进行细节补充，生成目标图包括：

将所述细节信息数据与所述变形场相加，生成目标姿态细节图；

所述目标姿态细节图与所述目标轮廓图相加，生成目标图。

请参考图2，图2示出了本发明实施例的训练流程图。如图2所示，

对基础图片进行的信息编码包括：对所述基础图片进行三维人脸模型重建，生成三维人脸形状顶点坐标数据信息；基于人脸图像的三维重建方法非常多，常见的包括立体匹配，Structure From Motion(简称SfM)，Shape from Shading(简称sfs)，三维可变形人脸模型(3DMM)，示例性的，本申请采用3D Morphable models(简称3DMM)，进行人脸的三维重建。

更进一步的，对人脸图像进行3维重建，获得表示人脸形状的3D顶点，更进一步的，基于3DMM模型(3维可变形人脸模型)对基础图片进行3维重建，传统的3DMM模型是通过对3D数据进行降维，但是因为3D数据规模的限制，很难得到上万id规模的3D数据，因此得到的模型能力是有限的，能难表征不同人种的三维形状特征。而本实施例中所述是直接回归的形状，没有限制在3D数据模型空间，使得模型能力比传统的3DMM模型强大得多。本实施例的3DMM模型是在网络输出的形状和纹理基础上构建的。本实施例通过对所有的无表情数据输出形状、纹理，基于这些形状、纹理分别进行pca分解。得到下式：

其中，在实际计算的过程中，因为S_i、T_i不是正交相关，因此需要进行pca降维分解。

1)、首先计算形状和纹理向量的平均值。

2)、中心化人脸数据。

3)、分别计算协方差矩阵。

4)、求得形状和纹理协方差矩阵的特征值α，β和特征向量si，ti；

则上式可以转换为下式。

其中第一项是形状和纹理的平均值，而s_i，t_i则都是S_i、T_i减去各自平均值后的协方差矩阵的特征向量。

等式右边仍然是m项，但是累加项降了一维，减少了一项。s_i，t_i都是线性无关的，取其前几个分量可以对原始样本做很好的近似，因此可以大大减少需要估计的参数数目，并不失精度。

示例性的，基础图片为具备尺寸为[3,h,w]的图像，3为通道数，h,w分别为图像的高和宽。每张图片内的人脸均可以用形状向量S＝(X1，Y1，Z1；X2，Y2，Z2；...；Xn，Yn，Zn)和纹理向量T＝(R1，G1，B1；R2，G2，B2；…；Rn，Gn，Bn)表示，其中V是n个3维空间中的坐标，表示人脸顶点的位置。

对人脸信息进行三维重建之后，得到信息数据信息。

更进一步的，于灰度图上绘制所述形状向量，生成深度图；本实施例中的灰度图的尺寸与所述基础图片的尺寸相同，在绘制的过程中，形状向量的x,y坐标分别表示在图像上列和行的位置，形状向量的z坐标用于表示对应像素点的亮度值，生成的灰度图表示人脸在3维空间中的形状，是深度图的离散点形式，也可以称之为深度图D，示例性的，深度图D是具备尺寸为[1,h,w]的图像。

所述基础图片与所述深度图进行通道维度的拼接，获得尺寸为[3+1,h,w]的4通道图像，将该4通道图像输入编码器内，

具体的，该编码器由多个下采样的卷积层堆叠而成。

更进一步的，将尺寸为[3+1,h,w]的4通道图像，通过一系列卷积训练，对其进行若干倍的下采样，获得具备详细姿态和人脸信息的特征图F。

预设目标姿态的深度图，将目标姿态的深度图下采样至与所述特征图F尺寸相同；

将所述特征图与降采样后的所述目标姿态的深度图进行通道维度的拼接，生成预目标图片轮廓图，将所述预目标图片轮廓图输入第一生成器，生成目标轮廓图。

所述第一生成器是由一系列上采样的卷积块堆叠而成，所述第一生成器用于将预目标图片轮廓图上采样至基础图片的尺寸后，通过两路并行的1*1的卷积，于同时分别生成3通道的目标轮廓图和一个变形场W。

当第一生成器对预目标图片轮廓图进行上采样的同时，生成一个变形场W，所述变形场W用于将所述基础图片内的姿态转换到目标图姿态。

生成的变形场W为2通道的变形场。变形场W尺寸为[2,h,w]，每个位置(x,y)的2个通道数值分别为(x’,y’)，表示对应位置重采样点在基础图片上的X，Y轴坐标，其作用是将基础图片的细节信息变形至目标姿态。具体的，将图片中位置(x’,y’)处的像素值赋值给(x,y)位置的像素点。

重采样过程中，存在几个缺陷：1)可能会出现某些像素点使用过多次，而某些像素点未使用过。2)变形场中的坐标(x’,y’)大多数情况下无法对应具体的像素位置，需要通过双线性差值获得具体的像素值。3)超出图片区域的坐标将用0填充。上述3个问题将导致生成的图片中部分像素不真实，而本发明的变形仅对细节信息进行操作，将大大减小上述问题造成的影响。

对所述目标轮廓图进行细节补充具体包括：

将所述特征图F输入第二生成器，获取所述基础图片的细节信息数据；

所述第二生成器的作用是对编码后信息进行解码，所述第二生成器具备与编码器相反的结构，由一系列上采样的卷积层堆叠而成，最后一层卷积层输出3通道的图像，该3通道的图像为所述基础图片中的细节信息数据所构建的细节图像。

将所述细节图像通过所述变形场W变形，生成目标姿态细节图；

所述目标姿态细节图与所述目标轮廓图进行逐像素点相加，生成姿态编辑完成的具备详细信息的目标图。

参见图3，图3示出了本发明实施例的3D顶点驱动的人脸姿态编辑系统结构示意图。如图3所示，所述系统包括：

本申请实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述方法实施例中的3D顶点驱动的人脸姿态编辑方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.3D顶点驱动的人脸姿态编辑方法，其特征在于：包括：

获取包含人脸信息的基础图片；

对所述基础图片进行信息编码，生成信息数据；

对所述目标轮廓图进行细节补充，生成目标图；

所述对所述基础图片进行信息编码，生成信息数据包括：

利用3DMM模型对所述基础图片进行三维人脸模型重建，生成三维人脸形状顶点坐标数据信息；

所述三维人脸形状顶点坐标数据信息包括形状向量、纹理向量；

所述形状向量S＝(X1，Y1，Z1；X2，Y2，Z2；...；Xn，Yn，Zn)；

所述纹理向量T＝(R1，G1，B1；R2，G2，B2；…；Rn，Gn，Bn)；

所述对所述信息数据进行处理，生成目标轮廓图包括：

于灰度图上绘制所述形状向量，生成深度图；

将目标姿态的深度图降采样至与所述特征图尺寸相同；

2.根据权利要求1所述的3D顶点驱动的人脸姿态编辑方法，其特征在于：在灰度图上绘制所述形状向量过程中，所述形状向量V的x,y坐标分别表示在图像上列和行的位置，将V的z坐标用于表示对应像素点的亮度值。

3.根据权利要求1中任一项所述的3D顶点驱动的人脸姿态编辑方法，其特征在于：所述基础图片与所述深度图拼接包括：

4.根据权利要求3所述的3D顶点驱动的人脸姿态编辑方法，其特征在于：所述对所述目标轮廓图进行细节补充，生成目标图包括：

所述目标姿态细节图与所述目标轮廓图相加，生成目标图。

5.根据权利要求4所述的3D顶点驱动的人脸姿态编辑方法，其特征在于：所述变形场尺寸为[2,h,w]，每个位置(x,y)的2个通道数值分别为(x’,y’)，表示对应位置重采样点在原图上的X，Y轴坐标。

6.3D顶点驱动的人脸姿态编辑系统，其特征在于：所述系统包括：

信息编码单元，所述信息编码单元用于对所述基础图片进行信息编码，生成信息数据，包括：利用3DMM模型对所述基础图片进行三维人脸模型重建，生成三维人脸形状顶点坐标数据信息；所述三维人脸形状顶点坐标数据信息包括形状向量、纹理向量；所述形状向量S＝(X1，Y1，Z1；X2，Y2，Z2；...；Xn，Yn，Zn)；所述纹理向量T＝(R1，G1，B1；R2，G2，B2；…；Rn，Gn，Bn)；

姿态编辑单元，所述姿态编辑单元用于对所述信息数据进行处理，生成目标轮廓图，包括：于灰度图上绘制所述形状向量，生成深度图；将所述基础图片与所述深度图拼接，输入编码器，生成特征图；将目标姿态的深度图降采样至与所述特征图尺寸相同；将所述特征图与降采样后的所述目标姿态的深度图拼接，输入第一生成器，生成目标轮廓图；

7.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述权利要求1-5中任一项所述的3D顶点驱动的人脸姿态编辑方法。