CN112734887B

CN112734887B - 基于深度学习的人脸混合-变形生成方法和装置

Info

Publication number: CN112734887B
Application number: CN202110076881.5A
Authority: CN
Inventors: 徐枫; 田镜祺
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-09-20
Anticipated expiration: 2041-01-20
Also published as: CN112734887A

Abstract

本申请提出一种基于深度学习的人脸混合‑变形生成方法和装置，涉及计算机动画和三维重建技术领域，其中，方法包括：获取中性人脸的三维网格数据和对应的三维网格表情集合；将三角网格数据转换为二维RGB图片；将二维RGB图片输入深度学习模型进行训练，获取训练人脸混合‑变形二维图；根据人脸混合‑变形二维图，获取训练表情集合，根据训练表情集合和三维网格表情集合调整深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合‑变形表情。由此，利用深度神经网络从少量表情集生成个性化混合‑变形表情，提高处理效率。

Description

基于深度学习的人脸混合-变形生成方法和装置

技术领域

本申请涉及计算机动画和三维重建技术领域，尤其涉及一种基于深度学习的人脸混合-变形生成方法和装置。

背景技术

人脸的blendshape混合-变形在计算机动画和游戏领域有着广泛的使用，blendshape提供了明确的人脸语义，通过控制blendshape表情系数可以模拟出全新的表情。然而blendshape的制作往往需要复杂的采集设备采集大量的人脸表情，然后再经过专业从业人员的精细调整，无法实现自动化。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于深度学习的人脸混合-变形生成方法，通过深度学习方法，利用现由的三维人脸数据集，学习到人脸变形到blendshape的变形方式的先验信息，再利用人脸表情集合中的部分采集到的表情作为约束，恢复出属于这个人的个性化blendshape。

本申请的第二个目的在于提出一种基于深度学习的人脸混合-变形生成装置。

为达上述目的，本申请第一方面实施例提出了一种基于深度学习的人脸混合-变形生成方法，包括：

获取中性人脸的三维网格数据和对应的三维网格表情集合；

将所述三角网格数据转换为二维RGB图片；

将所述二维RGB图片输入深度学习模型进行训练，获取训练人脸混合-变形二维图；

根据所述人脸混合-变形二维图，获取训练表情集合，根据所述训练表情集合和所述三维网格表情集合调整所述深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情。

本申请实施例的基于深度学习的人脸混合-变形生成方法，通过获取中性人脸的三维网格数据和对应的三维网格表情集合；将三角网格数据转换为二维RGB图片；将二维RGB图片输入深度学习模型进行训练，获取训练人脸混合-变形二维图；根据人脸混合-变形二维图，获取训练表情集合，根据训练表情集合和三维网格表情集合调整深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情。。由此，利用深度神经网络从少量表情集生成个性化混合-变形表情，提高处理效率。

在本申请的一个实施例中，所述将所述三角网格数据转换为二维RGB图片，包括：

利用计算机动画技术将所述三角网格数据的每一个顶点的坐标投影到二维空间，获取所述二维RGB图片。

在本申请的一个实施例中，根据所述二维RGB图片获取人脸身份信息；

将所述人脸身份信息输入解码器，获取训练表情集合。

在本申请的一个实施例中，还包括：获取正则项；

根据混合-变形表情系数控制人脸的目标区域发生变形。

在本申请的一个实施例中，还包括：

获取中性人脸的二维图和任一表情的二维图；

将所述中性人脸的二维图和所述任一表情的二维图输入所述训练后的深度学习模型，获取混合-变形表情系数。

为达上述目的，本申请第二方面实施例提出了一种基于深度学习的人脸混合-变形生成装置，包括：

第一获取模块，用于获取中性人脸的三维网格数据和对应的三维网格表情集合；

转换模块，用于将所述三角网格数据转换为二维RGB图片；

训练模块，用于将所述二维RGB图片输入深度学习模型进行训练，获取训练人脸混合-变形二维图；

处理模块，用于根据所述人脸混合-变形二维图，获取训练表情集合，根据所述训练表情集合和所述三维网格表情集合调整所述深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情。

本申请实施例的基于深度学习的人脸混合-变形生成装置，通过获取中性人脸的三维网格数据和对应的三维网格表情集合；将三角网格数据转换为二维RGB图片；将二维RGB图片输入深度学习模型进行训练，获取训练人脸混合-变形二维图；根据人脸混合-变形二维图，获取训练表情集合，根据训练表情集合和三维网格表情集合调整深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情。。由此，利用深度神经网络从少量表情集生成个性化混合-变形表情，提高处理效率。

在本申请的一个实施例中，所述转换模块，具体用于：

将所述人脸身份信息输入解码器，获取训练表情集合。

在本申请的一个实施例中，所述的装置，还包括：

第二获取模块，用于获取正则项；

控制模块，用于根据混合-变形表情系数控制人脸的目标区域发生变形。

在本申请的一个实施例中，所述的装置，还包括：

第三获取模块，用于获取中性人脸的二维图和任一表情的二维图；

输入模块，用于将所述中性人脸的二维图和所述任一表情的二维图输入所述训练后的深度学习模型，获取混合-变形表情系数。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于深度学习的人脸混合-变形生成方法的流程示意图；

图2为本申请实施例所提供的一种基于深度学习的人脸混合-变形生成装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于深度学习的人脸混合-变形生成方法和装置。

图1为本申请实施例一所提供的一种基于深度学习的人脸混合-变形生成方法的流程示意图。

具体地，为了解决由人脸表情集合生成人脸个性化blendshape的问题，本申请提供了一种从中性脸的三角网格数据，利用深度学习得到中性脸到blendshape的非刚性形变的规则，再辅助以其余三角网格的表情数据生成个性和blendshape。

如图1所示，该基于深度学习的人脸混合-变形生成方法包括以下步骤：

步骤101，获取中性人脸的三维网格数据和对应的三维网格表情集合。

步骤102，将三角网格数据转换为二维RGB图片，将二维RGB图片输入深度学习模型进行训练，获取训练人脸混合-变形二维图。

步骤103，根据人脸混合-变形二维图，获取训练表情集合，根据训练表情集合和三维网格表情集合调整深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情。

在本申请实施例中，利用计算机动画技术将三角网格数据的每一个顶点的坐标投影到二维空间，获取二维RGB图片。

具体地，首先通过曲面参数化算法或者手工定义三维网格到二维平面的映射关系，将三角网格的每一个顶点映射到二维平面。在二维平面中，指定这个点的RGB三通道分量即为三角网格中对应顶点的XYZ坐标，再通过对整数格点进行双二次插值，就得到了对应的二维图片数据。使用上述方法获取到的二维图片数据称为UV位置图。

具体地，首先通过对人脸进行三维扫描，得到原始三维数据，而后将预设定好的人脸模板与原始三维数据进行注册，便得到与模板拓扑相同的三角网格数据。对于同一个人，利用人脸扫描技术扫描它的不同表情，就得到了对应的三维网格表情集合。

需要说明的是，本申请实例中不涉及人脸照片图像，所有二维RGB图像都是指上一个批注中获得的UV位置图。

在本申请实施例中，根据二维RGB图片获取人脸身份信息；将人脸身份信息输入解码器，获取训练表情集合。

在本申请实例中，利用卷积神经网络对UV位置图进行特征提取，提取到的特征可以认为是人脸身份信息，这些特征编码了人脸的形状，五官等信息。这部分操作被称为对人脸身份信息的编码，将人脸身份信息输入解码器，通过卷积神经网络进行特征的解码，获取到人脸的Blendshape。

在本申请实施例中，获取正则项；根据混合-变形表情系数控制人脸的目标区域发生变形。

具体地，正则项约束了Blendshape的合理性，Blendshape是拥有明确语义的一组人脸表情基，通过约束Blendshape相较于人的中性脸只在局部区域发生非刚性形变，同时要求所发生的非刚性形变在一个预定义好的的合理范围内，防止Blendshape失去语义。

在本申请实施例中，获取中性人脸的二维图和任一表情的二维图；将中性人脸的二维图和任一表情的二维图输入训练后的深度学习模型，获取混合-变形表情系数。

具体地，采用一个人的中性人脸三维网格数据和其的一些三维网格表情集合，具体包括：

步骤1：利用计算机动画相关技术将三角网格数据的每一个顶点的坐标投影到UV空间，得到一个二维的RGB图片，RGB的通道代表了网格顶点在三维空间的XYZ坐标。

步骤2：训练一个输入为中性人脸的UV图，输出为该人的blendshape的UV图。训练时，通过约束由输出的blendshape恢复出的人脸表情和这个人的真实人脸表情的相似度来完成模型训练。同时添加正则项，要求blendshape只在人脸的特定区域发生变形。

其中，训练一个输入为中性人脸UV位置图，输出为该人的Blengshape的UV位置图的编解码神经网络模型。训练时，一共有三项优化项。第一项优化目标是：Blendshape重建出的人脸表情和用设备获取到人脸表情相似；第二项优化目标是：Blendshape相较于中性人脸只在合理的局部脸部区域发生非刚性形变。第三项优化目标是：Blendshape相较于中性人脸的非刚性形变在一个预定义好的合理变形幅度内。

步骤3：测试时，输入一个人中性人脸的UV图和一个人做某种表情的UV的图，通过构建自监督任务完成模型的微调，经过较少轮次的模型参数优化后，将步骤2生成模型更加适配于新的测试数据，在完成对于某个输入样本的模型参数微调后，可以利用该模型生成专属于这个输入样本的blendshape。

其中，测试时，输入一个人中性人脸的UV图和一个人做某种表情的UV的图，通过构建自监督任务完成模型的微调，经过较少轮次的模型参数优化后，将获得更加适配于新的测试数据的模型。输入这个测试数据的中性脸UV位置图，输出属于这个测试数据的Blendshape。

具体地，利用现由的三维人脸数据集，学习到人脸变形到blendshape的变形方式的先验信息，再利用人脸表情集合中的部分采集到的表情作为约束，恢复出属于这个人的个性化blendshape。

具体地，将三角网格数据投影UV(二维)空间利用二维卷积来构建深度学习模型，三维网格数据固定了拓扑关系，直接使用三维网格数据会使得模型迁移性较差，投影到UV空间可以避免这一点，可以将网络适用于任意拓扑的模型。

具体地，深度学习模型训练时，利用编解码器，训练从中性脸到人脸身份信息的映射，再由人脸身份信息通过解码器得到人脸的blendshape表情集合，人脸的blendshape实际上没有监督数据，训练时通过约束由blendshape重建出的人脸表情和真实表情的相似性来完成模型的训练。

具体地，利用自监督任务辅助，进一步是模型适应于新的人脸数据，在模型针对一个新的样本进行blendshape生成时，辅助地构建自监督任务，通过自监督任务完成对模型解码器的微调，使得模型更加适配新的人脸数据。

由此，不限制输入人脸三维网格的拓扑结构，不需要人脸blendshape作为监督数据，在模型测试时进行自适应为微调得到更好的结果。

为了实现上述实施例，本申请还提出一种基于深度学习的人脸混合-变形生成装置。

图2为本申请实施例提供的一种基于深度学习的人脸混合-变形生成装置的结构示意图。

如图2所示，该基于深度学习的人脸混合-变形生成装置包括：第一获取模块210、转换模块220、训练模块230和处理模块240。

第一获取模块210，用于获取中性人脸的三维网格数据和对应的三维网格表情集合。

转换模块220，用于将所述三角网格数据转换为二维RGB图片。

训练模块230，用于将所述二维RGB图片输入深度学习模型进行训练，获取训练人脸混合-变形二维图。

处理模块240，用于根据所述人脸混合-变形二维图，获取训练表情集合，根据所述训练表情集合和所述三维网格表情集合调整所述深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情。

在本申请的一个实施例中，所述转换模块，具体用于：利用计算机动画技术将所述三角网格数据的每一个顶点的坐标投影到二维空间，获取所述二维RGB图片。

在本申请的一个实施例中，根据所述二维RGB图片获取人脸身份信息；将所述人脸身份信息输入解码器，获取训练表情集合。

在本申请的一个实施例中，所述的装置，还包括：第二获取模块，用于获取正则项；控制模块，用于根据混合-变形表情系数控制人脸的目标区域发生变形。

在本申请的一个实施例中，所述的装置，还包括：第三获取模块，用于获取中性人脸的二维图和任一表情的二维图；输入模块，用于将所述中性人脸的二维图和所述任一表情的二维图输入所述训练后的深度学习模型，获取混合-变形表情系数。

需要说明的是，前述对基于深度学习的人脸混合-变形生成方法实施例的解释说明也适用于该实施例的基于深度学习的人脸混合-变形生成装置，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的人脸混合-变形生成方法，其特征在于，包括以下步骤：

获取中性人脸的三维网格数据和对应的三维网格表情集合；

将所述三维网格数据转换为二维RGB图片，并将所述二维RGB图片输入深度学习模型进行训练，获取训练人脸混合-变形二维图；

根据所述人脸混合-变形二维图，获取训练表情集合，根据所述训练表情集合和所述三维网格表情集合调整所述深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情；

其中，所述方法具体包括：

将所述三维网格数据的每一个顶点的坐标投影到UV空间，得到一个二维的RGB图片，RGB的通道代表网格顶点在三维空间的XYZ坐标，其中所述二维的RGB图片数据为UV位置图；

训练一个输入为中性人脸的UV位置图，输出为所述人脸的混合-变形二维图，训练时，通过约束由输出的混合-变形恢复出的人脸表情和真实人脸表情的相似度来完成模型训练，且添加正则项，要求混合-变形只在所述人脸的特定区域发生变形，其中，训练时包括三项优化项，第一项优化目标是：混合-变形重建出的人脸表情和用设备获取到人脸表情相似；第二项优化目标是：混合-变形相较于中性人脸只在合理的局部脸部区域发生非刚性形变；第三项优化目标是：混合-变形相较于中性人脸的非刚性形变在一个预定义好的合理变形幅度内；

输入中性人脸的UV位置图和所述人脸做某种表情的UV位置图，通过构建自监督任务对模型参数进行优化，完成所述深度学习模型的参数的调整。

2.如权利要求1所述的方法，其特征在于，所述将所述三维网格数据转换为二维RGB图片，包括：

利用计算机动画技术将所述三维网格数据的每一个顶点的坐标投影到二维空间，获取所述二维RGB图片。

3.如权利要求1所述的方法，其特征在于，

根据所述二维RGB图片获取人脸身份信息；

将所述人脸身份信息输入解码器，获取训练表情集合。

4.如权利要求1所述的方法，其特征在于，还包括：

获取正则项；

根据混合-变形表情系数控制人脸的目标区域发生变形。

5.如权利要求1所述的方法，其特征在于，还包括：

获取中性人脸的二维图和任一表情的二维图；

6.一种基于深度学习的人脸混合-变形生成装置，其特征在于，包括：

转换模块，用于将所述三维网格数据转换为二维RGB图片；

处理模块，用于根据所述人脸混合-变形二维图，获取训练表情集合，根据所述训练表情集合和所述三维网格表情集合调整所述深度学习模型的参数，通过训练后的深度学习模型对待处理人脸二维图进行处理，生成人脸混合-变形表情；

其中，所述装置具体用于：

7.如权利要求6所述的装置，其特征在于，所述转换模块，具体用于：

8.如权利要求6所述的装置，其特征在于，

根据所述二维RGB图片获取人脸身份信息；

将所述人脸身份信息输入解码器，获取训练表情集合。

9.如权利要求6所述的装置，其特征在于，还包括：

第二获取模块，用于获取正则项；

10.如权利要求6所述的装置，其特征在于，还包括：