CN112614229B

CN112614229B - 基于深度学习的人脸重建方法和装置

Info

Publication number: CN112614229B
Application number: CN202011598566.0A
Authority: CN
Inventors: 徐枫; 王至博
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-09-09
Anticipated expiration: 2040-12-29
Also published as: CN112614229A

Abstract

本申请提出一种基于深度学习的人脸重建方法和装置，涉及图像处理技术领域，其中，方法包括：获取人脸多视角图片数据集，利用多视角重建方法对人脸多视角图片数据集中的人脸多视角图片进行重建，获取不同用户的人脸三维几何和纹理图；通过深度卷积神经网络对不同用户的人脸三维几何和纹理图和人脸多视角图片数据集进行训练，获取深度神经网络；将待处理的人脸视频输入深度神经网络进行处理，获取人脸视频的中每一帧的人脸三维几何和纹理图。由此，仅需用户录制一段做不同表情的人脸视频，就可以得到该人脸的几何和纹理，重建出的几何和纹理具有更高的精度。

Description

基于深度学习的人脸重建方法和装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于深度学习的人脸重建方法和装置。

背景技术

人脸三维重建在人脸动画以及人脸跟踪中有重要的应用。在人脸动画领域，高精度的人脸几何和纹理对于人脸动画的结果非常重要，使用高精度的几何和纹理，可以使得人物动画更加具有真实感。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于深度学习的人脸重建方法，仅需用户录制一段做不同表情的人脸视频，就可以得到该人脸的几何和纹理，重建出的几何和纹理具有更高的精度。

本申请的第二个目的在于提出一种基于深度学习的人脸重建装置。

为达上述目的，本申请第一方面实施例提出了一种基于深度学习的人脸重建方法，包括：

获取人脸多视角图片数据集，利用多视角重建方法对所述人脸多视角图片数据集中的人脸多视角图片进行重建，获取不同用户的人脸三维几何和纹理图；

通过深度卷积神经网络对所述不同用户的人脸三维几何和纹理图和所述人脸多视角图片数据集进行训练，获取深度神经网络；

将待处理的人脸视频输入所述深度神经网络进行处理，获取所述人脸视频的中每一帧的人脸三维几何和纹理图。

本申请实施例的基于深度学习的人脸重建方法，通过获取人脸多视角图片数据集，利用多视角重建方法对人脸多视角图片数据集中的人脸多视角图片进行重建，获取不同用户的人脸三维几何和纹理图；通过深度卷积神经网络对不同用户的人脸三维几何和纹理图和人脸多视角图片数据集进行训练，获取深度神经网络；将待处理的人脸视频输入深度神经网络进行处理，获取人脸视频的中每一帧的人脸三维几何和纹理图。由此，仅需用户录制一段做不同表情的人脸视频，就可以得到该人脸的几何和纹理，重建出的几何和纹理具有更高的精度。

在本申请的一个实施例中，所述通过深度卷积神经网络对所述不同用户的人脸三维几何和纹理和所述人脸多视角图片数据集进行训练，获取深度神经网络，包括：

所述深度卷积神经网络的输入为人脸多视角图片，输出为人脸三维几何和纹理图，使用所述深度卷积神经网络输出和对应的强监督信号之间的损失误差作为强监督训练误差进行训练，其中，不同视角图片输入对应的输出人脸三维几何和纹理图之间的损失误差相等。

在本申请的一个实施例中，利用人脸注册方法对不同的人脸几何进行注册，将所有三维人脸表示为具有相同拓扑的三维模型，所有不同的人脸都表示在相同的平面空间中。

在本申请的一个实施例中，所述将待处理的人脸视频输入所述深度神经网络进行处理，获取所述人脸视频的中每一帧的人脸三维几何和纹理图，包括：

提取所述人脸视频的每个视频帧；

对所述视频帧进行人脸识别，获取人脸图像；

对所述人脸图像进行特征提取，获取人脸三维几何和纹理图。

在本申请的一个实施例中，所述基于深度学习的人脸重建方法，还包括：

通过摄像头拍摄不同用户对应的不同视角的人脸图片；和/或，接收终端发送和/或目标地址下载的不同用户对应的不同视角的人脸图片；

根据所述人脸图片生成所述人脸多视角图片数据集。

为达上述目的，本申请第二方面实施例提出了一种基于深度学习的人脸重建装置，包括：

第一获取模块，用于获取人脸多视角图片数据集，利用多视角重建方法对所述人脸多视角图片数据集中的人脸多视角图片进行重建，获取不同用户的人脸三维几何和纹理图；

训练模块，用于通过深度卷积神经网络对所述不同用户的人脸三维几何和纹理图和所述人脸多视角图片数据集进行训练，获取深度神经网络；

处理模块，用于将待处理的人脸视频输入所述深度神经网络进行处理，获取所述人脸视频的中每一帧的人脸三维几何和纹理图。

本申请实施例的基于深度学习的人脸重建装置，通过获取人脸多视角图片数据集，利用多视角重建方法对人脸多视角图片数据集中的人脸多视角图片进行重建，获取不同用户的人脸三维几何和纹理图；通过深度卷积神经网络对不同用户的人脸三维几何和纹理图和人脸多视角图片数据集进行训练，获取深度神经网络；将待处理的人脸视频输入深度神经网络进行处理，获取人脸视频的中每一帧的人脸三维几何和纹理图。由此，仅需用户录制一段做不同表情的人脸视频，就可以得到该人脸的几何和纹理，重建出的几何和纹理具有更高的精度。

在本申请的一个实施例中，所述训练模块，具体用于：

在本申请的一个实施例中，所述处理模块，具体用于：提取所述人脸视频的每个视频帧；对所述视频帧进行人脸识别，获取人脸图像；对所述人脸图像进行特征提取，获取人脸三维几何和纹理图。

在本申请的一个实施例中，所述的装置，还包括：第二获取模块，用于通过摄像头拍摄不同用户对应的不同视角的人脸图片；和/或，接收终端发送和/或目标地址下载的不同用户对应的不同视角的人脸图片；生成模块，用于根据所述人脸图片生成所述人脸多视角图片数据集。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种基于深度学习的人脸重建方法的流程示意图；

图2为本申请实施例所提供的基于深度学习的人脸重建的示例图；

图3本申请实施例所提供的一种基于深度学习的人脸重建装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于深度学习的人脸重建方法和装置。

图1为本申请实施例所提供的一种基于深度学习的人脸重建方法的流程示意图。

如图1所示，该基于深度学习的人脸重建方法包括以下步骤：

步骤101，获取人脸多视角图片数据集，利用多视角重建方法对人脸多视角图片数据集中的人脸多视角图片进行重建，获取不同用户的人脸三维几何和纹理图。

在本申请实施例中，通过摄像头拍摄不同用户对应的不同视角的人脸图片；和/或，接收终端发送和/或目标地址下载的不同用户对应的不同视角的人脸图片；根据人脸图片生成所述人脸多视角图片数据集。

步骤102，通过深度卷积神经网络对不同用户的人脸三维几何和纹理图和人脸多视角图片数据集进行训练，获取深度神经网络。

在本申请实施例中，深度卷积神经网络的输入为人脸多视角图片，输出为人脸三维几何和纹理图，使用深度卷积神经网络输出和对应的强监督信号之间的损失误差作为强监督训练误差进行训练，其中，不同视角图片输入对应的输出人脸三维几何和纹理图之间的损失误差相等。

具体地，深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

在本申请实施例中，利用人脸注册方法对不同的人脸几何进行注册，将所有三维人脸表示为具有相同拓扑的三维模型，所有不同的人脸都表示在相同的平面UV空间中。

步骤103，将待处理的人脸视频输入深度神经网络进行处理，获取人脸视频的中每一帧的人脸三维几何和纹理图。

在本申请实施例中，将待处理的人脸视频输入深度神经网络进行处理，获取人脸视频的中每一帧的人脸三维几何和纹理图，包括：提取脸视频的每个视频帧；对视频帧进行人脸识别，获取人脸图像；对人脸图像进行特征提取，获取人脸三维几何和纹理图。

具体地，建立一个多视角人脸图片数据集，通过多视角重建，获得高精度人脸三维几何和纹理；训练一个从人脸图片映射到人脸三维几何和纹理的深度神经网络，其中几何和纹理表示在UV图片上；在使用时，输入一段视频序列，可以重建出每一帧的高精度几何与纹理。

具体地，如图2所示，通过多视角图片三维重建方法对数据集中的人脸进行重建，得到大量的人脸高精度三维几何与纹理。利用人脸注册方法对不同的人脸几何进行注册，将所有三维人脸表示为具有相同拓扑的三维网格模型，将人脸的几何和纹理都表示在这同一拓扑的三维网格模型的UV坐标空间之中。

利用数据集中的高精度人脸数据，使用一个深度神经网络，训练一个从人脸图片到高精度人脸几何和纹理。训练时的输入为多视角图片，输出为几何和纹理的UV图。使用网络输出和对应的强监督信号之间的L1误差作为强监督训练误差。同时，要求不同视角图片输入下，得到的几何和纹理的UV图之间的L1误差相等，这样可以使得网络对于不同视角下的人脸重建具有一致性。

利用训练好的网络，对用户输入的一段视频序列进行处理，得到该视频中每一帧的高精度几何和纹理，这些结果同样以UV贴图的形式呈现。

为了实现上述实施例，本申请还提出一种基于深度学习的人脸重建装置。

图3为本申请实施例提供的一种基于深度学习的人脸重建装置的结构示意图。

如图3所示，该基于深度学习的人脸重建装置包括：第一获取模块310、训练模块320和处理模块330。

第一获取模块310，用于获取人脸多视角图片数据集，利用多视角重建方法对所述人脸多视角图片数据集中的人脸多视角图片进行重建，获取不同用户的人脸三维几何和纹理图。

训练模块320，用于通过深度卷积神经网络对所述不同用户的人脸三维几何和纹理图和所述人脸多视角图片数据集进行训练，获取深度神经网络。

处理模块330，用于将待处理的人脸视频输入所述深度神经网络进行处理，获取所述人脸视频的中每一帧的人脸三维几何和纹理图。

在本申请的一个实施例中，所述训练模块320，具体用于：所述深度卷积神经网络的输入为人脸多视角图片，输出为人脸三维几何和纹理图，使用所述深度卷积神经网络输出和对应的强监督信号之间的损失误差作为强监督训练误差进行训练，其中，不同视角图片输入对应的输出人脸三维几何和纹理图之间的损失误差相等。

在本申请的一个实施例中，所述处理模块330，具体用于：提取所述人脸视频的每个视频帧；对所述视频帧进行人脸识别，获取人脸图像；对所述人脸图像进行特征提取，获取人脸三维几何和纹理图。

需要说明的是，前述对基于深度学习的人脸重建方法实施例的解释说明也适用于该实施例的基于深度学习的人脸重建装置，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的人脸重建方法，其特征在于，包括：

将待处理的人脸视频输入所述深度神经网络进行处理，获取所述人脸视频的中每一帧的人脸三维几何和纹理图；

其中，所述通过深度卷积神经网络对所述不同用户的人脸三维几何和纹理和所述人脸多视角图片数据集进行训练，获取深度神经网络，包括：

所述深度卷积神经网络的输入为人脸多视角图片，输出为人脸三维几何和纹理图，使用所述深度卷积神经网络输出和对应的强监督信号之间的损失误差作为强监督训练误差进行训练，其中，不同视角图片输入对应的输出人脸三维几何和纹理图之间的损失误差相等；

其中，利用人脸注册方法对不同的人脸几何进行注册，将所有三维人脸表示为具有相同拓扑的三维模型，所有不同的人脸都表示在相同的平面空间中。

2.如权利要求1所述的方法，其特征在于，所述将待处理的人脸视频输入所述深度神经网络进行处理，获取所述人脸视频的中每一帧的人脸三维几何和纹理图，包括：

提取所述人脸视频的每个视频帧；

对所述视频帧进行人脸识别，获取人脸图像；

3.如权利要求1所述的方法，其特征在于，还包括：

根据所述人脸图片生成所述人脸多视角图片数据集。

4.一种基于深度学习的人脸重建装置，其特征在于，包括：

处理模块，用于将待处理的人脸视频输入所述深度神经网络进行处理，获取所述人脸视频的中每一帧的人脸三维几何和纹理图；

其中，所述训练模块，具体用于：

5.如权利要求4所述的装置，其特征在于，所述处理模块，具体用于：

提取所述人脸视频的每个视频帧；

对所述视频帧进行人脸识别，获取人脸图像；

6.如权利要求4所述的装置，其特征在于，还包括：

第二获取模块，用于通过摄像头拍摄不同用户对应的不同视角的人脸图片；和/或，接收终端发送和/或目标地址下载的不同用户对应的不同视角的人脸图片；

生成模块，用于根据所述人脸图片生成所述人脸多视角图片数据集。