CN114972634A

CN114972634A - 基于特征体素融合的多视角三维可变形人脸重建方法

Info

Publication number: CN114972634A
Application number: CN202210488298.XA
Authority: CN
Inventors: 徐枫; 田镜祺
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-30

Abstract

本申请公开了一种基于特征体素融合的多视角三维可变形人脸重建方法，其中，方法包括：获取不同视角的多张人脸图片；将多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对多个三维特征体素进行语义配准，得到多个配准后的三维特征体素；将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于融合特征体素得到三维可变形人脸重建结果，从而在重建过程中考虑了图像之间的像素对应关系，做到了更好地局部特征融合，由此，解决了相关技术无法从多张视图恢复出三维人脸可变形模型以及并未充分考虑到不同视图之间对人脸区域的遮挡情况等问题。

Description

基于特征体素融合的多视角三维可变形人脸重建方法

技术领域

本申请涉及计算机图形学技术领域，特别涉及一种基于特征体素融合的多视角三维可变形人脸重建方法。

背景技术

三维可变形人脸模型在动画制作，人机交互，虚拟现实等领域有着广泛的应用。由于三维数据采集的高成本，在实际应用中，通常选择从多视角人脸图像数据中重建出三维可变形人脸模型，然后再进行后续的应用。

三维可变形人脸模型构建了一个参数化的人脸模型表示。该模型将复杂的三维人脸几何表示为一组线性基的加权求和，将三维人脸纹理信息同样表达为一组线性基的加权求和。通过改变这些线性基的加权系数，就可以得到不同身份，不同表情，不同纹理的人脸模型。在实际使用中，需要针对某个指定用户得到其三维可变形人脸模型的参数表示，这样可以用于之后的动画制作，人机交互等应用。

然而，相关技术中无法有效的从该用户的多张不同视角的人脸图片得到参数表示，且并未充分考虑到不同视图之间对人脸区域的遮挡情况，亟待解决。

发明内容

本申请提供一种基于特征体素融合的多视角三维可变形人脸重建方法、装置、电子设备及存储介质，以解决相关技术无法从多张视图恢复出三维人脸可变形模型以及并未充分考虑到不同视图之间对人脸区域的遮挡情况等问题。

本申请第一方面实施例提供一种基于特征体素融合的多视角三维可变形人脸重建方法，包括以下步骤：获取不同视角的多张人脸图片；将所述多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对所述多个三维特征体素进行语义配准，得到多个配准后的三维特征体素；将所述多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于所述融合特征体素得到三维可变形人脸重建结果。

可选地，在本申请的一个实施例中，所述将所述多张人脸图片中的二维特征映射为多个三维特征体素，包括：利用二维卷积神经网络提取每张人脸图片中的二维特征；利用三维卷积将所述二维特征映射为三维特征体素。

可选地，在本申请的一个实施例中，在根据视角间的语义对应关系对所述多个三维特征体素进行语义配准之前，还包括：根据不同视角的相机参数约束得到所述视角间的语义对应关系。

可选地，在本申请的一个实施例中，所述将所述多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，包括：确定所述多张人脸图片中特征体素的置信度；根据所述特征体素的置信度对所述多个三维特征体素的特征体素加权求和，生成所述融合特征体素。

本申请第二方面实施例提供一种基于特征体素融合的多视角三维可变形人脸重建装置，包括：获取模块，用于获取不同视角的多张人脸图片；配准模块，用于将所述多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对所述多个三维特征体素进行语义配准，得到多个配准后的三维特征体素；生成模块，用于将所述多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于所述融合特征体素得到三维可变形人脸重建结果。

可选地，在本申请的一个实施例中，所述配准模块，包括：提取单元，用于利用二维卷积神经网络提取每张人脸图片中的二维特征；映射单元，用于利用三维卷积将所述二维特征映射为三维特征体素。

可选地，在本申请的一个实施例中，还包括：对应模块，用于在根据视角间的语义对应关系对所述多个三维特征体素进行语义配准之前，根据不同视角的相机参数约束得到所述视角间的语义对应关系。

可选地，在本申请的一个实施例中，所述生成模块，包括：确定单元，用于确定所述多张人脸图片中特征体素的置信度；加权单元，用于根据所述特征体素的置信度对所述多个三维特征体素的特征体素加权求和，生成所述融合特征体素。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以执行如上述实施例所述的基于特征体素融合的多视角三维可变形人脸重建方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以执行如上述实施例所述的基于特征体素融合的多视角三维可变形人脸重建方法。

由此，本申请实施例具有以下有益效果：

本申请实施例将不同视角的多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对多个三维特征体素进行语义配准，得到多个配准后的三维特征体素，将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于融合特征体素得到三维可变形人脸重建结果，从而通过语义配准完成不同视图之间的语义对齐，并充分考虑到了不同视图之间对人脸区域的遮挡情况。由此，解决了相关技术无法从多张视图恢复出三维人脸可变形模型以及并未充分考虑到不同视图之间对人脸区域的遮挡情况等问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于特征体素融合的多视角三维可变形人脸重建方法的流程图；

图2为根据本申请实施例的基于特征体素融合的多视角三维可变形人脸重建装置的示例图；

图3为申请实施例提供的电子设备的结构示意图。

附图标记说明：获取模块-100、配准模块-200、生成模块-300、存储器-301、处理器-302、通信接口-303。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的通过特征体素融合的多视角三维可变形人脸重建基于特征体素融合的多视角三维可变形人脸重建方法、装置、电子设备及存储介质。针对上述背景技术中心提到的问题，本申请提供了一种通过特征体素融合的多视角三维可变形人脸重建基于特征体素融合的多视角三维可变形人脸重建方法，在该方法中，本申请实施例通过将不同视角的获取不同视角的多张人脸图片；将多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对多个三维特征体素进行语义配准，得到多个配准后的三维特征体素；将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于融合特征体素得到三维可变形人脸重建结果，从而通过语义配准可使用相机参数完成不同视图之间的语义对齐，并充分考虑到了不同视图之间对人脸区域的遮挡情况。由此，解决了相关技术无法从多张视图恢复出三维人脸可变形模型以及并未充分考虑到不同视图之间对人脸区域的遮挡情况等问题。

具体而言，图1为本申请实施例所提供的一种基于特征体素融合的多视角三维可变形人脸重建方法的流程示意图。

如图1所示，该基于特征体素融合的多视角三维可变形人脸重建方法包括以下步骤：

在步骤S101中，获取不同视角的多张人脸图片。

本申请的实施例可以对不同视角的人脸图像进行重建，得到三维可变形人脸模型。在实际执行过程中，本申请的实施例可以通过网络相关图片数据或自行拍摄等途径获取不同视角的多张人脸图片。

在图像获取过程中，本申请的实施例可以根据实际情况尽可能的从多角度、多姿态进行拍摄获取多视角图像，同时，需根据实际情况采集适量的图像数据，以免影响重建的精度和实时性能。

在步骤S102中，将多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对多个三维特征体素进行语义配准，得到多个配准后的三维特征体素。

在本申请的实施例中，由于在二维空间内，无法根据不同视角的相机参数构建特征对应关系，通过将特征映射到三维空间，可以很容易地使用相机参数完成不同视图之间的语义对齐。因此，在本申请的实施例中，将多张人脸图片中的二维特征映射为多个三维特征体素，包括：利用二维卷积神经网络提取每张人脸图片中的二维特征；利用三维卷积将二维特征映射为三维特征体素。本申请的实施例将二维特征图使用三维卷积映射成三维体素，在三维体素空间，可以简单地使用相机外参得到特征的语义对应关系。

可选地，在本申请的实施例中，在根据视角间的语义对应关系对多个三维特征体素进行语义配准之前，还包括：根据不同视角的相机参数约束得到视角间的语义对应关系。

具体地，当从多个不同视角拍摄目标用户时，不同视角的图片存在语义上的对应关系。该对应关系由不同视角的相机参数进行约束。例如在视角A拍摄的图片中，鼻尖位于图像中像素点p_a，在视角B拍摄的图片中，鼻尖为图像中像素点p_b。则p_a和p_b之间存在着由不同视角相机参数决定的位置关系对应。自然地，在使用深度卷积神经网络对两幅图像完成特征提取后，p_a和p_b处的特征应该对应同一种语义，应该进行相应的特征融合以保持局部信息不丢失。

在本申请的实施例中，语义对应关系可以由下列方程式决定：

其中下标s,t分别代表源视图和目标视图，NDC代表标准化设备坐标系，m代表模型坐标系，R,t代表相机外参数中的旋转矩阵和平移向量，由于通过神经网络得到的特征体素是被认为与标准化设备坐标系相对齐的，因此首先通过坐标系变换到三维模型空间。p代表了体素空间内的一个坐标，通过该式可以求解特征体素之间的位置对应关系。使用上述式子，可以对不同视图得到的体素特征进行语义上的配准。

在步骤S103中，将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于融合特征体素得到三维可变形人脸重建结果。

可选地，在本申请的一个实施例中，将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，包括：确定多张人脸图片中特征体素的置信度；根据特征体素的置信度对多个三维特征体素的特征体素加权求和，生成融合特征体素。

具体地，在配准之后，不同视图之间的特征体素在置信度上可能存在差异。例如：在左视图无法观察到人脸的右脸部分，因此该视图对于人脸右脸部分置信度较低。本申请的实施例使用深度神经网络额外估计每个视图的特征体素的置信度，按照该置信度对不同视图的特征体素加权求和，得到融合特征体素。之后将利用融合特征体素进行三维可变形人脸模型的参数回归。通过使用置信度估计的方法进行特征融合，充分考虑到了不同视图之间对人脸区域的遮挡情况。

在一些实施例中，可以通过一个特征体素融合的深度学习模型来实现多视角三维可变形人脸重建，该模型利用特征体素融合的方式，可以从大规模数据集中学习到多张不同视角人脸图片到三维可变形人脸模型参数的映射函数，同时重建精度要优于前人的深度学习模型。可以将采集的不同视角的多张人脸图片输入提前训练好的多视角人脸重建深度学习模型，直接得到重建后的三维可变形人脸结果。

模型训练：由于该方法基于深度学习方法，因此依赖于大量数据进行模型的训练。首先从开源数据集获取多视角人脸图片，或者也可以使用者自己拍摄多视角图片，对视角的选取最好是正面视角和两张大于60度的侧视图图片。使用搜集好的图片构建数据集。模型训练时，每次取某个人的多视角图片，首先使用二维卷积神经网络分别对每张视图提取二维特征图，根据特征图分别回归拍摄时相机的外参。之后将二维特征图变形为三维特征体素，经过一些三维卷积操作后得到每张视图对应的三维特征体素，通过上述实施例介绍的方式对特征体素进行语义对齐，并且使用图像再分别估计体素对应的置信度，利用置信度完成多视图的体素融合，最后使用融合特征体素完成三维可变形人脸模型的参数回归。

本申请的实施例不限制网络的训练方式，可以根据需要采取自监督或者强监督的训练方式。例如：采取自监督训练方式时，可以使用可微渲染器技术将重建所得的模型渲染成图片，根据输入图片和渲染图片构建损失函数监督网络完成训练。

在线重建：模型训练完成后，将模型的参数保存。在需要使用时，载入模型的参数，向模型输入多视角图片，模型会计算可变可变形人脸模型的几何系数和纹理系数，利用这些系数对相应的几何基和纹理基进行加权，便得到了重建结果的几何部分和纹理部分。

根据本申请实施例提出的基于特征体素融合的多视角三维可变形人脸重建方法，将不同视角的多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对多个三维特征体素进行语义配准，得到多个配准后的三维特征体素，将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于融合特征体素得到三维可变形人脸重建结果，从而通过将特征映射到三维空间，可以很容易地使用相机参数完成不同视图之间的语义对齐，并使用置信度估计的方法进行特征融合，充分考虑到了不同视图之间对人脸区域的遮挡情况。

其次参照附图描述根据本申请实施例提出的基于特征体素融合的多视角三维可变形人脸重建装置。

图2是本申请实施例的基于特征体素融合的多视角三维可变形人脸重建装置的方框示意图。

如图2所示，该基于特征体素融合的多视角三维可变形人脸重建装置10包括：获取模块100、配准模块200以及生成模块300。

其中，获取模块100，用于获取不同视角的多张人脸图片。配准模块200，用于将多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对多个三维特征体素进行语义配准，得到多个配准后的三维特征体素。生成模块300，用于将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于融合特征体素得到三维可变形人脸重建结果。

可选地，在本申请的一个实施例中，配准模块200包括：提取单元，用于利用二维卷积神经网络提取每张人脸图片中的二维特征；映射单元，用于利用三维卷积将二维特征映射为三维特征体素。

可选地，在本申请的一个实施例中，基于特征体素融合的多视角三维可变形人脸重建装置10还包括：对应模块，用于在根据视角间的语义对应关系对多个三维特征体素进行语义配准之前，根据不同视角的相机参数约束得到视角间的语义对应关系。

可选地，在本申请的一个实施例中，生成模块300，包括：确定单元，用于确定多张人脸图片中特征体素的置信度；加权单元，用于根据特征体素的置信度对多个三维特征体素的特征体素加权求和，生成融合特征体素。

需要说明的是，前述对基于特征体素融合的多视角三维可变形人脸重建方法实施例的解释说明也适用于该实施例的基于特征体素融合的多视角三维可变形人脸重建装置，此处不再赘述。

根据本申请实施例提出的基于特征体素融合的多视角三维可变形人脸重建装置，通过将不同视角的多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对多个三维特征体素进行语义配准，得到多个配准后的三维特征体素，将多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于融合特征体素得到三维可变形人脸重建结果，本申请实施例利用特征体素融合的方式，可以从大规模数据集中学习到多张不同视角人脸图片到三维可变形人脸模型参数的映射函数，同时重建精度要优于前人的深度学习模型。

图3为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序。

处理器302执行程序时实现上述实施例中提供的基于特征体素融合的多视角三维可变形人脸重建方法。

进一步地，电子设备还包括：

通信接口303，用于存储器301和处理器302之间的通信。

存储器301，用于存放可在处理器302上运行的计算机程序。

存储器301可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器301、处理器302和通信接口303独立实现，则通信接口303、存储器301和处理器302可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器301、处理器302及通信接口303，集成在一块芯片上实现，则存储器301、处理器302及通信接口303可以通过内部接口完成相互间的通信。

处理器302可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上的基于特征体素融合的多视角三维可变形人脸重建方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

1.一种基于特征体素融合的多视角三维可变形人脸重建方法，其特征在于，包括以下步骤：

获取不同视角的多张人脸图片；

将所述多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对所述多个三维特征体素进行语义配准，得到多个配准后的三维特征体素；

将所述多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于所述融合特征体素得到三维可变形人脸重建结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述多张人脸图片中的二维特征映射为多个三维特征体素，包括：

利用二维卷积神经网络提取每张人脸图片中的二维特征；

利用三维卷积将所述二维特征映射为三维特征体素。

3.根据权利要求1所述的方法，其特征在于，在根据视角间的语义对应关系对所述多个三维特征体素进行语义配准之前，还包括：

根据不同视角的相机参数约束得到所述视角间的语义对应关系。

4.根据权利要求1所述的方法，其特征在于，所述将所述多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，包括：

确定所述多张人脸图片中特征体素的置信度；

根据所述特征体素的置信度对所述多个三维特征体素的特征体素加权求和，生成所述融合特征体素。

5.一种基于特征体素融合的多视角三维可变形人脸重建装置，其特征在于，包括：

获取模块，用于获取不同视角的多张人脸图片；

配准模块，用于将所述多张人脸图片中的二维特征映射为多个三维特征体素，并根据视角间的语义对应关系对所述多个三维特征体素进行语义配准，得到多个配准后的三维特征体素；

生成模块，用于将所述多个配准后的三维特征体素进行特征体素融合，生成融合特征体素，并基于所述融合特征体素得到三维可变形人脸重建结果。

6.根据权利要求5所述的装置，其特征在于，所述配准模块，包括：

提取单元，用于利用二维卷积神经网络提取每张人脸图片中的二维特征；

映射单元，用于利用三维卷积将所述二维特征映射为三维特征体素。

7.根据权利要求5所述的装置，其特征在于，还包括：

对应模块，用于在根据视角间的语义对应关系对所述多个三维特征体素进行语义配准之前，根据不同视角的相机参数约束得到所述视角间的语义对应关系。

8.根据权利要求5所述的装置，其特征在于，所述生成模块，包括：

确定单元，用于确定所述多张人脸图片中特征体素的置信度；

加权单元，用于根据所述特征体素的置信度对所述多个三维特征体素的特征体素加权求和，生成所述融合特征体素。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的基于特征体素融合的多视角三维可变形人脸重建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的基于特征体素融合的多视角三维可变形人脸重建方法。