CN110476186B

CN110476186B - 高速高保真面部跟踪

Info

Publication number: CN110476186B
Application number: CN201880022747.3A
Authority: CN
Inventors: 朱利安·帕斯卡尔·克里斯多佛·瓦伦汀; 乔纳森·詹姆斯·泰勒; 沙赫拉姆·伊扎迪
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-06-07
Filing date: 2018-06-07
Publication date: 2020-12-29
Anticipated expiration: 2038-06-07
Also published as: EP3593323A1; WO2018227001A1; EP3593323B1; KR102376948B1; US10824226B2; CN110476186A; KR20200015459A; US20180356883A1

Abstract

一种电子设备通过基于面部模型网格的被估计为从深度相机的视点可见的顶点而将生成面部模型网格拟合到深度图来估计面部的姿态。所述电子设备的面部跟踪模块从深度相机接收面部的深度图像并且基于所述深度图像来生成所述面部的深度图。所述面部跟踪模块通过将面部模型网格拟合到深度图的像素来识别所述面部的姿态，所述深度图的像素对应于所述面部模型网格的被估计为从所述深度相机的视点可见的顶点。

Description

高速高保真面部跟踪

技术领域

本公开一般地涉及影像捕获和处理并且更具体地涉及使用捕获的影像的面部跟踪。

背景技术

面部跟踪允许面部表情和头部移动被用作用于虚拟现实和增强现实系统的输入机制，从而支持更沉浸式用户体验。常规的面部跟踪系统捕获用户的面部的图像和深度数据并且将生成模型拟合到所捕获的图像或深度数据。为了将该模型拟合到所捕获的数据，面部跟踪系统定义并优化能量函数以找到对应于正确的面部姿态的最小值。然而，常规的面部跟踪系统通常具有可导致不令人满意的用户体验的准确性和等待时间问题。

附图说明

通过参考附图，可以更好地理解本公开，并且其许多特征和优点对于本领域的技术人员而言变得显而易见。在不同的附图中使用相同的附图标记指示类似或相同的项目。

图1是图示依照本公开的至少一个实施例的基于深度图像来估计面部的当前姿态的面部跟踪系统的图。

图2是图示依照本公开的至少一个实施例的被配置成基于深度图像来估计面部的当前姿态的图1的面部跟踪系统的面部跟踪模块的图。

图3是图示依照本公开的至少一个实施例的估计面部模型网格的顶点的可见性的图。

图4是图示依照本公开的至少一个实施例的估计面部的姿态的方法的流程图。

具体实施方式

以下描述旨在通过提供许多具体实施例和细节来传达对本公开的透彻理解，所述许多具体实施例和细节涉及通过基于面部模型网格的被估计为从深度相机的视点可见的顶点而将生成面部模型网格拟合到深度图来估计面部的姿态。然而，应理解的是，本公开不限于仅作为示例的这些具体实施例和细节，并且本公开的范围因此旨在仅受到以下权利要求及其等同物限制。应进一步理解的是，本领域的普通技术人员鉴于已知的系统和方法将取决于具体设计和其它需要而领会本公开出于其预定目的和益处在任何数目的替代实施例中的用途。

图1至图4图示用于通过基于面部模型网格的被估计为从深度相机的视点可见的顶点而将生成面部模型网格拟合到面部的深度图来估计面部的姿态的技术。面部跟踪模块从深度相机接收面部的深度图像并且基于该深度图像生成面部的深度图。面部跟踪模块通过将面部模型网格拟合到深度图的像素来识别面部的姿态，所述深度图的像素对应于面部模型网格的被估计为从深度相机的视点可见的顶点。面部跟踪模块通过假定面部模型网格很大程度上是凸的(即，面部模型网格比不凸更凸)来估计面部模型网格的哪些顶点从深度相机的视点可见。在一些实施例中，面部跟踪模块通过估计垂直于面部模型网格的每个顶点的矢量面向或者背离深度相机的程度来估计面部模型网格的哪些顶点从深度相机的视点可见。通过仅包括面部模型网格的被估计为可见的顶点，面部跟踪模块不关联面部模型网格的与深度图像的关联不应该存在的那些顶点(即，对于从深度相机的视点不可见的顶点)。排除这样的顶点改进面部姿态估计的准确性，因为如果包括那些顶点，则用于估计姿态的能量函数将变得不准确，因为能量函数会将高能量指派给正确的姿态。

在一些实施例中，通过指示如何非刚性地使面部模型网格的顶点变形以拟合深度图的一组身份和表情系数来参数化面部模型网格。在一些实施例中，面部跟踪模块双三次内插深度图以使像素边界处的交点平滑。面部跟踪模块调整身份和表情系数以与深度图更好地匹配。面部跟踪模块然后基于面部模型网格的每个可见顶点到深度图的距离来使能量函数最小化以识别最紧密地接近面部的姿态的面部模型网格。

图1图示依照本公开的至少一个实施例的被配置成使用深度传感器数据来为AR/VR应用支持面部跟踪功能性的面部跟踪系统100。面部跟踪系统100是可包括用户便携式移动设备的电子设备，所述用户便携式移动设备诸如平板计算机、支持计算的蜂窝电话(例如，“智能电话”)、头戴式显示器(HMD)、笔记本计算机、个人数字助理(PDA)、游戏系统遥控器、电视遥控器、具有或没有屏幕的相机附件等。在其它实施例中，面部跟踪系统100可包括另一类型的移动设备，诸如汽车、机器人、遥控无人机或其它机载设备等。为了图示的容易，在本文中通常在移动设备(诸如平板计算机或智能电话)的示例上下文中描述面部跟踪系统100；然而，面部跟踪系统100不限于这些示例实施方式。依照本公开的至少一个实施例，面部跟踪系统100包括用于基于由深度相机105捕获的深度图像115来估计面部120的当前姿态140的面部跟踪模块110。

在一个实施例中，深度相机105使用调制光投影器(未示出)来将调制光图案投影到本地环境中，并且使用一个或多个成像传感器106来捕获调制光图案随着它们从本地环境112中的对象反射回来时的反射。这些调制光图案可以是空间调制光图案或时间调制光图案。所捕获的调制光图案的反射在本文中被称为“深度图像”115并且由具有多个点的三维(3D)点云组成。在一些实施例中，深度相机105基于对深度图像115的分析来计算对象的深度，即，对象离深度相机105的距离。

面部跟踪模块110从深度相机105接收深度图像115并且基于深度图像115来生成深度图。面部跟踪模块110通过将面部模型网格拟合到深度图的对应于面部120的像素来识别面部120的姿态。在一些实施例中，面部跟踪模块110估计生成面部模型网格的参数

以说明来自RGB-D对

的数据。在一些实施例中，面部跟踪模块110利用从深度相机接收到的先前帧中推理的参数

在一些实施例中，通过一组身份系数

一组表情式权重或系数

头部的三维(3D)位置

以及指示头部的3D旋转的四元数

来参数化模型。身份和表情系数指示如何非刚性地使面部模型网格的3D位置(顶点)变形以拟合深度图的对应像素。在一些实施例中，面部模型网格是三角形网格模型。面部跟踪模块110使用N个3D顶点位置的双线性(PCA)基础来对面部模型网格的3D位置的变形进行建模，其中

表示平均面部，

是可改变面部的身份的一组顶点偏移并且

是可改变面部的表情的一组顶点偏移。在一组参数θ下，面部跟踪模块110将面部模型网格的变形和重新定位的顶点计算为

其中

将θ中的四元数映射成旋转矩阵。

面部跟踪模块110基于概率推理问题来估计给定深度图像

的面部模型网格的参数θ，其中它求解

在一些实施例中，面部跟踪模块110假定似然和先验是属于指数族的函数，并且使用负对数形式来将等式(2)的最大化问题重写为

其中

E_data(θ)＝E_land(θ)+E_depth(θ)。 (4)

为了促进使能量最小化的效率增加，面部跟踪模块110仅包括面部模型网格的被假定为从深度相机105的视点可见的顶点，并且双三次内插与

相关联的深度图，从而允许面部跟踪模块110使用平滑且可微分的能量来联合地优化面部120的姿态和混合形状估计。基于能量，面部跟踪模块估计面部120的当前姿态140。

在一些实施例中，面部跟踪模块110使用当前姿态估计140来更新显示器130上的图形数据135。在一些实施例中，显示器130是物理表面，诸如平板、移动电话、智能设备、显示监视器、显示监视器的阵列、膝上型电脑、标牌等或到物理表面上的投影。在一些实施例中，显示器130是平面的。在一些实施例中，显示器130是曲面的。在一些实施例中，显示器130是虚拟表面，诸如对象在包括虚拟现实和增强现实的空间中的三维或全息投影。在显示器130是虚拟表面的一些实施例中，虚拟表面被显示在用户的HMD内。虚拟表面的位置可以是相对于用户的本地环境112内的不动对象(诸如墙壁或家具)。

图2是图示依照本公开的至少一个实施例的图1的面部跟踪系统100的面部跟踪模块110的图。面部跟踪模块110包括存储器205、可见性估计器210、能量最小化器215、界标模块220和正则化器225。这些模块中的每一个均表示被配置成执行如本文所描述的操作的硬件、软件或其组合。面部跟踪模块110被配置成从深度相机(未示出)接收深度图像115并且基于深度图像115来生成当前姿态估计140。

存储器205是通常被配置成存储数据的存储器设备，并且因此可以是随机存取存储器(RAM)存储器模块、非易失性存储器设备(例如，闪速存储器)等。存储器205可以形成面部跟踪系统100的存储器层次的一部分并且可以包括其它存储器模块，诸如在图1处未图示的附加高速缓存。存储器205被配置成从深度相机(未示出)接收并存储深度图像115。

可见性估计器210是被配置成通过确定所关联的法线面向或者背离深度相机到什么程度来估计面部模型网格的顶点是否从深度相机的视点可见的模块

其中N_n(θ)是顶点n的法线矢量。参数δ和v分别控制曲率和达到值0.5的地方。

能量最小化器215是被配置成公式化并使描述面部模型网格与面部的深度图之间的差异的能量函数最小化的模块。可以将能量函数定义为

其中

是在θ下的可见顶点索引的集合，

是在姿态θ下的第n个顶点的位置，

投影2D图像域并且

返回与

相关联的深度图像中的最近像素的深度。然而，

是分段常数映射并且通常在优化期间保持固定。因此，获得集合O(θ)需要显式渲染并赋予函数有不连续性。因此，一旦每个顶点与具体深度值相关联(6)就仅是平滑且可微分的。在这样的情况下，每次姿态θ被更新时，必须以闭合形式重新建立渲染和显式对应。

为了在不需要渲染的情况下促进更高效的姿态估计，基于可见性估计器210的可见性估计，能量最小化器215使用可见性项来打开和关闭个别项如下来用遍及所有顶点{1,...,N}的和替换遍及顶点的显式集合O(θ)的和(6)：

在一些实施例中，能量最小化器允许

双三次内插与

相关联的深度图，使得能量是完全可微分的且定义明确的。在一些实施例中，为了处理异常值，能量最小化器215可使用任何平滑的鲁棒内核ψ：

界标模块220是被配置成检测和定位人类面部的区别特征(例如，鼻尖、眼角)(被称为界标)的模块。界标提供强约束，既用于面部的一般对齐又用于估计面部的身份和表情。然而，检测到的界标可能是稍微不正确的，或者可以在它们不可由深度相机105直接看见的情况下被估计，从而产生图像域中的残差。界标模块220因此定义L个面部界标

置信度权重

和关联的顶点索引

界标模块220使减少由于面部离深度相机105的距离而导致的界标变化的能量函数最小化：

其中M_d(θ)是面部的平均深度并且f是深度相机105的焦距。

正则化器225是被配置成调整身份和表情权重以避免过度拟合深度图的模块。正则化器225使特征矢量(混合形状)正则化以提供标准正态分布。虽然表情系数通常不遵循高斯分布，但是身份参数大致如此。正则化器225通过使身份参数的L₂范数最小化来执行统计正则化。权重调整器225因此有效地促使解接近于多元正态分布的最大似然估计(MLE)，其是平均面部。正则化器225使用下式来执行统计正则化：

其中分布具有H个自由度。此约束有效地促使解[α₁(θ)，...，α_H(θ)]保持在离平均面部的距离H处接近于“壳”，其是绝大多数面部处于高维度下的位置。

在一些实施例中，正则化器225通过将以下时间正则化项添加到能量来在联合优化期间遍及θ的条目并入时间正则化：

其中

是四元数形式的旋转参数的子矢量，并且

是来自先前帧的解。

在一些实施例中，面部跟踪模块110通过将(11)的能量函数重新表示为M个平方残差的和来优化(11)的能量函数：

E(θ)＝r(θ)^Tr(θ) (12)

其中

在一些实施例中，面部跟踪模块110计算雅可比J(θ)∈R^D×D并执行列文伯格(Levenberg)更新(其为高斯-牛顿更新的变体)如下：

θ←θ+(J(θ)^TJ(θ)+λI_D×D)^-1J^T(θ)r(θ) (13)

其中λ是当步骤失败时可以渐增地提升以便像更新一样实现非常小的梯度下降的阻尼项。面部跟踪模块110使用来自先前帧的参数来初始化

在一些实施例中，面部跟踪模块110在GPU上执行此列文伯格优化。面部跟踪模块110基于经优化的能量来生成面部的当前姿态估计140。

图3图示依照本公开的至少一个实施例的图1和图2的面部跟踪模块110估计处于姿态310和320的面部模型网格305的顶点的可见性。面部模型网格305包括多个顶点，面部模型网格305使所述多个顶点中的每一个与法线矢量相关联。在图3的示例中，在面部模型网格305处于正面面部姿态310的情况下，可见性估计器210估计法向矢量312、314、316和318正指向深度相机(未示出)的程度。这基于面部很大程度上是凸的假定，并且因此通常可将指向相机的法线矢量假定为可见的。仅偶尔在鼻子和耳朵旁边的非凸区域周围违反此假定。

假定深度相机面向图3，可见性估计器210基于与顶点相关联的法线矢量是否被估计为面向或者背离深度相机来向面部模型网格305的每个顶点指派值。例如，如果90°被认为是直接面向(正交于)深度相机，并且-90°被认为是直接背离深度相机，则可见性估计器210指派指示与顶点相关联的法线矢量从深度相机的视点可见的第一值(例如，1)，并且指派指示与顶点相关联的法线矢量从深度相机的视点不可见的第二值(例如，0)。

因此，对于姿态310，可见性估计器210估计矢量312与深度相机成45°角度，矢量314与深度相机成2°角度，矢量316与深度相机成2°角度，并且矢量318与深度相机成10°角度。可见性估计器210将值1指派给与矢量312、314、316和318中的每一个相关联的顶点，因为每个矢量被估计为正指向深度相机。

然而，对于姿态320，面部模型网格305被向左旋转，使得可见性估计器210估计矢量312与深度相机成10°角度，矢量314与深度相机成20°角度，矢量316与深度相机成20°角，并且矢量318与深度相机成-45°角。可见性估计器210因此将值1指派给与矢量312和314中的每一个相关联的顶点，因为矢量312和314被估计为正指向深度相机。然而，当面部模型网格305处于姿态320时可见性估计器将值0指派给与矢量316和318中的每一个相关联的顶点，因为矢量316和318被估计为正远离深度相机指向。通过基于与每个顶点相关联的法线矢量是否被估计为面向或者背离深度相机来将值0或1指派给面部模型网格305的顶点，面部跟踪模块110可以在不渲染面部模型网格305的情况下平滑地打开和关闭能量函数的数据项。

图4是图示依照本公开的至少一个实施例的估计面部的姿态的方法400的流程图。在块402处，图1和图2的面部跟踪模块110从深度相机105接收捕获的深度数据。在块404处，面部跟踪模块110基于所捕获的深度数据来生成面部120的深度图。在块406处，可见性估计器210基于与面部模型网格305的每个顶点相关联的法线矢量是朝向还是远离深度相机105指向的估计来估计面部模型网格305的每个顶点的可见性。在块408处，正则化器225调整面部模型网格305的身份和表情权重以避免过度拟合到深度图。在块410处，能量最小化器215随着特征从一个像素移动到另一像素而双三次内插深度图的像素以使能量函数平滑。在块412处，能量最小化器215定义并使将面部模型网格305拟合到深度图的能量函数最小化。在一些实施例中，能量最小化器215利用深度相机的紧接在当前帧之前的帧的姿态来优化能量函数。

在一些实施例中，上述技术的某些方面可以由执行软件的处理系统的一个或多个处理器实现。软件包括存储或者以其它方式有形地具体实现在非暂时性计算机可读存储介质上的一组或多组可执行指令。软件可包括指令和某些数据，所述指令和某些数据当由一个或多个处理器执行时，操纵一个或多个处理器以执行上述技术的一个或多个方面。非暂时性计算机可读存储介质可包括例如磁盘或光盘存储设备、诸如闪速存储器这样的固态存储设备、高速缓存、随机存取存储器(RAM)或一个或多个其它非易失性存储设备等。存储在非暂时性计算机可读存储介质上的可执行指令可以是源代码、汇编语言代码、目标代码，或由一个或多个处理器解释或者以其它方式可执行的其它指令格式。

计算机可读存储介质可以包括在使用期间可由计算机系统访问以向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。这样的存储介质可包括但不限于光学介质(例如，紧致盘(CD)、数字通用盘(DVD)、蓝光盘)、磁介质(例如，软盘、磁带或磁硬盘驱动器)、易失性存储器(例如，随机存取存储器(RAM)或高速缓存)、非易失性存储器(例如，只读存储器(ROM)或闪速存储器)，或基于微机电系统(MEMS)的存储介质。计算机可读存储介质可以被嵌入在计算系统(例如，系统RAM或ROM)中，固定地附连到计算系统(例如，磁硬盘驱动器)，可移除地附连到计算系统(例如，光盘或基于通用串行总线(USB)的闪速存储器)，或者经由有线或无线网络(例如，网络可访问存储(NAS))耦合到计算机系统。

注意的是，并非上面在一般描述中描述的所有活动或元素都是必需的，具体活动或设备的一部分可能不是必需的，并且可以执行一个或多个另外的活动，或者包括除了所描述的那些之外的元素。更进一步地，活动被列举的次序不一定是它们被执行的次序。另外，已经参考具体实施例描述了这些构思。然而，本领域的普通技术人员领会的是，在不脱离如下面的权利要求中所阐述的本公开的范围的情况下，可做出各种修改和变化。因此，本说明书和图将在说明性而非限制性意义上被考虑，并且所有这样的修改旨在被包括在本公开的范围内。

已经在上面针对具体实施例描述了有益效果、其它优点和对问题的解决方案。然而，有益效果、优点、对问题的解决方案以及可以使任何有益效果、优点或解决方案发生或者变得更显著的任何特征不应被解释为任何或所有权利要求的关键的、必需的或必要的特征。此外，上面公开的特定实施例仅是说明性的，因为可以以对受益于本文教导的本领域的技术人员而言显而易见的不同但等同的方式修改并实践所公开的主题。除如下面的权利要求中所描述的以外，对本文所示的构造或设计的细节没有限制。因此显然的是，可以更改或者修改上面公开的特定实施例并且所有这样的变化都被认为在所公开的主题的范围内。因此，本文寻求的保护如下面的权利要求中所阐述的。

Claims

1.一种用于面部跟踪的方法，包括：

在深度相机处捕获面部的深度图像，所述深度图像包括含有多个点的三维3D点云；

在处理器处基于所述3D点云来生成所述面部的深度图，所述深度图包括多个像素；以及

在所述处理器处通过将包括多个顶点的面部模型网格拟合到所述深度图来估计所述面部的姿态，所述拟合包括：

估计所述面部模型网格的哪些顶点从所述深度相机的视点可见，其中，所述估计包括：假定所述面部模型网格在很大程度上是凸的，并且进一步包括：估计与所述面部模型网格的每个顶点垂直的矢量面向或者背离所述深度相机的程度；以及

基于从所述深度图的每个像素到所述面部模型网格的所述顶点的子集中的对应顶点的距离来使能量函数最小化，所述子集仅包括被估计为从所述深度相机的视点可见的顶点。

2.根据权利要求1所述的方法，其中，所述面部模型网格通过表情权重来参数化，所述表情权重指示如何非刚性地使所述面部模型网格的顶点变形以将所述面部模型网格拟合到所述深度图，并且其中，识别所述面部的姿态包括：调整所述表情权重。

3.根据权利要求1或权利要求2所述的方法，其中，所述面部模型网格通过身份系数来参数化，所述身份系数指示如何非刚性地使所述面部模型网格的顶点变形以将所述面部模型网格拟合到所述深度图。

4.根据权利要求1或权利要求2所述的方法，进一步包括：双三次地内插与所述深度图像相关联的所述深度图的像素。

5.根据权利要求1或权利要求2所述的方法，进一步包括：基于所述深度图的平均深度和所述深度相机的焦距来使所述姿态估计与面部界标的估计之间的差异正则化。

6.一种电子设备，包括：

面向用户的深度相机，所述面向用户的深度相机用于捕获用户的面部的深度图像，每个深度图像包括含有多个点的三维3D点云；以及

处理器，所述处理器被配置成：

基于所述3D点云来生成所述面部的深度图，所述深度图包括多个像素；以及

通过将包括多个顶点的面部模型网格拟合到所述深度图来估计所述面部的姿态，所述拟合包括：

7.根据权利要求6所述的电子设备，其中，所述面部模型网格通过表情权重来参数化，所述表情权重指示如何非刚性地使所述面部模型网格的顶点变形以将所述面部模型网格拟合到所述深度图，并且其中，识别所述面部的姿态包括：调整所述表情权重。

8.根据权利要求6或权利要求7所述的电子设备，其中，所述面部模型网格通过身份系数来参数化，所述身份系数指示如何非刚性地使所述面部模型网格的顶点变形以将所述面部模型网格拟合到所述深度图。

9.根据权利要求6或权利要求7所述的电子设备，还包括：双三次地内插与所述深度图像相关联的所述深度图的像素。

10.根据权利要求6或权利要求7所述的电子设备，其中，所述处理器进一步被配置成基于所述深度图的平均深度和所述深度相机的焦距来使所述姿态估计与面部界标的估计之间的差异正则化。