CN110832501A

CN110832501A - 用于姿态不变面部对准的系统和方法

Info

Publication number: CN110832501A
Application number: CN201880046190.7A
Authority: CN
Inventors: 叶茂; A.约拉布; 任骝
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-07-13
Filing date: 2018-07-11
Publication date: 2020-02-21
Anticipated expiration: 2038-07-11
Also published as: US10380413B2; CN110832501B; JP6918198B2; WO2019011958A1; DE112018000298T5; JP2020526845A; US20190019014A1

Abstract

计算系统包括具有至少一个处理单元的处理系统。处理系统被配置为在接收到具有面部图像的图像数据后执行面部对准方法。处理系统被配置为将神经网络应用于面部图像。神经网络被配置为基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层，所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。

Description

用于姿态不变面部对准的系统和方法

技术领域

本公开涉及用于面部对准的系统和方法。

背景技术

一般而言，使用卷积神经网络（CNN）级联实现的面部对准技术至少经历以下缺点：缺乏端到端训练、手工制作特征提取和慢的训练速度。例如，在没有端到端训练的情况下，CNN不能联合优化，从而导致次优的解决方案。此外，这些类型的面部对准技术通常实现简单的手工制作特征提取方法，所述方法并不将诸如姿态、表情等各种面部因素考虑在内。此外，这些CNN级联典型地具有浅框架，所述浅框架不能够通过依赖早期CNN的提取特征来提取更深的特征。此外，对这些CNN的训练通常是耗时的，这是因为每一个CNN是独立并依次训练的，并且还因为在两个接续的CNN之间要求手工制作特征提取。

发明内容

以下是下面详细描述的某些实施例的概述。呈现所描述的方面仅仅是为了向读者提供这某些实施例的简要概述，并且这些方面的描述没有限制本公开的范围的意图。实际上，本公开可以涵盖下面可能没有明确阐述的各种方面。

在示例实施例中，一种计算系统包括具有至少一个处理单元的处理系统。处理系统被配置为在接收到具有面部图像的图像数据后执行面部对准方法。处理系统被配置为将神经网络应用于面部图像。神经网络被配置为基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层，所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。

在示例实施例中，一种计算机实现的方法包括接收具有面部图像的图像数据。所述计算机实现的方法包括实现神经网络，以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层，所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。

在示例实施例中，一种非暂时性计算机可读介质至少包括计算机可读数据，所述计算机可读数据当由具有至少一个处理单元的处理系统执行时，执行包括接收具有面部图像的图像数据的方法。所述方法包括实现神经网络，以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层，所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。

通过以下鉴于附图对某些示例性实施例的详细描述，进一步阐明本发明的这些和其他特征、方面和优点，贯穿附图，同样的字符表示同样的部分。

附图说明

图1是根据本公开的示例实施例的系统的框图。

图2图示了根据本公开的示例实施例的图1的系统的姿态不变面部对准模块。

图3是根据本公开的示例实施例的图2的CNN的架构的框图。

图4是根据本公开的示例实施例的可视化块的概念图。

图5是根据本公开的示例实施例的可视化块的架构的示例图。

图6图示了根据本公开的示例实施例的掩模的示例。

图7图示了根据本公开的可替换示例实施例的掩模的示例。

图8图示了根据本公开的示例实施例的基于3D对象的表面法向量在投影期间选择期望表面点的示例。

图9A是根据本公开的示例实施例的图像数据的示例。

图9B是根据本公开的示例实施例的可视化层的初始化的示例。

图9C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。

图9D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。

图9E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。

图9F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。

图9G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。

图9H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。

图10A是根据本公开的示例实施例的图像数据的示例。

图10B是根据本公开的示例实施例的可视化层的初始化的示例。

图10C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。

图10D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。

图10E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。

图10F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。

图10G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。

图10H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。

图11A是根据本公开的示例实施例的图像数据的示例。

图11B是根据本公开的示例实施例的可视化层的初始化的示例。

图11C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。

图11D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。

图11E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。

图11F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。

图11G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。

图11H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。

具体实施方式

已经作为举例示出和描述的上述实施例及其许多优点将通过前面的描述来理解，并且将清楚，在不脱离所公开的主题或者不牺牲其一个或多个优点的情况下，可以在组件的形式、构造和布置方面做出各种改变。实际上，这些实施例的所描述形式仅仅是解释性的。这些实施例容许各种修改和可替换形式，并且所附权利要求意图涵盖和包括这类改变，并且不限于所公开的特定形式，而是要覆盖落入本公开的精神和范围内的所有修改、等同物和替换物。

图1是被配置为实现姿态不变面部对准的计算机系统100的框图。在这方面，计算机系统100包括各种软件和硬件组件。例如，计算机系统100至少包括存储器系统110、面部检测模块120、姿态不变面部对准模块130、处理系统140、通信系统150和其他功能模块160。在示例实施例中，计算机系统100被配置为实现和执行如本文所公开的并且如姿态不变面部对准模块130所提供的姿态不变面部对准方法。此外，在示例实施例中，计算机系统100还被配置为在实现和执行姿态不变面部对准方法之前，实现和执行如本文所公开的并且如面部检测模块120所提供的面部检测。

在示例实施例中，存储器系统110包括各种数据，所述数据包括训练数据和与姿态不变面部对准模块130相关联的其他数据。在示例实施例中，存储器系统110是计算机或电子存储系统，其被配置为存储和提供对各种数据的访问，以至少使能实现如本文所公开的操作和功能性。在示例实施例中，存储器系统110包括单个设备或多个设备。在示例实施例中，存储器系统110可以包括电气、电子、磁性、光学、半导体、电磁或任何合适的技术。例如，在示例实施例中，存储器系统110可以包括随机存取存储器（RAM）、只读存储器（ROM）、闪速存储器、磁盘驱动器、存储器卡、光学存储设备、磁性存储设备、存储器模块、任何合适类型的存储器设备或其任何组合。在示例实施例中，相对于计算机系统100，存储器系统110是本地的、远程的或其组合（例如，部分本地且部分远程）。在示例实施例中，存储器系统110可以至少包括远离计算机系统100的其他组件的基于云的存储系统（例如，基于云的数据库系统）。

在示例实施例中，面部检测模块120包括硬件、软件或其组合。在示例实施例中，面部检测模块120至少被配置为接收图像，标识图像内的面部图像，以及提供与面部图像相关的图像数据220。在示例实施例中，处理系统140至少包括中央处理单元（CPU）、图形处理单元（GPU）、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、片上系统（SOC）、可编程逻辑器件（PLD）、任何合适的计算技术或其任何组合。

在示例实施例中，通信系统150包括合适的通信技术，所述通信技术使得计算机系统100的组件的任何合适的组合能够彼此通信。在示例实施例中，通信系统150包括基于有线的技术、基于无线的技术和/或其组合。在示例实施例中，通信系统150包括有线网络、无线网络或其组合。在示例实施例中，通信系统150包括任何合适类型的计算机网络和/或架构。在示例实施例中，通信系统150包括到因特网的连接。

在示例实施例中，其他功能模块160包括硬件、软件或其组合。例如，其他功能模块28包括逻辑电路、操作系统、I/O设备（例如显示器等）、其他计算机技术或其任何组合。更具体地，在示例实施例中，其他功能模块28使得姿态不变面部对准模块130能够如本文所公开的那样操作和运作。在示例实施例中，其他功能模块160包括相机和/或光学系统。在这方面，相机和/或光学系统被配置为向面部检测模块120和/或处理系统140提供图像，使得图像数据220被提供给姿态不变面部对准模块130。此外，在示例实施例中，其他功能模块160包括面部分析模块，诸如面部识别模块、表情估计模块、3D面部重构模块、任何合适的面部分析模块或其任何组合。在这方面，面部分析模块被配置为根据来自CNN 200的输出（诸如与面部图像相关的参数数据的最终估计）来执行面部分析。

图2图示了根据示例实施例的姿态不变面部对准模块130。在示例实施例中，姿态不变面部对准模块130包括单个CNN 200。在示例实施例中，该CNN 200被配置为至少接收图像数据220和一组参数230作为输入。在从面部检测模块120接收到图像数据220（即，具有任意头部姿态的单个面部图像）后，并且在获得一组参数230后，姿态不变面部对准模块130被配置为通过拟合3D面部模型来估计2D界标，所述2D界标具有其可视性标签。在这方面，姿态不变面部对准模块130包括具有用于模型拟合的端到端训练的单个CNN 200。

图3图示了根据示例实施例的CNN 200的示例架构。如所示出的，CNN 200包括多个连接的可视化块210。例如，作为非限制性示例，CNN 200包括至少六个可视化块210。在这方面，CNN 200包括提供期望结果的任何合适数量的可视化块210。在示例实施例中，输入包括图像数据220和对至少一个参数（例如参数P⁰）的初始估计，并且输出是该组参数的最终估计290。与具有CNN 200的级联的相关系统相比，归因于所有可视化块210与损失函数的反向传播的联合优化，姿态不变面部对准模块130具有CNN 200，该CNN 200具有能够在训练期间在显著更少的时期中收敛的架构。

在示例实施例中，系统100包括3D可变形模型（3DMM）。在示例实施例中，存储器系统110（例如，训练数据）、姿态不变面部对准模块130或其组合包括3DMM。在示例实施例中，3DMM表示面部的3D形状。更具体地，3DMM经由以下等式将3D面部S_p表示为均值形状S₀、身份基S^I和表情基S^E的线性组合：

[等式1]

在示例实施例中，姿态不变面部对准模块130使用用于3D形状参数的向量

，其中

是身份参数，并且

是表情参数。在示例实施例中，姿态不变面部对准模块130使用具有199个基作为身份基的巴塞尔3D面部模型，以及具有29个基作为表情基的面部仓库模型。在该情况下，每个3D面部形状包括一组Q 3D顶点：

[等式2]

在示例实施例中，2D面部形状是3D形状的投影。在示例实施例中，弱透视投影模型以6个自由度使用——即一个用于缩放、三个用于旋转角度、并且两个用于平移，其将3D面部形状S_p投影到2D图像上以获得2D形状U，如以下等式表达的：

[等式3]

其中

[等式4]

并且

[等式5]

在该情况下，U收集一组N个2D界标，M是相机投影矩阵，其中乱用符号，并且N-dim向量b包括语义上对应于2D界标的3D顶点索引。在示例实施例中，

和

标示缩放的旋转分量的前两行，而m₄和m₈是平移。

等式3建立2D界标U与P（即3D形状参数p和相机投影矩阵M）之间的关系或等价性。在给定用于面部对准的几乎所有训练图像仅具有2D标签（即U）的情况下，处理系统140执行数据增强步骤来计算它们对应的P。给定图像数据220，姿态不变面部对准模块130被配置为估计参数P，基于该参数P可以导出2D界标及其可视性。

图4图示了根据示例实施例的可视化块210的概念图。如图4中所示，可视化块210包括可视化层240，可视化层240根据CNN 200内部的估计参数重构3D面部形状，并经由可视顶点的表面法向量808/810合成2D图像。在示例实施例中，可视化层240可视化先前可视化块210的对准结果，并将其用于当前可视化块210。在示例实施例中，可视化层240从下层的3D面部模型806的表面法线808/810导出，并对面部与相机之间的相对姿态进行编码（图8）。此外，在示例实施例中，可视化层240是可微分的，这允许分析地计算梯度，从而使能实现CNN 200的端到端训练。此外，如图4中所示，可视化层240利用掩模600/700来在面部图像的中间部分与轮廓部分中的像素之间进行区分，并且还使得经可视化的图像的像素值跨不同姿态是相似的。此外，如图4中所示，由CNN 200的最后可视化块210所提供的面部图像的参数的最终估计290可以被提供给面部分析模块，以获得面部界标检测结果300。

图5图示了根据示例实施例的CNN 200的可视化块210。如上面提及的，每个可视化块210包括基于最新参数估计的可视化层240。在这方面，每个可视化层240充当接续可视化块210之间的桥梁。在示例实施例中，每个可视化层240基于当前估计或输入的参数P生成特征图250。每个卷积层260继之以批量归一化（BN）层和修正线性单元（ReLU）层。每个卷积层260基于由先前可视化块210和可视化层240提供的输入特征提取更深的特征。在两个完全连接层270之间，第一卷积层260继之以ReLU层和丢弃（dropout）层，而第二卷积层260同时估计M和p的更新

。在示例实施例中，例如，当将

添加到输入P时，可视化块210的输出包括输出数据280A和对参数230的新估计（或当前估计）280B。在图5中，输出数据280A包括更深的特征和图像数据220。在可替换示例实施例中，输出数据280A包括更深的特征。在另一可替换示例实施例中，输出数据280A包括图像数据220。在示例实施例中，如图5中所示，基本上，可视化块210的顶部聚焦于学习更深的特征，而底部利用这类特征来估计像ResNet结构中的参数230。在训练阶段的反向传递期间，可视化块210通过其两个输入反向传播损失，以调整先前可视化块210中的卷积层260和完全连接层270。该操作允许可视化块210提取适合于下一个可视化块210的更好的特征，并改进整体参数估计。

在示例实施例中，CNN 200被配置为采用至少两种类型的损失函数。在该情况下，例如，第一种类型的损失函数是在参数更新的估计与目标之间的欧几里德损失，其中每个参数单独地被加权，如以下等式表达的：

[等式6]

其中在第i个可视化块210处，

是损失，是估计，并且

是目标（或基本真值）。在该等式中，对角矩阵W包含权重。对于形状参数p的每个元素，其权重是从3DMM训练中使用的数据获得的标准差的逆。为了补偿M的参数间的相对缩放，处理系统140计算训练数据中缩放的旋转参数的平均值与平移参数的平均值之间的比率r。在这方面，M的缩放的旋转参数的权重被设置为

，并且M的平移的权重被设置为1。此外，第二种类型的损失函数是作为结果的2D界标上的欧几里德损失，如以下等式表达的：

[等式7]

其中，是基本真值2D界标，并且Pⁱ是到第i个块的输入参数，即第i-l个块的输出。在这方面，经由等式3使用当前更新的参数计算2D界标位置。在示例实施例中，对于该损失函数向参数

的反向传播，链规则用于计算梯度，如以下等式表达的：

[等式8]

在示例实施例中，对于CNN 200的前三个可视化块210，使用参数更新上的欧几里德损失（等式6），而2D界标上的欧几里德损失（等式7）被应用于CNN 200的最后三个块。前三个块估计参数以粗略地将3D形状与面部图像对准，并且最后三个块利用良好的初始化来更精确地估计参数和2D界标位置。

在示例实施例中，可视化层240基于在局部邻域中提供表面取向的3D面部的表面法线。在示例实施例中，处理系统140使用利用姿态变换的每个顶点的表面法线的z坐标。在这方面，z坐标是顶点的“正面性（frontability）”的指示符，即表面法线正指向相机800的量。该量用于在其投影的2D位置分配强度值，以构造可视化数据242（例如，可视化图像）。在示例实施例中，正面性度量g——Q-dim向量，可以经由以下等式来计算：

[等式9]

其中是叉积，并且

标示L₂范数。

矩阵N₀是3D面部形状的表面法向量。为了避免在每次形状更新之后计算表面法线的高计算成本，处理系统140将N₀近似为均值3D面部的表面法线。

在示例实施例中，面部形状和头部姿态两者仍然跨各种可视化块210持续更新，并用于确定投影的2D位置。因此，该近似将仅稍微影响强度值。为了基于头部姿态变换表面法线，处理系统140将缩放的旋转矩阵（m₁和m₂）的估计应用于从均值面部计算的表面法线。然后利用为0的下界截断该值，如等式9中所示。经可视化的图像的像素强度被计算为局部邻域内正面性度量的加权平均值，如以下等式表达的：

[等式10]

其中

是一组顶点索引，顶点的2D投影位置在像素

的局部邻域内。

是第q个3D顶点的2D投影位置。权重w是像素

与投影位置之间的距离度量，

[等式11]

此外，

是Q-dim掩模向量，其对于面部中间区域中的顶点具有正值，并且对于面部轮廓区域周围的顶点具有负值，如以下等式表达的：

[等式12]

其中

是鼻尖的顶点坐标。

此外，在该等式中，

针对零均值和单位标准差被预先计算和归一化。在示例实施例中，处理系统140使用掩模600来在面部的中心区域与边界区域之间进行区分，以及增加跨不同面部可视化的相似性。

在示例实施例中，为了允许损失函数通过可视化层240反向传播，处理系统140计算V相对于参数M和p的元素的导数。在这方面，处理系统140计算偏导数

、

和

。在示例实施例中，处理系统140然后基于等式10计算

和的导数。

图6图示了根据示例实施例的示例性掩模600的可视化的两个视图。具体地，图6包括掩模600的正面视图602和掩模600的侧面视图604（或剖面视图）。在该情况下，掩模600例如至少由等式12表达。如图6中所示，如由

表达的掩模600在中间区域中具有正值，并且在轮廓区域中具有负值，如标度606所指示的。

图7图示了根据可替换示例实施例的掩模700的另一示例。具体地，图7包括掩模700的正面视图702和掩模700的侧面视图704（或剖面视图）。在该示例中，掩模700具有五个正区域，其包括两个眼睛区域、鼻尖区域和两个唇角区域，如标度706所指示的。此外，在该示例中，各值被归一化为零均值和单位标准差。在这方面，掩模700使得经可视化的图像的像素值对于具有不同姿态的面部是相似的，并且在面部的中间区域与轮廓区域之间进行区分。与图5的掩模600所提供的相比，图7的掩模700更加复杂，并且传达关于信息丰富的面部区域的更多信息。

图8图示了相机800相对于具有多个像素的图像平面802的位置。此外，图8示出了沿着图像平面802的图像像素延伸的像素轴804，连同作为3D对象806的图像平面802的人类面部图像的可视化。图8还包括具有负z坐标的表面法向量（如在箭头808处指出的），以及具有正z坐标和较小深度的表面法向量（如箭头810指出的）。在这方面，以任意视角将人类面部可视化为3D对象806要求对每个3D顶点的可视性的估计。为了避免经由渲染进行计算昂贵的可视性测试，处理系统140被配置为实现至少两种近似策略。作为一种策略，例如，处理系统140被配置为修剪其正面性度量g等于0的顶点，即指向相机800的顶点。第二，如果多个顶点经由像素轴804投影到同一图像像素，则处理系统140被配置为仅保持具有最小深度值的顶点，例如，如图8中的箭头810所指示的。

图9A是根据示例实施例的图像数据220的示例。如图9A中所示，在该示例中，图像数据220至少包括具有张开嘴的表情（例如，微笑）的大的面部姿态。图9B是根据示例实施例的可视化层240的初始化的示例。图9C是根据示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图9D是根据示例实施例的与CNN 200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图9E是根据示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图9F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图9G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图9H是根据本公开的示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图9C-9H中渐进示出的，姿态不变面部对准模块130能够恢复如图9A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中，姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。

图10A是根据本公开的示例实施例的图像数据220的示例。如图10A中所示，在该示例中，图像数据220至少包括具有相对中性表情的大的面部姿态。图10B是根据本公开的示例实施例的可视化层240的初始化的示例。图10C是根据本公开的示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图10D是根据本公开的示例实施例的与CNN 200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图10E是根据本公开的示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图10F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图10G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图10H是根据示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图10C-10H中渐进示出的，姿态不变面部对准模块130能够恢复如图10A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中，姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。

图11A是根据本公开的示例实施例的图像数据220的示例。如图11A中所示，在该示例中，图像数据220至少包括具有相对中性表情的大的面部姿态。此外，图11A的图像数据220包括与包括在图10A的图像数据220中的面部侧面不同的面部侧面。图11B是根据示例实施例的可视化层240的初始化的示例。图11C是根据示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图11D是根据示例实施例的与CNN200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图11E是根据示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图11F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图11G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图11H是根据示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图11C-11H中渐进示出的，姿态不变面部对准模块130能够恢复如图11A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中，姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。

如上所述，系统100包括多个有利的特征。例如，系统100被配置为经由单个CNN200实现具有端到端训练的大姿态面部对准方法。此外，CNN 200包括至少一个可微分可视化层240，其集成到神经网络（即CNN 200）中，并且通过将误差从至少一个稍后的可视化块210反向传播到至少一个较早的可视化块210来使能实现联合优化。此外，系统100被配置为以便使得每个可视化块210能够通过利用从先前的可视化块210提取的特征来提取更深的特征，而不需要提取手工制作特征。此外，姿态不变对准方法与牵涉CNN级联的相关系统所提供的方法相比，在训练阶段期间收敛得更快。在这方面，例如，单个CNN 200的端到端训练的主要优点之一是减少的训练时间。此外，CNN 200包括至少一个可视化层240，所述至少一个可视化层240是可微分的并经由表面法线对面部几何细节进行编码。此外，使得姿态不变面部对准模块130能够引导CNN 200聚焦于并入姿态信息和表情信息两者的面部区域。此外，CNN 200可以被配置为通过简单地增加其架构中的可视化块210的数量来实现更高水平的精度和准确度。

也就是说，上面描述意图是说明性的而非限制性的，并且是在特定应用及其要求的上下文中提供的。本领域技术人员可以从前面的描述中领会到，本发明可以以各种形式实现，并且各种实施例可以单独或组合实现。因此，虽然本发明的实施例已经结合其特定示例被描述，但是在不脱离所描述的实施例的精神和范围的情况下，本文限定的一般原理可以应用于其他实施例和应用，并且本发明的实施例和/或方法的真实范围不限于所示出和描述的实施例，因为在对附图、说明书和所附权利要求的研究后，各种修改对于技术实践者而言将变得清楚。例如，组件和功能性可以以不同于各种所描述实施例的方式分离或组合，并且可以使用不同的术语来描述。这些和其他变型、修改、添加和改进可以落在如所附权利要求中所限定的本公开的范围内。

Claims

1.一种计算系统，包括具有至少一个处理单元的处理系统，处理系统被配置为执行面部对准方法，所述面部对准方法包括：

接收具有面部图像的图像数据；以及

实现神经网络以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计，神经网络包括至少一个可视化层，所述至少一个可视化层被配置为基于参数数据的当前估计来生成特征图，

其中参数数据包括头部姿态数据和面部形状数据。

2.根据权利要求1所述的计算系统，进一步包括：

面部检测模块，被配置为至少（i）接收图像，（ii）标识图像内的面部图像，以及（iii）向处理系统提供与面部图像相关的图像数据，

其中面部图像提供在正面视图到剖面视图的范围内的面部视图。

3.根据权利要求1所述的计算系统，其中面部形状数据包括面部身份参数和面部表情参数。

4.根据权利要求1所述的计算系统，其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。

5.根据权利要求1所述的计算系统，其中：

神经网络是具有连接的多个可视化块的单个卷积神经网络；并且

每个可视化块至少包括可视化层、卷积层和完全连接层。

6.根据权利要求1所述的计算系统，其中每个可视化层基于3D面部模型的表面法线，并且对面部与相机之间的相对头部姿态进行编码。

7.根据权利要求1所述的计算系统，其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分，并且使得经可视化的图像的像素值跨不同头部姿态是相似的。

8.一种用于面部对准的计算机实现的方法，包括：

接收具有面部图像的图像数据；以及

其中参数数据包括头部姿态数据和面部形状数据。

9.根据权利要求8所述的计算机实现的方法，进一步包括：

对图像执行面部检测，所述面部检测包括（i）接收图像，（ii）标识图像内的面部图像，以及（iii）向处理系统提供与面部图像相关的图像数据，

10.根据权利要求8所述的计算机实现的方法，其中面部形状数据包括面部身份参数和面部表情参数。

11.根据权利要求8所述的计算机实现的方法，其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。

12.根据权利要求8所述的计算机实现的方法，其中：

每个可视化块至少包括可视化层、卷积层和完全连接层。

13.根据权利要求8所述的计算机实现的方法，其中每个可视化层基于3D面部模型的表面法线，并且对面部与相机之间的相对头部姿态进行编码。

14.根据权利要求8所述的计算机实现的方法，其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分，并且使得经可视化的图像的像素值跨不同头部姿态是相似的。

15.一种非暂时性计算机可读介质，至少包括计算机可读数据，所述计算机可读数据当由具有至少一个处理单元的处理系统执行时，执行面部对准方法，所述面部对准方法包括：

接收具有面部图像的图像数据；以及

其中参数数据包括头部姿态数据和面部形状数据。

16.根据权利要求15所述的非暂时性计算机可读介质，其中面部形状数据包括面部身份参数和面部表情参数。

17.根据权利要求15所述的非暂时性计算机可读介质，其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。

18.根据权利要求15所述的非暂时性计算机可读介质，其中：

每个可视化块至少包括可视化层、卷积层和完全连接层。

19.根据权利要求15所述的非暂时性计算机可读介质，其中每个可视化层基于3D面部模型的表面法线，并且对面部与相机之间的相对头部姿态进行编码。

20.根据权利要求15所述的非暂时性计算机可读介质，其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分，并且使得经可视化的图像的像素值跨不同头部姿态是相似的。