CN108701206A

CN108701206A - 用于面部对准的系统和方法

Info

Publication number: CN108701206A
Application number: CN201580085696.5A
Authority: CN
Inventors: 汤晓鸥; 朱施展; 李�诚; 吕健勤
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2018-10-23
Anticipated expiration: 2035-11-20
Also published as: CN108701206B; WO2017084098A1

Abstract

本发明公开了一种用于面部对准的系统和方法。用于面部对准的方法可包括：基于面部图像中的预定面部形状提取所述面部图像的特征；通过将回归量施加到所提取的特征，估计多个预定域中的每个预定域的形状残差；通过将所述形状残差与所述预定面部形状相加计算每个所述预定域的回归形状；基于所述回归形状获得每个所述预定域的特征；通过使用所获得的特征预测组合向量；通过使用预测的组合向量对所述回归形状加权；以及组合经加权的回归形状以输出组合形状。

Description

用于面部对准的系统和方法

技术领域

本申请涉及图案识别的技术领域，更具体地涉及用于面部对准(face alignment)的系统和方法。

背景技术

面部对准旨在自动地确定对于许多后续处理模块(例如面部识别、属性预测和稳健的面部转正(face frontalisation))来说是必不可少的面部部分的位置。

面部对准的研究近年来得到快速发展。超出正偏面部(frontally biased face)的、无约束的面部对准是新兴的研究主题。然而，现有方法无法恰当地处置具有无约束的变化的面部。

例如，监督下降方法(SDM)是主流方法当中的一种代表性方法。如图1(a)所示，即使该方法是在AFLW数据集(该数据集提供了通常在无约束的场景中发现的良好图像示例)上进行再训练，但是其有效范围也限制于正偏面部内，且其由于丰富表情所导致的、大的头部旋转和面部变形而难以覆盖增大的形状参数空间。Xiong和De la Torre具有相同的观点结论—例如SDM的级联回归量仅在特定均质下降域(DHD)内有效(参见X.Xiong和F.De laTorre在2015年度的CVPR提交的Global supervised descent method(全局监督下降方法))。

还提出了一种直观多视角(intuitive multi-view)方法。首先估计头部位姿，继之在特定视角对准面部。尽管存在性能改进，然而如图1(b)所示，这种方式相对于仅头部位姿的试探性分割(heuristic partitioning)仍不是最佳的，这是因为其忽略了其它形状变形或外观变化，例如大的嘴巴、大的面部缩放或太阳镜。此外，此方法假设不同视角模型之间是独立的而没有考虑其互补和规则化角色。因此，头部位姿估计所导致的误差可能容易传播和放大到最终形状估计，从而降低总体稳健性。

以上方法表明利用单个模型和多个模型都难以覆盖超出正面面部的较宽范围的形状和外观变化。

因此，需要一种切实可行的方法来解决无约束的面部对准的问题。

发明内容

本申请旨在提供一种用于无约束的面部对准的、有效且高效的方法。该方法不依赖于3D面部建模(modelling)和3D标注(annotation)，且不需要假设位姿的范围。该方法可很好地处理整个AFLW数据集中的任意视角位姿和丰富的表情。此外，在不需要时间先验(temporal prior)的情况下可以在单个图像上实现对准。本申请通过使用级联的组合学习(cascaded compositional learning)实现此目的。

本申请的一方面公开了一种用于面部对准的方法，可包括：基于面部图像中的预定面部形状提取所述面部图像的特征；通过将回归量施加到所提取的特征，估计多个预定域中的每个预定域的形状残差(residual)；通过将所述形状残差与所述预定面部形状相加计算每个所述预定域的回归形状；基于所述回归形状获得每个所述预定域的特征；通过使用所获得的特征预测组合向量；通过使用预测的组合向量对所述回归形状加权；以及组合经加权的回归形状以输出组合形状。

根据本申请的实施方式，提取所述面部图像的特征包括：将所述预定面部形状的至少一个关键部位的每个关键部位周围的区遍历通过预定决策森林的每个树，直到到达每个树的叶节点；为每个所述关键部位(landmark)获得用于指示在所述树中到达的叶节点的向量；以及组合为每个所述关键部位获得的向量以输出被提取的特征。

根据本申请的实施方式，获得每个所述预定域的特征包括：使用每个所述关键部位的向量获得每个所述预定域的特征。

根据本申请的实施方式，预测组合向量可包括：通过将所获得的特征输入到预定组合森林中预测出所述组合向量。

根据本申请的实施方式，上述方法可进一步包括通过使用霍夫森林方法使预定决策森林的结构化损失最小化从而训练预定决策森林。

根据本申请的实施方式，通过对所述预定面部形状与所述预定面部形状的每个所述关键部位的预设形状之间的差进行回归操作，使所述预定决策森林的所述结构化损失最小化。

根据本申请的实施方式，上述方法可进一步包括通过线性回归学习训练回归量。

根据本申请的实施方式，上述方法可进一步包括通过使所组合的形状与预设形状之间的偏差最小化训练所述预定组合森林。

根据本申请的实施方式，如果域的组合向量为零则排除该域。

本申请的另一方面公开了一种用于面部对准的设备可包括：提取装置，基于面部图像中的预定面部形状提取所述面部图像的特征；估计装置，通过将回归量施加到所提取的特征，估计多个预定域中的每个预定域的形状残差；计算装置，通过将所述形状残差与所述面部形状相加计算每个所述预定域的回归形状；获得装置，基于所述回归形状获得每个所述预定域的特征；预测装置，通过使用所获得特征预测组合向量；加权装置，使用预测的组合向量对所述回归形状加权；以及组合装置，组合经加权的回归形状以输出组合形状。

根据本申请的实施方式，提取装置可包括：遍历子装置，将所述预定面部形状的至少一个关键部位的每个关键部位周围的区遍历通过预定决策森林的每个树，直到到达每个树的叶节点；获得子装置，为每个所述关键部位获得用于指示在所述树中到达的叶节点的向量；以及组合子装置，组合为每个所述关键部位获得的向量以输出被提取的特征。

根据本申请的实施方式，获得子装置可使用每个所述关键部位的向量获得每个所述预定域的特征。

根据本申请的实施方式，预测装置可通过将所获得的特征输入到预定组合森林中预测出所述组合向量。

根据本申请的实施方式，上述设备可进一步包括决策森林训练装置，用于通过使用霍夫森林方法使所述预定决策森林的结构化损失最小化，从而训练所述预定决策森林。

根据本申请的实施方式，可通过使预定面部形状与预定面部形状的至少一个关键部位中的每个关键部位的预设形状之间的差回归使预定决策森林的结构化损失最小化。

根据本申请的实施方式，上述设备可进一步包括回归量训练装置，用于通过线性回归学习训练回归量。

根据本申请的实施方式，上述设备可进一步包括组合森林训练装置，用于通过使组合形状与预设形状之间的偏差最小化训练预定组合森林。

本申请的又一方面公开了一种用于面部对准的系统，其可包括处理器和存储器，存储器存储计算机可读指令，计算机可读指令在由处理器执行时致使处理器进行以下操作：基于面部图像中的预定面部形状提取所述面部图像的特征；通过将回归量施加到所提取的特征，估计多个预定域中的每个预定域的形状残差；通过将所述形状残差与所述预定面部形状相加计算每个所述预定域的回归形状；基于所述回归形状获得每个所述预定域的特征；通过使用所获得的特征预测组合向量；通过使用预测的组合向量对所述回归形状加权；以及组合经加权的回归形状以输出组合形状。

本申请的另一方面公开了一种非易失性计算机存储媒介，其存储计算机可读指令，计算机可读指令在由处理器执行时致使处理器进行以下操作：基于面部图像中的预定面部形状提取所述面部图像的特征；通过将回归量施加到所提取的特征，估计多个预定域中的每个预定域的形状残差；通过将所述形状残差与所述预定面部形状相加计算每个所述预定域的回归形状；基于所述回归形状获得每个所述预定域的特征；通过使用所获得的特征预测组合向量；通过使用预测的组合向量对所述回归形状加权；以及组合经加权的回归形状以输出组合形状。

附图说明

通过阅读非限制性实施方式的详细描述后，将会更加了解本申请的其它特征、目标和优点。通过参照附图给出详细的描述，附图中：

图1示出了两个现有方法在AFLW数据集上的测试误差分布，其中选择下巴和嘴巴大小两个因子来视觉化所述分布并提供五个区(I-V)中的代表性面部图像；

图2示出了根据本申请实施方式的、用于面部对准的方法的示意性流程图；

图3示出了根据本申请实施方式的、提取面部图像的特征的示意性流程图；

图4示出了根据本申请实施方式的、获得回归域特定形状的示意性流程图；

图5示出了根据本申请的实施方式的、预测组合形状的示意性流程图；

图6示出了根据本申请的实施方式的、用于面部对准的设备的示意性框图；以及

图7示出了根据本申请的实施方式的、适应于实施用于面部对准的方法和设备的计算机系统的示意性结构图的示意性结构图。

具体实施方式

下面将结合附图和实施方式进一步详细描述本申请。应理解，提供本文中所描述的特定实施方式仅仅是出于说明本发明的目的，而非用来限制本发明。还应注意，为了描述方便起见，图中仅示出了与本发明相关的部分。

应注意，在非冲突的情况下，本申请的实施方式和特征可以彼此组合。下文将结合附图和实施方式进一步详细描述本申请。

图2示出了根据本申请实施方式的、用于面部对准的方法的示意性流程图。

在步骤100提取面部图像的特征。在非限制性实例中，为面部图像上的每个关键部位(landmark)均获得二进制特征。所有关键部位的二进制特征随后组合以形成面部图像的特征。

在步骤200，获得面部图像的回归域特定形状。通过使用面部图像的特征获得为每个域估计的形状残差。所估计的形状残差与面部图像的预定形状s相加计算出回归域特定形状。

在步骤300，预测面部图像的组合形状。通过使用在步骤100中提取的特征来获得每个域的特征。每个域的特征输入到组合森林中以预测组合向量。接着由组合向量对每个域的域特定形状进行加权。将所有经加权的域特定形状聚合从而获得面部图像的组合形状。

图3示出了根据本申请实施方式的、提取面部图像的特征的示意性流程图。

在步骤110，将样本(即每个关键部位l周围的区)遍历通过预定决策森林的每个树，直到到达每个树的叶节点以获得二进制向量二进制向量指示是否到达树的每个叶节点(当到达时，表示为1；其它时表示为0)。的维度等于决策森林中叶的总数，且向量中1的数目等于森林中树的总数。

对于每个关键部位，可使用霍夫森林方法训练决策森林，以通过同时使关键部位回归残差最小化而使结构化损失最小化，并将面部部分和背景进行分类。关键部位回归残差被定义为预定面部形状s与每个关键部位的真值(ground-truth)形状s*之间的差。真值形状s*是预设的。

在步骤120，组合关键部位的所有特征以形成对面部图像提取的特征即，(l＝1,…,L)。

图4示出了根据本申请实施方式的、获得回归域特定形状的示意性流程图。

在步骤210，通过施加域特定回归量ω_k估计每个域k的形状残差Δs_k。形状残差Δs_k获得如下：可通过将所有的训练样本分割为K个子集来限定出K个域。例如，可根据形状和局部外观的主成分(principle component)来分割所有样本。每个成分将样本分成两半，且因此K始终为2的幂次方。值得指出的是，头部位姿不是分割的唯一基本因子。通过观察每个域的平均面部(mean face)，可以看出一些域由形状变形或外观属性主导，例如嘴巴张开很大、大的面部缩放、大的面部轮廓或带有太阳镜的面部。所有域共享同一特征映射

对于每个域k，可通过线性回归学习来学习域特定回归量ω_k。域特定回归量ω_k可被定义为：

在步骤220，通过将形状残差Δs_k与预定面部形状s相加计算回归域特定形状s_k，即，s_k＝s+Δs_k，(k＝1,…,K)。

图5示出了根据本申请实施方式的、预测组合形状的示意性流程图。

在步骤310，获得每个域k的特征先前学习的特征映射用于获得每个域k的特征

在步骤320，将回归域特定形状s_k和域的特征输入到预定组合森林f'以预测组合向量p。

可通过使组合形状s'与真值形状s*之间的偏差最小化训练预定组合森林f'，其可被表达为：组合向量p是域的有意义的定量描述。例如，两个不兼容的域(例如左和右轮廓-视角域)的组合不能同时发生。每个组合元素还应该为可以提供有效形状贡献的非负数。在Δs_k之后估计组合向量p，使得其可直接采用局部外观。这使得在本申请的所有实施方式中，可以通过仅提取快速的像素特征(fastpixel feature)，就可以在无约束的场景中提供处理面部的机会。

在步骤330，通过组合向量p对域特定形状s_k加权。

在步骤340，聚合经加权的域特定形状s_k以输出组合形状s'，即，

图6示出了根据本申请实施方式的、用于面部对准的设备的示意性框图。

如图6所示，用于面部对准的设备2000包括特征提取单元2100、域特定回归单元2200和组合预测单元2300。

特征提取单元2100用于提取面部图像的特征。输入到特征提取单元2100中是面部图像和面部图像的预定形状，输出的是面部图像的特征。在特征提取单元2100中，将样本，即每个关键部位l周围的区，遍历通过预定决策森林的每个树，直到到达每个树的叶节点以获得二进制向量二进制向量指示是否到达树的每个叶节点(当到达时，表示为1；其它时表示为0)。的维度等于决策森林中叶的总数，且向量中1的数目等于森林中树的总数。可如上文所描述训练决策森林。特征提取单元2100组合关键部位的所有特征以形成面部图像的经提取特征即，(l＝1,…,L)。

域特定回归单元2200用于获得面部图像的回归域特定形状。将对面部图像提取的特征输入到域特定回归单元2200，然后输出回归域特定形状。在域特定回归单元2200中，通过施加域特定回归量ω_k估计每个域k的形状残差Δs_k。形状残差Δs_k获得如下：可通过将所有训练样本分割为K个子集限定出K个域。域特定回归单元2200接着通过将形状残差Δs_k与预定面部形状s相加计算回归域特定形状s_k。

组合预测单元2300用于预测面部图像的组合形状。回归域特定形状输入到组合预测单元2300中，然后输出面部图像的组合形状。在组合预测单元2300中，获得每个域k的特征可在特征提取单元2100中确定特征映射组合预测单元2300接着将回归域特定形状s_k和域的特征输入到预定组合森林f'中以预测组合向量p。可通过使组合形状s'与真值形状s*之间的偏差最小化训练预定组合森林f'，其可被表达为：组合预测单元2300通过使用组合向量p对域特定形状s_k加权，且聚合经加权的域特定形状s_k以输出组合形状s'。

应理解，用于面部对准的设备2000中描述的单元或子单元对应于上文参考流程图描述的方法的步骤。因此，上文参考方法描述的操作和特性还适用于用于面部对准的设备2000及其单元，且因此本文不再重复。

参照图7，在该图中示出了根据本申请实施方式的、适应于实施用于面部对准的方法和设备的计算机系统3000的示意性结构图。

如图7所示，计算机系统3000包括中央处理单元(CPU)3001，其可根据存储于只读存储器(ROM)3002中的程序或从存储部分3008加载到随机存取存储器(RAM)3003的程序执行多种适当动作和过程。RAM 3003还存储系统3000操作所需的各种程序和数据。CPU 3001、ROM 3002和RAM 3003经由总线3004彼此连接。输入/输出(I/O)接口3005也连接到总线3004。

以下组件连接到I/O接口3005：包括键盘、鼠标等等的输入部分3006，包括阴极射线管(CRT)、液晶显示器(LCD)、扬声器等的输出部分3007，包括硬盘等的存储部分3008，以及包括网络接口卡，例如LAN卡、调制解调器等的通信部分3009。通信部分3009经由例如因特网的网络执行通信过程。驱动器3010还根据需要连接到I/O接口3005。例如磁盘、光盘、磁光盘和半导体存储器的可拆卸式媒介3011可根据需要安装到驱动器3010上，以便按需要将自其读取的计算机程序安装到存储部分3008。

具体地，根据本公开的实施方式，上文参考图2到5描述的方法可被实施为计算机软件程序。例如，本公开的实施方式包括计算机程序产品，其包括有形地包含在机器可读媒介中的计算机程序。计算机程序包括用于执行图2到5中的方法的程序代码。在此类实施方式中，计算机程序可经由通信部分3009从网络下载并安装，和/或从可拆卸式媒介3011安装。

附图中的流程图和框图示出了根据本申请各种实施方式可由系统、装置、方法和计算机程序产品实现的系统架构、功能和操作。为此，流程图或框图的每个框可表示包括用于实施指定逻辑功能的一个或多个可执行指令的模块、程序段或代码的部分。还应注意，在一些替代的实施方案中，框中表示的功能可以与图中标记的序列不同的序列发生。例如，可大体上并行或以相反序列执行依次表示的两个框，这取决于相关功能。还应注意，框图和/或流程图及其组合的每个框可由基于硬件且执行指定功能或操作的特定系统实现，或由特定硬件和计算机指令的组合实现。

本申请实施方式中涉及的单元或模块可实施在硬件或软件中。所描述的单元或模块还可提供于处理器中。这些单元或模块的名称不限制所述单元或模块本身。

作为另一方面，本申请进一步提供了一种计算机可读存储媒介，其可以是以上实施方式中描述的装置中所含有的计算机可读存储媒介；或单独地存在而非适配到任何终端设备的计算机可读存储媒介。在计算机可读存储媒介上可存储一个或多个计算机程序，且所述程序由一个或多个处理器执行以执行本申请中描述的算式输入法。

以上描述仅是本申请优选的实施方式以及所应用技术的原理的描述。本领域技术人员应了解，如本申请中所公开的、所要求保护的技术方案的范围不限于通过上描特征的特定组合组成的方案，而是应涵盖在没有背离本发明概念下的、由上述技术特征任意组成的技术方案及其等同方案。例如，通过用具有(但不限于)本申请中所公开的类似功能的一个或多个特征替换上述的一个或多个特征而形成的解决方案。

Claims

1.一种用于面部对准的方法，包括：

基于面部图像中的预定面部形状提取所述面部图像的特征；

通过将回归量施加到所提取的特征，估计多个预定域中的每个预定域的形状残差；

通过将所述形状残差与所述预定面部形状相加计算每个所述预定域的回归形状；

基于所述回归形状获得每个所述预定域的特征；

通过使用所获得的特征预测组合向量；

通过使用预测的组合向量对所述回归形状加权；以及

组合经加权的回归形状以输出组合形状。

2.根据权利要求1所述的方法，其中提取所述面部图像的特征包括：

将所述预定面部形状的至少一个关键部位的每个关键部位周围的区遍历通过预定决策森林的每个树，直到到达每个树的叶节点；

为每个所述关键部位获得用于指示在所述树中到达的叶节点的向量；以及

组合为每个所述关键部位获得的向量以输出被提取的特征。

3.根据权利要求2所述的方法，其中获得每个所述预定域的特征包括：

使用每个所述关键部位的向量获得每个所述预定域的特征。

4.根据权利要求1所述的方法，其中预测组合向量包括：

通过将所获得的特征输入到预定组合森林中预测出所述组合向量。

5.根据权利要求1所述的方法，进一步包括：

通过使用霍夫森林方法使所述预定决策森林的结构化损失最小化，从而训练所述预定决策森林。

6.根据权利要求5所述的方法，其中通过对所述预定面部形状与所述预定面部形状的每个所述关键部位的预设形状之间的差进行回归操作，使所述预定决策森林的所述结构化损失最小化。

7.根据权利要求1所述的方法，进一步包括通过线性回归学习训练所述回归量。

8.根据权利要求4所述的方法，进一步包括：通过使所组合的形状与预设形状之间的偏差最小化训练所述预定组合森林。

9.根据权利要求1所述的方法，如果域的组合向量为零则排除该域。

10.一种用于面部对准的设备，包括：

提取装置，基于面部图像中的预定面部形状提取所述面部图像的特征；

估计装置，通过将回归量施加到所提取的特征，估计多个预定域中的每个预定域的形状残差；

计算装置，通过将所述形状残差与所述面部形状相加计算每个所述预定域的回归形状；

获得装置，基于所述回归形状获得每个所述预定域的特征；

预测装置，通过使用所获得特征预测组合向量；

加权装置，使用预测的组合向量对所述回归形状加权；以及

组合装置，组合经加权的回归形状以输出组合形状。

11.根据权利要求10所述的设备，其中所述提取装置包括：

遍历子装置，将所述预定面部形状的至少一个关键部位的每个关键部位周围的区遍历通过预定决策森林的每个树，直到到达每个树的叶节点；

获得子装置，为每个所述关键部位获得用于指示在所述树中到达的叶节点的向量；以及

组合子装置，组合为每个所述关键部位获得的向量以输出被提取的特征。

12.根据权利要求11所述的设备，其中所述获得子装置使用每个所述关键部位的向量获得每个所述预定域的特征。

13.根据权利要求10所述的设备，其中所述预测装置通过将所获得的特征输入到预定组合森林中预测出所述组合向量。

14.根据权利要求10所述的设备，进一步包括：

决策森林训练装置，用于通过使用霍夫森林方法使所述预定决策森林的结构化损失最小化，从而训练所述预定决策森林。

15.根据权利要求14所述的设备，其中通过对所述预定面部形状与所述预定面部形状的每个所述关键部位的预设形状之间的差进行回归操作，使所述预定决策森林的所述结构化损失最小化。

16.根据权利要求10所述的设备，进一步包括：

回归量训练装置，用于通过线性回归学习训练所述回归量。

17.根据权利要求13所述的设备，进一步包括：

组合森林训练装置，通过使所述组合形状与预设形状之间的偏差最小化训练所述预定组合森林。

18.根据权利要求10所述的设备，如果域的组合向量为零则排除该域。

19.一种用于面部对准的系统，包括：

处理器；以及

存储器；

所述存储器存储计算机可读指令，所述计算机可读指令在由所述处理器执行时致使所述处理器进行以下操作：

基于面部图像中的预定面部形状提取所述面部图像的特征；

基于所述回归形状获得每个所述预定域的特征；

通过使用所获得的特征预测组合向量；

通过使用预测的组合向量对所述回归形状加权；以及

组合经加权的回归形状以输出组合形状。

20.根据权利要求19所述的系统，其中提取所述面部图像的特征包括：

组合为每个所述关键部位获得的向量以输出被提取的特征。

21.根据权利要求20所述的系统，其中获得每个所述预定域的特征包括：

使用每个所述关键部位的向量获得每个所述预定域的特征。

22.根据权利要求19所述的系统，其中预测组合向量包括：

通过将所获得的特征输入到预定组合森林中预测所述组合向量。

23.根据权利要求19所述的系统，其中所述处理器进一步被配置成通过使用霍夫森林方法使所述预定决策森林的结构化损失最小化，从而训练所述预定决策森林。

24.根据权利要求23所述的系统，其中，通过对所述预定面部形状与所述预定面部形状的每个所述关键部位的预设形状之间的差进行回归操作，使所述预定决策森林的所述结构化损失最小化。

25.根据权利要求19所述的系统，其中所述处理器进一步被配置成通过线性回归学习训练所述回归量。

26.根据权利要求22所述的系统，其中所述处理器进一步被配置成通过使所述组合形状与预设形状之间的偏差最小化训练所述预定组合森林。

27.根据权利要求19所述的系统，所述处理器进一步被配置成如果域的组合向量为零则排除该域。

28.一种非易失性计算机存储媒介，其存储计算机可读指令，所述计算机可读指令在由处理器执行时致使所述处理器进行以下操作：

基于面部图像中的预定面部形状提取所述面部图像的特征；

基于所述回归形状获得每个所述预定域的特征；

通过使用所获得的特征预测组合向量；

通过使用预测的组合向量对所述回归形状加权；以及

组合经加权的回归形状以输出组合形状。