CN103430218A

CN103430218A - 用3d脸部建模和地标对齐扩增造型的方法

Info

Publication number: CN103430218A
Application number: CN2011800694106A
Authority: CN
Inventors: P.王; Y.张
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-03-21
Filing date: 2011-03-21
Publication date: 2013-12-04
Also published as: US20140043329A1; EP2689396A4; WO2012126135A1; EP2689396A1

Abstract

可首先通过借助摄像机捕获场景的2D图像来执行用户的脸部的个性化3D形变模型的生成。接下来，可在2D图像中检测用户的脸部，并且可在2D图像中检测用户的脸部的2D地标点。每一个检测的2D地标点都可被配准到通用3D脸部模型。可实时生成个性化面部组件以表示映射到通用3D脸部模型的用户的脸部以形成个性化3D形变模型。个性化3D形变模型可被显示给用户。对于来自摄像机的2D图像的现场视频序列可实时重复这个过程。

Description

用 3D 脸部建模和地标对齐扩增造型的方法

技术领域

一般而言，本公开涉及图像处理领域。更具体地说，本发明的实施例涉及在用于个性化面部图像的处理系统中由处理器执行的扩增现实应用。

背景技术

在个人计算机(PC)、手持计算装置和嵌入式细分市场中，消费者对脸部技术和相关应用极其感兴趣。当摄像机被用作捕获用户的直播视频流的输入装置时，存在观看、分析、交互和增强“镜子”装置中用户的脸部的广泛需求。计算机实现的脸部和化身技术的现有方法落入四个截然不同的主要类别中。第一类别使用诸如局部二值模式(LBP)、Gabor滤波器、比例不变特征变换(SIFT)、加速鲁棒特征(SURF)和梯度方向直方图(HOG)的技术来特征化面部特征。第二类别处理单个二维(2D)图像，诸如脸部检测、面部识别系统、性别/种族检测和年龄检测。第三类别考虑用于脸部跟踪的视频序列、用于对齐的地标检测和表情评价。第四类别对三维(3D)脸部建模并提供动画。

在大多数当前解决方案中，脸部相关应用中的用户交互基于2D图像或视频。此外，整个脸部区域是用户交互的目标。当前解决方案的一个缺点是，用户不能与部分脸部区域或个体特征交互，也不能在自然3D空间上操作。尽管存在可给用户呈现3D脸部模型的小量应用，但通常提供通用模型。这些应用缺乏定制的能力，并且没为用户提供身临其境的体验。期望更好的方法，理想的是在单个处理系统中组合所有四种能力(面部特征、2D脸部识别、视频序列中的脸部跟踪和用于对齐的地标检测以及3D脸部动画)的方法。

附图说明

参考附图提供详细描述。在不同图中使用相同附图标记指示类似或相似项目。

图1是根据本发明一些实施例的扩增现实组件的图解；

图2是根据本发明一些实施例在扩增现实组件中生成用户的个性化面部组件的图解；

图3和4是根据本发明实施例的脸部检测处理的示例图像。

图5是根据本发明的实施例当在脸部图像上应用左嘴角的级联分类器时可能性响应图像示例及其平滑结果。

图6是根据本发明实施例的旋转参数、平移参数和缩放参数的例证。

图7是根据本发明实施例示出用于地标点检测处理的大范围脸部变化的示例图像集合。

图8是根据本发明实施例示出脸部上95个地标点的示例图像。

图9和10是根据本发明实施例在各种脸部图像上执行的2D面部地标点检测处理的示例。

图11是根据本发明实施例的地标点配准处理的示例图像。

图12是根据本发明实施例的摄像机模型的例证。

图13例证了根据本发明实施例的几何重新投射误差。

图14例证了根据本发明实施例的迷你球滤波的概念。

图15是根据本发明实施例的纹理映射框架的流程图。

图16和17是例证根据本发明实施例从多视图图像进行3D脸部构建的示例图像。

图18和19例证了处理系统实施例的框图，其可用于实现本文讨论的一些实施例。

具体实施方式

本发明实施例在比先前方法更“精密尺度”和更“个性化”的基于处理器的应用内提供了与面部图像的交互以及面部图像的增强。通过“精密尺度”，用户例如可与诸如眼睛、嘴巴、鼻子和脸颊等个体脸部特征交互，并扩增它们。“个性化”意味着，面部特征可对于每个人类用户特征化，而不是限于可应用于每个人的通用脸部模型。通过在本发明实施例中提出的技术，可对于处理系统的各种细分市场实现高级脸部和化身应用。

在以下描述中，阐述了大量特定细节以便提供对各种实施例的透彻理解。然而，本发明的各种实施例可在没有这些特定细节的情况下实施。在其它实例下，众所周知的方法、过程、组件和电路未详细描述，以免模糊了本发明的具体实施例。另外，可以使用各种构件来执行本发明实施例的各种方面，各种构件诸如是集成半导体电路(“硬件”)、组织成存储在计算机可读存储介质上的一个或多个程序的计算机可读指令(“软件”)或硬件和软件的某种组合，。为了本公开的目的，对“逻辑”的引用将意味着或者硬件、软件(例如包含控制处理器操作的微代码)、固件或它们的某种组合。

本发明的实施例处理从摄像机捕获的用户的脸部图像。在将脸部图像拟合到通用3D脸部模型之后，本发明的实施例便于最终用户与用户的脸部的个性化化身3D模型的交互。通过从2D脸部图像到3D化身模型的地标映射，可个体地特征化首要面部特征，诸如眼睛、嘴巴和鼻子。通过这种方式，可提供比先前技术更加自然且身临其境的高级人机交互(HCI)交互，诸如虚拟造型。

为了给用户提供定制面部表示，本发明的实施例给用户呈现了作为形变模型而不是通用统一模型的3D脸部化身。为了便于用户个体且单独增强和/或扩增他们的眼睛、鼻子、嘴巴和/或脸颊或3D脸部化身模型上的其它面部特征的能力，本发明的实施例提取其几何和纹理约束对于人鲁棒的一组地标点。为了给用户提供动态交互体验，本发明的实施例将捕获的2D脸部图像映射到3D脸部化身模型以便进行面部表情同步。

通用3D脸部模型是描述具有自然表情的人脸的几何属性的3D形状表示。它通常包括顶点集、连接在两个顶点之间的边以及三边(三角形脸)或四边(方脸)的闭集。

为了在具照片真实感的模型中呈现个性化化身，在本发明的实施例中可包含基于3D模型重构的多视图立体组件。多视图立体组件处理N个脸部图像(或视频序列中的连续帧)，其中N是自然数，并且自动估计脸部模型的摄像机参数、点云和网格。点云是三维坐标系中的顶点集。这些顶点通常由X、Y和Z坐标定义，并且通常打算表示对象的外部表面。

为了与部分脸部区域单独交互，在本发明的实施例中可包含单目地标检测组件。单目地标检测组件将当前视频帧与之前视频帧对齐，并且还将关键点配准到通用3D脸部模型以避免漂移和抖动。在一个实施例中，当数个地标的映射距离大于阈限时，可自动重启地标的检测和对齐。

为了通过利用通用3D脸部模型来扩增个性化化身，在本发明的实施例中可包含主成分分析。主成分分析(PCA)将通常数千的顶点和三角形的映射变换成数十个参数的映射。如果在包括具有有限计算能力的嵌入式平台的处理系统上执行扩增现实组件，则这使计算复杂性可行。因此，本发明的实施例可提供实时脸部跟踪和个性化化身操控。

图1是根据本发明一些实施例的扩增现实组件100的图解。在一个实施例中，扩增现实组件可以是作为处理系统一部分的硬件组件、固件组件、软件组件或硬件组件、固件组件和/或软件组件中一种或多种的组合。在各种实施例中，处理系统可以是PC、膝上型电脑、上网本、平板电脑、手持电脑、智能电话、移动因特网装置(MID)或任何其它固定处理装置或移动处理装置。在另一实施例中，扩增现实组件100可以是在处理系统上执行的应用程序的一部分。在各种实施例中，应用程序可以是独立程序，或者例如网页浏览器、图像处理应用、游戏或多媒体应用的另一程序(例如诸如插件)的一部分。

在一个实施例中，存在两个数据域：2D和3D，它们分别由至少一个2D脸部图像和3D化身模型表示。摄像机(未示出)可用作图像捕获工具。摄像机获得至少一个2D图像102。在一个实施例中，2D图像可包括来自视频摄像机的多个帧。在一个实施例中，摄像机可与处理系统(诸如web摄像机、蜂窝电话摄像机、平板电脑摄像机等)一体。通用3D脸部模型104可预先存储在处理系统的存储装置中，并根据需要输入到扩增现实组件100。在一个实施例中，通用3D脸部模型可由处理系统通过网络(诸如例如因特网)获得。在一个实施例中，通用3D脸部模型可存储在处理系统内的存储装置上。扩增现实组件100实时处理2D图像、通用3D脸部模型，可选地还有用户输入，以生成个性化面部组件106。个性化面部组件106包括3D形变模型，该3D形变模型对于个体用户将用户的脸部表示为个性化的和扩增的。个性化面部组件可存储在处理系统的存储装置中。个性化面部组件106可根据需要用在其它应用程序、处理系统和/或处理装置中。例如，个性化面部组件可被显示在处理系统的显示器上，以便由用户观看并与之交互。用户输入可经由众所周知的用户接口技术获得，以在个性化面部组件中改变或扩增用户的脸部的所选特征。以这种方式，用户可以看看选择的改变在用户的个性化3D面部模型上看起来像什么，其中所有改变都大致实时示出了。在一个实施例中，结果应用包括虚拟造型能力。

本发明实施例支持至少三种输入情况。在第一种情况下，用户的单个2D图像可被拟合到通用3D脸部模型。在第二种情况下，可通过应用拍照姿势恢复和多视图立体匹配技术来处理用户的多个2D图像，以重构3D模型。在第三种情况下，可处理直播视频帧序列以检测和跟踪用户的脸部，并至少部分基于直播视频帧、可选地还有用户输入来生成并连续调整用户的脸部的对应个性化3D形变模型，以改变所选个体面部特征。

在一个实施例中，个性化化身生成组件112提供脸部检测和跟踪、拍照姿势恢复、多视图立体图像处理、模型拟合、网格细化和纹理映射操作。个性化化身生成组件112 在2D图像102中检测脸部区域，并重构脸部网格。为了实现这个目标，可自动估计摄像机参数，诸如焦距、旋转和变换以及缩放因子。在一个实施例中，可从摄像机获得其中一个或多个摄像机参数。当得到内部和外部摄像机参数时，将相应地恢复用户的脸部的稀疏点云。由于期望精密尺度化身生成，所以可用束调整方法基于多视图图像来估计2D脸部模型的稠密点云。为了建立通用3D脸部模型104与在2D图像102中所捕获的个体用户的脸部之间的形变关系，可分别由2D地标点检测组件108和3D地标点配准组件110检测和配准2D脸部模型与3D脸部模型之间的地标特征点。

可相对于稳定纹理和空间相关性来定义地标点。配准的地标点越多，特征化面部组件可越准确。在一个实施例中，可检测高达95个地标点。在各种实施例中，可应用比例不变特征变换(SIFT)或加速鲁棒特征(SURF)过程以特征化在训练脸部图像之间的统计量。在一个实施例中，可使用径向基函数来实现地标点检测模块。在一个实施例中，可在离线模型扫描和创建过程中定义3D地标点的数量和方位。由于与通用3D脸部模型104中的面部组件有关的网格信息是已知的，因此，通过变换稠密表面可内插个性化化身的面部部分。

在一个实施例中，3D形变模型的3D地标点可至少部分通过3D面部部分特征化模块114来生成。3D面部部分特征化模块可至少部分根据在数个示例脸部上计算的统计导出3D形变模型的部分，并可在形状和纹理空间方面得到描述。可通过将脸部分成独立形变的独立子区域（例如眼睛、鼻子、嘴巴和周围区域）来增加模型的表现力。由于所有脸部都被假设是对应的，因此，在参考脸部上定义这些区域就已足够。这种分割相当于将脸部的向量空间细分成独立的子空间。通过单独计算每个分段的线性组合并在边界处混合它们来生成完整的3D脸部。

假定，用形状向量

表示脸部的几何图形，其含有它的n个顶点的X 、 Y 、 Z坐标。为了简化，假设，纹理图（texture map）中有效纹理值的数量等于顶点的数量。T脸部纹理可由纹理向量T=
表示，其含有于是对应的顶点的RG颜色值。分割的形变模型将由四个不相交集特征化，其中

描述眼睛区域的形状和纹理向量，

描述鼻子区域，

；描述嘴巴区域，并且

；

描述周围区域，并且n=n1+n2+n3+n4，S={{S(eyes)},{S(nose)},{S(mouth)},{S(surrounding)}}，并且T={{T(eyes)},{T(nose)},{T(mouth)},{T(surrounding)}}。

图2是根据本发明一些实施例由扩增现实组件100生成个性化面部组件的过程的图解。在一个实施例中，可对于2D数据域执行如下处理。

首先，可在块202执行脸部检测处理。在一个实施例中，可由个性化化身生成组件112执行脸部检测处理。输入数据包括一个或多个2D图像(I1,... ,In)102。在一个实施例中，2D图像包括以某一帧速率fps的视频帧序列，其中每个视频帧具有图像分辨率(WxH)。大多数现有脸部检测方法遵循在“Rapid Object Detection Using a Boosted Cascade of Simple Features” (由 Paul Viola和Michael Jones所著, Conference on Computer Vision and Pattern Recognition, 2001)中所示的众所周知的Viola-Jones框架。然而，在一个实施例中，基于由申请人执行的实验，使用Gabor特征和级联模型结合Viola-Jones框架可实现脸部检测的比较高的准确度。为了改进处理速度，在本发明的实施例中，脸部检测可被分解成多个连续帧。用这种策略，计算载荷与图像大小无关。可对于每个视频帧预测脸号#f、帧中的方位(x,y)以及脸在宽和高方面的大小(w,h)。脸部检测处理202产生一个或多个脸部数据集(#f,[x,y,w,h])。

一些已知脸部检测算法将脸部检测任务实现为二值模式分类任务。也就是说，图像给定部分的内容被变换成特征，之后在示例脸部上训练的分类器判定图像的那个具体区域是否是脸部。经常采用窗口滑动技术。也就是说，使用分类器来将在所有位置和以所有尺度（scale）的图像部分(通常是方形或矩形)分类为脸部或非脸部(背景图案)。

脸部模型可含有脸部的外观、形状和动作（motion）。Viola-Jones对象检测框架是实时提供竞争性对象检测率的对象检测框架。它主要是由脸部检测问题激发的。

对象检测框架的组件包含特征类型和评估、学习算法和级联架构。在特征类型和评估组件中，由对象检测框架采用的特征普遍涉及矩形区域内图像像素的总和。通过使用称为积分图像的图像表示，矩形特征可在恒定时间后评估，相比它们的更复杂相对物，这给予它们显著的速度优势。

在学习算法组件中，在标准24x24像素子窗口中，存在总共45396个可能特征，并且评估它们所有将极其昂贵。因而，对象检测框架采用已知学习算法自适应激增(AdaBoost)的变体来选择最佳特征并训练使用它们的分类器。AdaBoost是机器学习算法，如在“A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting”(由Yoav Freund和Robert Schapire所著, ATT Bell Laboratories, 1995年9月20日)中所公开的。它是元算法，并且可结合许多其它学习算法用于改进它们的性能。AdaBoost在微调所构建的随后分类器有利于先前分类器错误分类的那些实例的意义上是自适应的。AdaBoost对噪声数据和离群值敏感。然而，在一些问题中，它可能对过度拟合问题不像大多数学习算法那么易受影响。AdaBoost在一系列循环(t=1,...T)中重复调用弱分类器。对于每次调用，更新权重分布 D_t ，其指示用于分类的数据集中示例的重要性。在每个循环上，增大每个不正确分类的示例的权重(或备选地，减小每个正确分类的示例的权重)，使得新分类器更多着重于那些示例。

在级联架构组件中，通过学习过程生成的强分类器的评估可快速进行，但它没快到足以实时运行。由于这个原因，强分类器按复杂度顺序级联布置，其中每个接连的分类器仅在通过前面分类器的那些所选样本上训练。如果在级联中的任一级，分类器都拒绝正在检查的子窗口，则不执行进一步处理，并且级联架构组件继续搜索下一子窗口。

图3和4是根据本发明实施例的脸部检测的示例图像。

返回到图2，当用户在摄像机前面随着时间改变他或她的姿势时，可在块204执行2D地标点检测处理，以针对2D图像序列中的每个脸部估计变换，并对齐对应关系。在一个实施例中，可由2D地标点检测组件108执行该处理。在脸部检测处理202期间定位脸部区域之后，本发明的实施例检测面部特征（诸如嘴、眼角等）的准确方位。地标是脸部内感兴趣的点。左眼、右眼和鼻底全都是地标的示例。地标检测过程影响脸部相关应用的总体系统性能，原因在于其准确性显著影响接连处理（例如脸部对齐、脸部识别和化身动画）的性能。用于面部地标检测处理的两个经典方法是主动形状模型(ASM)和主动外观模型(AAM)。ASM和AAM使用从标记的数据训练的统计模型来捕获形状和纹理的变化。ASM在“Statistical Models of Appearance for Computer Vision”(由T.F. Cootes和C.F. Taylor所著, Imaging Science and Biomedical Engineering, University of Manchester, 2004年3月8日)中公开了。

根据脸部几何图形，在一个实施例中，对于眼角和嘴角，可定义和学习6个面部地标点。模型的主动形状模型(ASM)类型输出6个自由度大参数：x偏移x、y偏移y、旋转r、两眼间距离o、眼到嘴的距离e和嘴宽m。地标检测处理204产生这些2D地标点的一个或多个集合([x,y,r,o,e,m])。

在一个实施例中，2D地标点检测处理204采用鲁棒激增分类器来捕获局部纹理的各种改变，并且3D头部模型可被简化成仅7个点(4个眼角、2个嘴角、一个鼻尖)。虽然这种简化极大减少了计算负荷，但这7个地标点连同头部姿势估计一般而言足以执行公共脸部处理任务，诸如脸部对齐和脸部识别。此外，为了防止最优形状搜索落入局部最小值，可使用多个配置来初始化形状参数。

在一个实施例中，级联分类器可在脸部图像中感兴趣的区域运行，以生成每个地标的可能性响应图像。级联分类器在位置(x,y)的概率输出被近似为：

，

其中f_i 是在训练过程期间规定的第i级分类器的假阳性率( f_i 的典型值是0.5)，并且 k ( x , y )指示在当前位置成功通过了多少级分类器。可以看到，得分越大，当前像素属于目标地标的概率越高。

在一个实施例中，可使用用于眼睛、嘴巴和鼻子的7个面部地标点，并且可通过如下7个参数对它们进行建模：3个旋转参数、2个平移参数、一个缩放参数和一个嘴宽参数。

图5是当在脸部图像500上的左嘴角应用级联分类器时的可能性响应图像及其平滑结果的示例。当左嘴角的级联分类器被应用于脸部图像内感兴趣的区域时，示出了可能性响应图像502及其高斯平滑结果图像504。可以看到，左嘴角周围的区域得到比其它区域高得多的响应。

在一个实施例中，可使用3D模型来描述7个面部地标点之间的几何关系。虽然并行投影在2D平面上，但是地标点的方位受到包含3D旋转(俯仰 θ ₁ 、偏航 θ ₂ 、滚动 θ ₃ )、2D平移( t_x , t_y )和缩放( s )的参数集的影响，如图6中所示。然而，这6个参数 ( θ ₁ , θ ₂ , θ ₃ , t_x , t_y , s )描述基本头部形状的刚体变换，但不考虑由于主体身份或面部表情引起的形状变化。为了处理该形状变化，可引入一个附加参数 λ ，即，嘴宽与两眼之间的距离之比。用这种方式，这7个形状控制参数 S =( θ ₁ , θ ₂ , θ ₃ , t_x , t_y , s , λ )能够描述图像中大范围的脸部变化，如图7图像示例集合中所示。

每个地标点的成本定义为：

其中 P ( x , y )是在级联分类器中引入的位置( x , y )处地标的可能性响应。

最优形状搜索的成本函数采取如下形式：

，

其中 S 表示形状控制参数。

当根据某 S 将3D头部模型上的7个点投影到2D平面上时，可导出每个投影点 E_i 的成本，并且可计算整个成本函数。通过最小化这个成本函数，可找到脸部区域中地标点的最优方位。

在本发明的实施例中，可确定高达95个地标点，如图8的示例图像中所示的。

图9和10是在各种脸部图像上执行的面部地标点检测处理的示例。图9示出了具有胡子的脸部。图10示出了戴太阳镜的脸部，并且脸部被手或头发遮住了。每条白线指示由2D地标点检测处理204所确定的每个图像中头部的定向。

返回到图2，为了生成表示用户的脸部的个性化化身，在一个实施例中，在块204通过2D地标点检测处理确定的2D地标点可在块206通过3D地标点配准处理配准到3D通用脸部模型104。在一个实施例中，3D地标点配准处理可由3D地标点配准组件110执行。基于模型的方法可通过找到2D脸部图像中给定3D模型的地标点的小重新投影误差r_e 来避免漂移。当可使用误差函数的最小平方最小化时，局部最小值可导致虚假结果。跟踪在线关键帧中的数个点可解决以上缺陷。如果2D到2D对应关系x_ix_i'已知，其中 x_i 是一个摄像机平面中的2D投影点，x_i'是另一摄像机平面中的对应2D投影点，则可使用5点方法来实现外部摄像机参数（比如相对旋转/平移P=[R|t] ）的粗略估计。在一个实施例中，地标点的重新投影误差可计算为r_e=I=1k ρ (mi – PM_i)，其中r_e 表示重新投影误差，ρ表示Tukey M估计器，PM_i 表示给定姿势P时3D点M_i 的投影。3D地标点配准处理206产生一个或多个重新投影误差r_e 。

更详细地，在一个实施例中，3D地标点配准处理206可执行如下。已经定义了具有P个顶点的参考扫描或网格，这P个对应表面点的坐标级联成向量

。在此表示中，任何凸组合：

都描述该类的新元素。为了移除第二个约束，可相对于算术平均使用质心坐标：

因而，

。

该类可关于对象类中v的概率密度p(v)来描述。p(v)可通过主成分分析(PCS)来估计：令数据矩阵X：

.。

数据集的协方矩阵由下式给出：

。

PCA基于对角化：

。

由于C是对称的，因此S的列s_i 形成特征向量的正交集。σ _i 是沿特征向量的数据内的标准偏差。对角化可通过X的奇异值分解(SVD)计算。

如果缩放的特征向量σ _i s_i 被用作基，则向量x由系数c_i 定义：

给定缩减数量f<p个特征点的方位，任务是找到所有其它顶点的3D坐标。特征点的2D坐标或3D坐标可写为向量r ∈ R^l(l=2f 或 l=3f)，并假设r通过下式与v相关：

。

L可以是任何线性映射，诸如从v中选择分量子集用于稀疏特征点或其余表面区域、3D中的刚体变换以及到图像坐标的正射投影的投影乘积。令：

，

如果L不是一对一的，则解x将不是唯一定义的。为了减少自由参数的数量，x可局限于x_i 的线性组合。

接下来，最小化：

。

令：

，

是缩放的特征向量的缩减版本，并且：

。

依据模型系数c_i ：

。

最优值可通过奇异值分解Q=UWV^T找到，其中对角矩阵

并且

。Q的伪逆：

。

为了避免数值问题，条件w_i ≠ 0可用阈限w_i> ε替换。E(c)的最小值可用伪逆计算：c=Q⁺y。

这个向量c具有另一重要属性：如果E(c)的最小值未唯一定义，则c是在所有c'当中具有最小范数||C||的向量，其中E(c')=E(c)。这意味着，可用最大先验概率获得该向量，c被映射到Rⁿ ，

。

用L 的伪逆L⁺ 计算 x=L⁺y可能更直接。

图11示出了根据本发明实施例的地标点配准处理206的示例图像。输入脸部图像1104可被处理并且然后应用于通用3D脸部模型1102以至少生成如在个性化3D模型1106中所示出的个性化化身参数208的一部分。

在一个实施例中，可对于3D数据域执行如下处理。又参考图2，对于重构3D脸部模型的过程，可在块210执行合格图像对（eligible image pair）的立体匹配。这对于稳定性和准确性可能是有用的。在一个实施例中，可由个性化化身生成组件112执行立体匹配。给定校准的摄像机参数，图像对可校正成使得核线对应于扫描线。在实验中，DAISY特征(如下面所讨论的)比归一化互相关(NCC)方法执行得更好，并且可并行提取。给定每两个图像对，点对应关系可作为x_ix_i'提取。每个图像对的摄像机几何图形可由基本矩阵F、单应矩阵H特征化。在一个实施例中，拍照姿势估计方法可使用直接线性变换(DLT)方法或间接五点方法。立体匹配处理210产生摄像机几何参数{x_i<->x_i'}{x_ki,P_kiX_i}，其中x_i 是一个摄像机图像中的2D重新投影点，x_i'是另一摄像机图像中的2D重新投影点，x_ki 是摄像机k、点j的2D重新投影点，并且P_ki 是摄像机k、点j的投影矩阵，X_i 是物理世界中的3D点。

摄像机恢复和立体匹配的另外细节如下。给定一组图像或视频序列，立体匹配处理目的是恢复每个图像/帧的拍照姿势。这被称为计算机视觉中的从运动恢复结构(SFM)问题。自动SFM取决于图像对上的稳定特征点匹配。首先，必须对于每个图像提取稳定特征点。在一个实施例中，兴趣点可包括比例不变特征变换(SIFT)点、加速鲁棒特征(SURF)点和/或Harris角。一些方法还使用线段或曲线。对于视频序列，还可使用跟踪点。

比例不变特征变换(或SIFT)是计算机视觉中检测和描述图像中局部特征的算法。该算法在“Object Recognition from Local Scale-Invariant Features”(David Lowe, Proceedings of the International Conference on Computer Vision 2, pp. 1150-1157, 1999年9月)中描述了。应用包含对象识别、机器人映射和导航、图像缝合、3D建模、手势识别、视频跟踪和匹配运动。它使用对Hessian团块检测器行列式的整数近似，其可用积分图像(3个整数运算)极快速地计算。对于特征，它使用感兴趣点周围的哈尔小波响应之和。这些可在积分图像的帮助下计算。

SURF(加速鲁棒特征)是在“SURF, Speeded Up Robust Features”(Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool, Computer Vision and Image Understanding (CVIU), Vol.110, No.3, pp. 346-358,2008)中公开的鲁棒图像检测器&描述符，其可用在计算机视觉任务（比如对象识别或3D重构）中。它部分由SIFT描述符激励。SURF的标准版本比SIFT快若干倍，并且其作者声称相比与SIFT不同的图像变换更鲁棒。SURF基于近似的2D哈尔小波响应之和，并对积分图像进行有效使用。

关于Harris角，在计算机视觉和图像分析领域，Harris仿射区域检测器属于特征检测的类别。特征检测是依赖于标识特性点或兴趣点以便使图像之间对应、识别纹理、分类对象或构建全景的多个算法的预处理步骤。

给定两个图像I和J，假定SIFT点集是

和

。对于K_I 中的每个查询关键点k_i ，可在K_J中找到匹配点。在一个实施例中，可使用SIFT特征空间中的最近邻居规则。也就是说，到查询点k_i 的距离最小的关键点被选作为匹配点。假定d₁₁ 是从k_j 到K_J 的最近邻居距离，并且d₁₂ 是从k_i 到K_J 中第二近邻居的距离。比r=d₁₁/d₁₂ 被称为区别比。在一个实施例中，当r>0.8时，该匹配可由于它具有是假匹配的高概率而被放弃。

区别比给出初始匹配，假定点p_i=(x_i,y_i)匹配到点p_j=(x_j,y_j)，差别方向可被定义为

。作为细化步骤，可用中值拒绝滤波器（median-rejection filter）移除离群值。如果在P_j 局部邻域中存在大于等于8的足够关键点，并且在那个邻域中不能找到与

紧密相关的差别方向，则拒绝P_j。

在两个和更多视图之间存在一些基本关系。假定每个视图具有相关联的摄像机矩阵P，并且3D空间点X在第一视图中成像为x=PX，并且在第二视图中成像为x'=P'X。存在几何关系能帮助回答的三个问题：(1)对应关系几何图形：给定第一视图中的图像点x，这如何约束第二视图中对应点x'的方位？(2)摄像机几何图形：给定一组对应图像点{x_i ↔x_i'},i=1,...,n ，什么是两个视图的摄像机矩阵P和P'？(3)场景几何图形：给定对应图像点x_i ↔x_i'和摄像机矩阵P、P'，什么是3D空间中X的方位？

一般而言，这些矩阵在如下对应关系几何中是有用的：基础矩阵F和单应性矩阵H。基础矩阵是相同场景的任何两个图像之间的关系，它约束在两个图像中在哪里能发生来自场景的点的投影。基础矩阵在“The Fundamental Matrix: Theory, Algorithms, and Stability Analysis”(Quan-Tuan Luon and Olivier D. Faugeras, International Journal of Computer Vision, Vol.17, No.1, pp.43-75,1996)中描述了。给定场景点到其中一个图像中的投影，另一图像中的对应点被约束到线，帮助搜索，并允许检测错误对应关系。基础矩阵表示的对应图像点之间的关系称为核约束、匹配约束、离散匹配约束或关联关系。在计算机视觉中，基础矩阵F是与立体图像中的对应点相关的3x3矩阵。在核面几何中，通过立体图像对中对应点的同质图像坐标x和x'，Fx描述另一图像上的对应点x'必须位于其上的线(核线)。那意味着，对于所有对对应点保持：

。

秩是2并且仅按比例确定，给定至少7个点对应关系，能估计基础矩阵。其7个参数表示能只通过点对应关系获得的关于摄像机的仅几何信息。

单应性是几何数学科学中的概念。单应性是从真实投影平面到将直线映射到直线的投影平面的可逆变换。在计算机视觉领域中，空间中相同平面表面的任何两个图像都通过单应性相关(假设针孔摄像机模型)。这具有许多实际应用，诸如图像校正、图像配准或两个图像之间的摄像机运动—旋转和平移—的计算。一旦已经从估计的单应性矩阵中提取了摄像机旋转和平移，这个信息就可用于导航，或将3D对象的模型插入到图像或视频中，使得它们用正确透视图渲染，并且看起来已经是原始场景的一部分。

图12是根据本发明实施例的摄像机模型的例证。

场景点的投影可作为通过这个点和投影C的中心的线和图像平面的交点来获得。给定世界点(X,Y,Z)和对应图像点(x, y)，则(X,Y,Z)→(x,y)=(fX/Z, fY/Z)。另外，考虑成像中心，我们具有摄像机模型的如下矩阵形式：

。

第一右手边矩阵称为摄像机本征矩阵K，其中p_x 和p_y 定义光学中心，并且f是反映从图像到场景的拉伸比例的焦距。第二矩阵是投影矩阵[R t]。摄像机投影可被写为x=K[R t]X或x=PX，其中P=K[R t](3x4矩阵)。在本发明的实施例中，拍照姿势估计方法包含直接线性变换(DLT)方法和5点方法。

直接线性变换(DLT)是从一组类似关系中求解一组变量的算法：

，，

其中

和

是已知向量，

表示未知标量乘法的等式，并且A是含有要求解的未知量的矩阵(或线性变换)。

给定图像测量x=PX和x'=P'X，场景几何图形旨在计算3D空间中点的方位。单纯方法是来自两点x和x'的背投影射线的三角测量。由于在测量点x和x'中存在误差，因此射线一般不会相交。因而，有必要估计3D空间中的点的最佳解，这需要适当成本函数的定义和最小化。

给定4点对应关系以及它们的投影矩阵，可通过应用作为x(PX)=0的直接线性变换(DLT)算法来求解单纯三角测量。实际上，可最小化几何误差以获得最优方位：

，

其中x^=PX^是Χ^的重新投影。

图13例证了根据本发明实施例的几何重新投影误差r_e 。

又参考图2，在块212可执行稠密匹配和束优化。在一个实施例中，稠密匹配和束优化可由个性化化身生成组件112执行。当存在一系列图像时，多个图像中的一组对应点可作为

来跟踪，其描绘第一图像、第二图像和第三图像等中的同一3D点。对于整个图像集(例如视频帧序列)，可通过全局最小化步骤细化摄像机参数和3D点。在一个实施例中，该最小化称为束调整，并且标准是

。在一个实施例中，可根据摄像机视图重新组织该最小化，得出更小的优化问题。稠密匹配和束优化处理212产生一个或多个轨迹/方位w(x_i ^k)H_ij 。

稠密匹配和束优化的另外细节如下。对于每个合格的立体图像对，在立体匹配210期间，首先校正图像视图，使得核线对应于图像中的扫描线。假定右侧图像是参考视图，对于左侧图像中的每个像素，立体匹配找到右侧图像中对应核线上的紧密匹配像素（closed matching pixel）。在一个实施例中，该匹配基于DAISY特征，其显示出优于稠密立体匹配中基于归一化互相关(NCC)的方法。DAISY在“DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo”(Engin Tola, Vincent Lepetit, and Pascal Fua, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, No.5, pp.815-830, May, 2010)中公开了。

在一个实施例中，可采用kd树来加速核线搜索。首先，可对于右侧图像的扫描线上的每个像素提取DAISY特征，并且可使用kd树索引这些特征。对于左侧图像的对应线上的每个像素，可在右侧图像中通过kd树搜索返回前K个候选，其中在一个实施例中K=10。在处理整个扫描线之后，可通过在前K个候选内进行动态编程来进一步优化线内结果。这个扫描线优化保证了在扫描线内没有重复的对应关系。

在一个实施例中，可并行执行扫描线上的DAISY特征提取处理。在此实施例中，相比基于NCC的方法极大降低了计算复杂度。假定核线含有n个像素，基于NCC的匹配的复杂度在一个扫描线上是O(n² )，而本发明情况的实施例的复杂度是O(2n log n)。这是因为kd树构建复杂度是O(n log n)，并且kd树搜索复杂度按查询是O(log n)。

为了考虑高分辨率图像上的运行速度，可定义采样步骤s=(1,2,...)或左侧图像的扫描线，对于参考图像的对应线中的每个像素保持搜索继续。例如，s=2意味着可仅对于左侧图像的扫描线中的每两个像素找到对应关系。当深度映射准备好时，可过滤掉不可靠的匹配。详细地说，第一，可过滤其中视线之间的角度落在范围5°-45°之外的匹配。第二，在一个实施例中，可过滤其中DAISY特征的互相关小于某一阈限（诸如α=0.8）的匹配。第三，如果可选对象轮廓可用，则可使用对象轮廓进一步过滤不必要的匹配。

在块212的束优化具有两个主要阶段：轨迹优化和方位细化。第一，显示轨迹的数学定义。给定n个图像，假定x₁ ^k是第一图像中的像素，它匹配到第二图像中的像素x₂ ^k，并且进一步地，x₂ ^k匹配到第三图像中的x₃ ^k，以此类推。匹配集合t_k={x₁ ^k,x₂ ^k,x₃ ^k,...}被称为轨迹，其应该对应于同一3D点。在本发明的实施例中，每个轨迹必须含有来自至少β个视图(其中在一个实施例中β=3)的像素。这个约束可确保轨迹的可靠性。

所有可能的轨迹都可按如下方式收集。开始于第0图像，给定这个图像中的像素，连接的匹配像素可递归地在所有其它n-1个图像中遍历。在此过程期间，每个像素当它已经由轨迹收集时都可用标志来标记。这个标志可避免冗余遍历。所有像素都可在第0个图像上并行循环。当这个处理对于第0个图像完成时，可在左侧图像中的未标记像素上重复递归遍历过程。

当构建轨迹时，可优化它们中的每个，以得到初始3D点云。由于一些轨迹可含有错误匹配，因此直接三角测量将引入离群值。在一个实施例中，具有超过阈限γ的投影误差的视图可被惩罚(在一个实施例中γ=2个像素)，并且第k个轨迹t_k的目标函数可定义如下：

，

其中x_i ^k 是来自第i个视图的像素，p_i ^k 是第i个视图的投影矩阵，

是轨迹的估计3D点，并且w(x_i ^k)是惩罚权重，定义如下：

。

在一个实施例中，可用众所周知的Levenberg-Marquardt算法最小化目标。当完成该优化时，可对于该号合格视图即

检查每个轨迹。如果

，则轨迹t_k是可靠的。然后可根据可靠轨迹创建初始3D点云。

尽管初始3D点云可靠，但存在两个问题。第一，点方位仍不十分准确，原因在于立体匹配没有子像素级准确度。另外，点云没有法线。第二阶段着重于点方位细化和法线估计的问题。

给定两个视图P₁=K₁[I,0]和P₂=K₂[R,t]的3D点X和投影矩阵，点X及其法线n形成平面π : n^TX+d=0，其中d可解释为从摄像机1的光学中心到该平面的距离。这个平面被称为表面在点X的切面。一个属性是这个平面引起单应性：

。

因此，可经由单应性映射消除矩形窗口匹配的失真。给定视图的3D点和对应的可靠轨迹，可基于单应性映射计算该轨迹的总照片一致性如下：

。

其中DF_i(x)是指在视图i中像素x处的DAISY特征，并且H_ij(x;n,d)是从视图I到视图j的单应性，具有参数n和d。

最小化E_k 得出点方位的细化和点法线的准确估计。实际上，该最小化受如下两项约束：(1)重新投影点应该在原始像素的边界框中；(2)法线n与视线

(O_i是中心摄像机i)之间的角度应该小于60°以避免剪切效应。因此，目标被定义为：

，

其中

是像素x_i的重新投影点。

返回到图2，在完成块210和212的处理步骤之后，可在块214在去噪/定向传播处理中重构点云。在一个实施例中，可由个性化化身生成组件112执行去噪/定向传播处理。然而，为了根据点云生成光滑表面，需要去噪214以减少重影几何表面外的点。重影几何表面外的点在相同对象重复出现的表面重构结果中是伪影。正常情况下，可应用局部迷你球滤波和非局部双边滤波。为了区分内部表面与外部表面，可估计点的法线。在一个实施例中，可使用基于平面拟合的方法、来自摄像机的定向以及切面定向。在一个实施例中，一旦优化的3D点云可用，就可使用隐式拟合函数（诸如径向基函数、泊松方程、图割等）生成水光网格。去噪/定向处理214产生点云/网格{p,n,f}。

去噪/定向传播处理214的另外细节如下。为了根据点云生成平滑表面，需要几何处理，原因在于点云可含有噪声或离群值，并且生成的网格可能不平滑。该噪声可来自多个方面：(1)传感器的物理限制导致所获取数据集中的噪声，诸如量化限制和对象运动伪影(特别对于活的对象（诸如人或动物）)。(2)多次反射可产生表面外的点(离群点)。(3)由于扫描路径中的阻塞、临界反射和约束或传感器分辨率的限制可发生表面欠采样。(4)三角测量算法在丰富纹理区域可产生用于冗余扫描/拍照的重影几何图形。本发明的实施例提供了至少两种点云去噪模块。

第一种点云去噪模块被称为局部迷你球滤波。距由其k个最近邻居构建的群集比较远的点有可能是离群值。这种意见引起迷你球滤波。对于每个点p，考虑在p的最近邻居(即N_p )周围的最小包围球体S。S可被看作k个最近邻居群集的近似。将p到S中心的距离d与球的直径相比较得出p的似然性的度量是离群值。因而，迷你球标准可定义为：

。

通过k的归一化补偿直径随着在对象表面的k个邻居(通常k≥10)的数量增大的增大。图14例证了迷你球滤波的概念。

在一个实施例中，按如下方式进行迷你球滤波。首先，计算每个点p_i 的χ (p_i)，并且还计算{ χ (p_i)}的均值μ和方差σ。接下来，滤出其χ (p_i)>3 σ的任何点p_i 。在一个实施例中，可使用快速k最近邻居搜索的实现。在一个实施例中，在点云处理中，可使用八叉树或专用线性搜索树来代替kd树，原因在于在一些情况下，当返回k≥10个结果时，kd树工作不良(效率低又不准确)。本发明的至少一个实施例采用专用线性搜索树、GL树进行该处理。

第二种点云去噪模块被称为非局部双边滤波。局部滤波器可移除离群值，离群值是远离表面定位的样本。另一种类型噪声是高频噪声，其是离表面非常近的重影或噪声点。高频噪声使用非局部双边滤波来移除。给定像素p及其邻域N(p)，它被定义为：

，

其中W_c(p,u)测量p与u之间的靠近度，并且W_s(p,u)测量p与u之间的非局部类似度。在我们的点云处理中，W_c(p,u)被定义为顶点p与u之间的距离，而W_s(p,u)被定义为N(p)与N(u)之间的Haussdorff距离。

在一个实施例中，可执行点云法线估计。最广为人知的法线估计算法在“Surface Reconstruction from Unorganized Points” (由H. Hoppe, T. DeRose, T. Duchamp, J. McDonald, 和W. Stuetzle所著, Computer Graphics (SIG GRAPH), Vo.26, pp.19-26, 1992)中公开了。该方法首先利用方差分析根据p的邻居点的采集（collection）来估计切面，法向量与局部切面相关联。

。

该法线作为u_i 给出，特征向量与协方差矩阵C的最小特征值相关联。注意，通过拟合平面计算的法线不定向。需要一种算法来一致地定向这些法线。如果获取过程已知，即，从表面点到摄像机的方向c_i 已知。法线可定向如下：

。

注意，n_i 仅是估计，其中平滑度由邻域大小k控制。方向c_i 在某一复杂表面也可能出错。

返回图2，用重构的点云、法线和网格{p,n,m}，可执行无缝纹理映射/图像混合216以生成具照片真实感的浏览效果。在一个实施例中，纹理映射/图像混合处理可由个性化化身生成组件112执行。在一个实施例中，存在两个阶段：用于优化纹理马赛克的马尔可夫随机场(MRF)，以及用于颜色调整的局部辐射测量纠正（radiometer correction）。MRF框架的能量函数可由两项构成：视觉细节质量和颜色连续性。颜色纠正的主要目的是计算片段Vi=TijVj之间的变换矩阵，其中V描绘片段i的平均亮度，并且Tij表示变换矩阵。纹理映射/图像混合处理216产生斑块/颜色Vi，Ti->j。

纹理映射/图像混合处理216的另外细节如下。本发明的实施例包括用于基于图像的3D模型的通用纹理映射框架。该框架包括5个步骤，如图15所示。输入是3D模型M 1504，其包括m个脸部，它们表示为F=f₁, … ,f_m ，以及n个校准的图像I₁,...,I_n 1502。该框架的几何部分包括图像到斑块指配块1506和斑块优化块1508。该框架的辐射测量部分包括颜色纠正块1510和图像混合块1512。在图像到斑块指配1506，可用校准矩阵P₁,...,P_n 来确定图像与3D模型之间的关系。在将3D点投影到2D图像之前，有必要定义来自每个摄像机的3D模型中的可视脸部。在一个实施例中，在斑块优化1508可使用基于凸包的有效隐藏点移除过程。每个脸部的中心点被用作该过程的输入以确定每个脸部的可视性。然后，可视的3D脸部可被投影到具有P_i 的图像上。对于辐射测量部分，可在块1510计算邻近脸部上的每个可视图像之间的色差，其将用在如下步骤中。

图像与斑块之间的关系已知，网格的每个脸部都可被指配给其中一个输入视图（在其中它是可视的）。标记过程是要找到I₁,...,I_m 的最佳集合(标记向量L={l₁, … ,l_m})，其能够实现相邻脸部之间的最小边缘色差和最佳视觉质量。图像混合1512补偿强度差和其它不对齐，并且颜色纠正阶段加亮了不同纹理片段之间的可视缝隙。纹理化身生成1514将纹理片段组装到单个矩形图像中，其改进了纹理渲染效率并帮助输出可移植3D格式。当渲染来自混合图像的视图时，存储3D模型的所有源图像在处理时间和存储器方面具有大成本。纹理映射框架的结果包括加纹理的模型1516。加纹理的模型1516被用户用于可视化和交互，并存储在3D格式化模型中。

图16和17是例证根据本发明实施例根据多视图图像进行3D脸部构建的示例图像。在图16的步骤1，在一个实施例中，可对用户的脸部周围拍近似30张照片。这些图像之一被显示为在图17左下角的真实照片。在图16的步骤2，可恢复摄像机参数，并且同时可获得稀疏点云(如上面参考立体匹配210所讨论的)。稀疏点云和摄像机恢复表示为稀疏点云和摄像机恢复图像（其作为在图17中从真实照片顺时针转的下一图像）。在图16的步骤3，在多视图立体处理期间，可生成稠密点云和网格(如上面参考立体匹配210所讨论的)。这表示为向形变模型图像对齐的稀疏点（其作为图17中顺时针继续的下一图像）。在步骤4，来自该图像的用户的脸部可与形变模型拟合(如上面参考稠密匹配和束优化212所讨论的)。这表示为图17中的顺时针继续的拟合形变模型图像。在步骤5，稠密网格可被投影到形变模型上(如上面参考稠密匹配和束优化212所讨论的)。这表示为在图17中顺时针继续的重构稠密网格图像。另外，在步骤5，可细化网格以生成细化的网格图像，如在图17中继续顺时针的细化网格图像中所示(如上面参考去噪/定向传播214所讨论的)。最后，在步骤6，可对于每个脸部混合来自多个图像的纹理(如上面参考纹理映射/图像混合216所讨论的)。最后结果示例图像表示为在图17中真实照片右侧的纹理映射图像。

返回图2，处理块202-206和块210-216的结果包括一组化身参数208。化身参数然后可与通用3D脸部模型104组合以产生个性化面部组件106。个性化面部组件106包括对于用户的脸部个性化的3D形变模型。此个性化3D形变模型可输入到用户接口应用220以便显示给用户。用户接口应用可接受用户输入以改变、操控和/或增强用户图像的所选特征。在一个实施例中，由用户输入所指导的每个改变都可实时导致个性化面部组件218的重新计算，以便显示给用户。因此，本发明实施例可提供高级HCI交互。本发明实施例允许用户交互地控制：改变在个性化3D形变模型中表示的所选个体面部特征，实时重新生成包含改变的个体面部特征的个性化3D形变模型，并向用户显示重新生成的个性化3D形变模型。

图18例证了处理系统1800的实施例的框图。在各种实施例中，系统1800的一个或多个组件可在能够执行本文参考本发明一些实施例讨论的一个或多个操作的各种电子计算装置中提供。例如，处理系统1800的一个或多个组件可用于执行参考图1-17讨论的操作，例如通过根据本文讨论的操作来处理指令、执行子例程等。还有，本文(例如参考图18和/或19)讨论的各种存储装置可用于存储数据、操作结果等。在一个实施例中，通过网络1803(例如经由网络接口装置1830和/或1930)接收的数据(诸如来自摄像机102的2D图像和通用3D脸部模型104)可存储在存在于处理器1802(和/或图19的1902)中的高速缓存(例如在一个实施例中是LI高速缓存)中。根据本发明的各种实施例，这些操作然后可应用本文讨论的操作。

更具体地说，处理系统1800可包含经由互连网络1804通信的一个或多个处理单元1802或处理器。因此，在一些实施例中，本文讨论的各种操作可由处理器执行。此外，处理器1802可包含通用处理器、（处理通过计算机网络1803传递的数据的）网络处理器，或其它类型处理器(包含缩减指令集计算机(RISC)处理器或复杂指令集计算机(CISC))。此外，处理器702可具有单核设计或多核设计。具有多核设计的处理器1802可在同一集成电路(IC)小片（die）上集成不同类型的处理器核。还有，具有多核设计的处理器1802可实现为对称多处理器或非对称多处理器。此外，参考图1-17讨论的操作可由系统1800的一个或多个组件执行。在一个实施例中，处理器(诸如处理器1 1802-1)可包括扩增现实组件100和/或用户接口应用220（其作为硬连线逻辑(例如电路)或微代码）。在一个实施例中，图18中示出的多个组件可包含在单个集成电路（例如片上系统(SOC)）上。

芯片集1806也可与互连网络1804通信。芯片集1806可包含图形和存储器控制集线器(GMCH)1808。GMCH 1808可包含与存储器1812通信的存储器控制器1810。存储器1812可存储诸如来自摄像机102的2D图像、通用3D脸部模型104和个性化面部组件106等数据。该数据可包含由处理器1802或包含在处理系统1800中的任何其它装置执行的指令序列。而且，存储器1812可存储一个或多个程序，诸如扩增现实组件100、对应于可执行程序（executables）、映射的指令等。该数据(包含指令、图像、脸部模型和暂时存储阵列)的相同或至少一部分可存储在盘驱动器1828和/或处理器1802内的一个或多个高速缓存中。在本发明的一个实施例中，存储器1812可包含一个或多个易失性存储装置(或存储器装置)，诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其它类型存储装置。也可利用非易失性存储器，诸如硬盘。附加装置也可经由互连网络1804（诸如多个处理器和/或多个系统存储器）通信。

GMCH 1808还可包含与显示器1816通信的图形接口1814。在本发明的一个实施例中，图形接口1814可经由加速图形端口(AGP)与显示器1816通信。在本发明的实施例中，显示器1816可以是例如通过信号转换器与图形接口1814通信的平板显示器，该信号转换器将存储在存储装置（诸如视频存储器或系统存储器）中的图像的数字表示变换成由显示器1816翻译和显示的显示信号。由接口1814产生的显示信号在由显示器1816翻译并随后显示在显示器1816上之前可通过各种控制装置。在一个实施例中，由扩增现实组件100处理的2D图像、3D脸部模型和个性化面部组件可在显示器上向用户显示。

集线器接口1818可允许GMCH 1808和输入/输出(I/O)控制集线器(ICH)1820通信。ICH 1820可向与处理系统1800通信的I/O装置提供接口。ICH 1820可通过外围桥(或控制器)1824（诸如外围组件互连(PCI)桥、通用串行总线(USB)控制器或其它类型外围桥或控制器）与链路1822通信。桥1824可在处理器1802与外围装置之间提供数据路径。可利用其它类型拓扑。还有，多个总线可与ICH 1820通信，例如通过多个桥或控制器。此外，在本发明的各种实施例中，与ICH 1820通信的其它外围设备可包含集成驱动电子部件(IDE)或小型计算机系统接口(SCSI)硬驱、一个或多个USB端口、键盘、鼠标、一个或多个并行端口、一个或多个串行端口、一个或多个软盘驱动器、数字输出支持(例如数字视频接口(DVI))或其它装置。

链路1822可与音频装置1826、一个或多个盘驱动器1828以及网络接口装置1830通信，网络接口装置1830可与计算机网络1803(诸如例如因特网)通信。在一个实施例中，装置1830可以是能够进行有线通信或无线通信的网络接口控制器(NIC)。其它装置可经由链路1822通信。还有，在本发明的一些实施例中，各种组件(诸如网络接口装置1830)可与GMCH 1808通信。此外，可组合处理器1802、GMCH 1808和/或图形接口1814以形成单个芯片。在一个实施例中，可从计算机网络1803接收2D图像102、3D脸部模型104和/或扩增现实组件100。在一个实施例中，扩增现实组件可以是由处理器1802执行的网络浏览器的插件。

而且，处理系统1800可包含易失性存储器(或存储装置)和/或非易失性存储器(或存储装置)。例如，非易失性存储器可包含如下项中的一项或多项：只读存储器(ROM)、可编程ROM (PROM)、可擦除PROM (EPROM)、电EPROM (EEPROM)、盘驱动器(例如1828)、软盘、压缩盘ROM (CD-ROM)、数字通用盘(DVD)、闪存、磁光盘或能够存储电子数据(例如包含指令)的其它类型非易失性机器可读介质。

在一个实施例中，系统1800的组件可以点对点(PtP)配置布置，诸如参考图19所讨论的那样。例如，处理器、存储器和/或输入/输出装置可通过数个点对点接口互连。

更具体地说，图19例证了根据本发明实施例以点对点(PtP)配置布置的处理系统1900。具体地说，图19示出了其中处理器、存储器和输入/输出装置通过数个点对点接口互连的系统。参考图1-17讨论的操作可由系统1900的一个或多个组件执行。

如图19中所例证的，系统1900可包含多个处理器，为了简洁起见，仅示出了其中两个处理器1902和1904。处理器1902和1904各可包含本地存储器控制器集线器(MCH) 1906和1908(其在一些实施例中可与图18的GMCH 1908相同或类似)以与存储器1910和1912耦合。存储器1910和/或1912可存储各种数据，诸如参考图18的存储器1812讨论的那些。

处理器1902和1904可以是任何适当处理器，诸如参考图18的处理器802讨论的那些。处理器1902和1904可经由点对点(PtP)接口1914分别使用PtP接口电路1916和1918交换数据。处理器1902和1904各可经由单独PtP接口1922和1924使用点对点接口电路1926、1928、1930和1932与芯片集1920交换数据。芯片集1920还可使用PtP接口电路1937经由高性能图形接口1936与高性能图形电路1934交换数据。

可通过利用处理器1902和1904来提供本发明的至少一个实施例。例如，处理器1902和/或1904可执行图1-17的一个或多个操作。然而，本发明的其它实施例可存在于图19的系统1900内的其它电路、逻辑单元或装置中。而且，本发明的其它实施例可分布在图19中例证的多个电路、逻辑单元或装置各处。

可使用PtP接口电路1941将芯片集1920耦合到链路1940。链路1940可具有耦合到它的一个或多个装置，诸如桥1942和/或I/O装置1943。经由链路1944，桥1943可耦合到其它装置，诸如键盘/鼠标1945、参考图18讨论的网络接口装置1930(诸如可耦合到计算机网络1803的调制解调器、网络接口卡(NIC)等)、音频I/O装置1947和/或数据存储装置1948。在一个实施例中，数据存储装置1948可存储可由处理器1902和/或1904执行的扩增现实组件代码100。

在本发明的各种实施例中，例如本文参考图1-17讨论的操作可实现为硬件(例如逻辑电路)、软件(例如包含控制处理器（诸如参考图18和19讨论的处理器）的操作的微代码)、固件或它们的组合，其可被提供为计算机程序产品，例如包含其上存储有用于对计算机(例如计算装置的处理器或其它逻辑)进行编程以执行本文讨论的操作的指令(或软件程序)的有形机器可读或机器可读介质。机器可读介质可包含诸如本文论述的那些存储装置。

说明书中提到“一个实施例”或“实施例”是指结合该实施例所描述的特定特征、结构或特性可包含在至少一个实现中。说明书中各个地方出现的短语“在一个实施例中”可以全指同一实施例或者可以不全指同一实施例。

还有，在说明书和权利要求书中，可使用术语“耦合”和“连接”连同它们的派生词。在本发明的一些实施例中，“连接”可用于指示两个或更多单元彼此直接物理接触或电接触。“耦合”可以是指两个或更多单元直接物理接触或电接触。然而，“耦合”也可以是指两个或更多单元可以彼此不直接接触，但是仍可彼此合作或交互。

另外，这种计算机可读介质可作为计算机程序产品下载，其中该程序可通过数据信号经由通信链路(例如总线、调制解调器或网络连接)从远程计算机(例如服务器)传到发出请求的计算机(例如客户端)。

因而，尽管本发明的实施例已经用对结构特征和/或方法动作特定的语言描述了，但要理解，所要求权利的主题可不限于所描述的特定特征或动作。而是，特定特征和动作作为实现所要求权利的主题的样本形式来公开。

Claims

1. 一种生成用户的脸部的个性化3D形变模型的方法，所述方法包括：

通过摄像机捕获场景的至少一个2D图像；

在所述至少一个2D图像中检测所述用户的脸部；

在所述至少一个2D图像中检测所述用户的脸部的2D地标点；

将每一个所述2D地标点配准到通用3D脸部模型；以及

至少部分基于配准到所述通用3D脸部模型的2D地标点来实时生成表示映射到所述通用3D脸部模型的所述用户的脸部的个性化面部组件，以形成所述个性化3D形变模型。

2. 如权利要求1所述的方法，还包括：向所述用户显示所述个性化3D形变模型。

3. 如权利要求2所述的方法，还包括：允许所述用户交互地控制：改变在所述个性化3D形变模型中表示的所选个体面部特征，实时重新生成包含改变的个体面部特征的个性化3D形变模型，以及向所述用户显示重新生成的个性化3D形变模型。

4. 如权利要求2所述的方法，还包括：对于作为从所述摄像机捕获的直播视频帧的2D图像序列，实时重复所述捕获、检测所述用户的脸部、检测所述2D地标点、配准和生成步骤，并向所述用户显示接连生成的个性化3D形变模型。

5. 一种生成表示用户的脸部的个性化3D形变模型的系统，所述系统包括：

2D地标点检测组件，用于接受来自摄像机的至少一个2D图像，以及检测所述用户的脸部在所述至少一个2D图像中的2D地标点，其中所述至少一个2D图像包含所述用户的脸部的表示；

3D面部部分特征化组件，用于接受通用3D脸部模型，并便于所述用户与已分割3D脸部区域交互；

耦合到所述2D地标点检测组件和所述3D面部部分特征化组件的3D地标点配准组件，其用于接受所述通用3D脸部模型和所述2D地标点、将每一个所述2D地标点配准到所述通用3D脸部模型并估计在将每一个所述2D地标点配准到所述通用3D脸部模型时的重新投射误差；以及

耦合到所述2D地标点检测组件和所述3D地标点配准组件的个性化化身生成组件，其用于接受来自所述摄像机的至少一个2D图像、配准到所述通用3D脸部模型的所述一个或多个2D地标点和所述重新投射误差，并实时生成表示映射到所述3D个性化形变模型的所述用户的脸部的个性化面部组件。

6. 如权利要求5所述的系统，其中所述用户交互地控制：实时改变在映射到所述个性化3D形变模型的所述个性化面部组件中表示的所选个体面部特征。

7. 如权利要求5所述的系统，其中所述个性化化身生成组件包括脸部检测组件以在来自所述摄像机的所述至少一个2D图像中检测至少一个用户的脸部。

8. 如权利要求7所述的系统，其中所述脸部检测组件要检测所述至少一个2D图像中每个所检测脸部的方位和大小。

9. 如权利要求5所述的系统，其中所述2D地标点检测组件要估计在多个2D图像中检测的2D地标点的变换和对齐对应关系。

10. 如权利要求5所述的系统，其中所述2D地标点包括在所述至少一个2D图像中表示的所述用户的脸部的眼角和嘴角中至少一个的位置。

11. 如权利要求5所述的系统，其中所述个性化化身生成组件包括立体匹配组件以执行2D图像对的立体匹配，从而恢复所述用户的拍照姿势。

12. 如权利要求5所述的系统，其中所述个性化化身生成组件包括稠密匹配和束优化组件，以至少部分基于校准的摄像机参数来校正2D图像对使得核线对应于扫描线。

13. 如权利要求5所述的系统，其中所述个性化化身生成组件包括去噪/定向传播组件以平滑所述3D个性化形变模型并增强形状几何。

14. 如权利要求5所述的系统，其中所述个性化化身生成组件包括纹理映射/图像混合组件以产生表示所述用户的脸部的化身参数，从而为每个个体用户生成具照片真实感的效果。

15. 如权利要求14所述的系统，其中所述个性化化身生成组件将所述化身参数映射到所述通用3D脸部模型以生成所述个性化面部组件。

16. 如权利要求5所述的系统，还包括：用户接口应用组件，用于向所述用户显示所述个性化3D形变模型。

17. 一种生成表示用户的脸部的个性化3D形变模型的方法，所述方法包括：

接受来自摄像机的至少一个2D图像，所述至少一个2D图像包含所述用户的脸部的表示；

在所述至少一个2D图像中检测所述用户的脸部；

检测在所述至少一个2D图像中所检测的用户的脸部的2D地标点；

接受通用3D脸部模型和所述2D地标点，将每一个所述2D地标点配准到所述通用3D脸部模型，并估计在将每一个所述2D地标点配准到所述通用3D脸部模型时的重新投射误差；

执行2D图像对的立体匹配以恢复所述用户的拍照姿势；

执行稠密匹配和束优化操作以至少部分基于校准的摄像机参数校正2D图像对使得核线对应于扫描线；

执行去噪/定向传播操作以用足够数量的点云表示所述个性化3D形变模型，同时描绘具有类似外观的几何形状；

执行纹理映射/图像混合操作以产生表示所述用户的脸部的化身参数，从而在各种照明条件和视角下增强所述化身参数具照片真实感的视觉效果；

将所述化身参数映射到所述通用3D脸部模型以生成所述个性化面部组件；以及

至少部分根据所述个性化面部组件来实时生成所述个性化3D形变模型。

18. 如权利要求17所述的方法，还包括：向所述用户显示所述个性化3D形变模型。

19. 如权利要求18所述的方法，还包括：允许所述用户交互地控制：改变在所述个性化3D形变模型中表示的所选个体面部特征，实时重新生成包含改变的个体面部特征的所述个性化3D形变模型，并向所述用户显示重新生成的个性化3D形变模型。

20. 如权利要求17所述的方法，还包括：估计在多个2D图像中检测的2D地标点的变换和对齐对应关系。

21. 如权利要求17所述的方法，还包括：对于作为从所述摄像机捕获的直播视频帧的2D图像序列实时重复权利要求17的步骤，并向所述用户显示接连生成的个性化3D形变模型。

22. 机器可读指令，设置成当执行时实施如以上任一权利要求中所述的方法或实现以上任一权利要求中所述的设备。

23. 机器可读存储装置，存储如权利要求22中所述的机器可读指令。