CN106104633A

CN106104633A - 面部表情和/或交互驱动的化身装置和方法

Info

Publication number: CN106104633A
Application number: CN201480075942.4A
Authority: CN
Inventors: 杜杨洲; T-H.金; 李文龙; Q.李; 童晓峰; 王涛; M.朴; O.迪欣内; 张益民; Y.崔; 柳宇宙; W.刘; T.萨赫森; M.D.斯米利
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2016-11-09
Also published as: US20160042548A1; WO2015139231A1

Abstract

本文公开了与动画制作和渲染化身相关联的装置、方法和存储介质。在实施例中，装置可以包括面部网格追踪器以全部实时地，接收多个图像帧，在多个图像帧内检测面部的面部动作移动以及头部的头部姿势姿态，并且输出描绘所检测的面部动作移动和头部姿势姿态的多个面部运动参数和头部姿势参数，以用于化身的动画制作和渲染。可以通过基于图像帧的像素采样的嘴巴和眼睛以及头部的帧间差异来检测面部动作移动和头部姿势姿态。面部动作移动可以包括嘴巴的张开或闭合，以及眼睛的眨动。头部姿势姿态可以包括诸如倾斜、偏移、转动的头部旋转，和头部沿水平和竖直方向的移动，以及头部更靠近或者更远离相机。可以描述和/或要求保护其它的实施例。

Description

面部表情和/或交互驱动的化身装置和方法

技术领域

本公开涉及数据处理的领域。更具体地，本公开涉及化身的面部表情和/或交互驱动的动画制作（animate）和渲染。

背景技术

本文中提供的背景描述是用于一般地呈现本公开的上下文的目的。除非在本文中另外指示，否则在该章节中描述的素材不是对本申请中的权利要求来说的现有技术并且不通过包括于本章节而承认其为现有技术。

作为用户的图形表示，化身已经在虚拟世界中相当流行。然而，大多数现有化身系统是静态的，并且它们中仅几个由文本、脚本或语音驱动。一些其它化身系统使用图形互换格式（GIF）动画，其是一组顺序播放的预定义的静态化身图像。近几年来，随着计算机视觉、相机、图像处理等的发展，一些化身可以通过面部表演来驱动。然而，现有系统往往是计算密集的，需要高性能的通用和图形处理器，并且在诸如智能电话或计算平板之类的移动设备上不能很好地工作。

附图说明

通过结合随附各图的以下详细描述将容易地理解实施例。为了促进该描述，相同的参考标号指明相同的结构元素。通过示例而非限制的方式在随附各图的图形中图示了实施例。

图1图示了根据所公开的实施例的小型化身系统的框图。

图2图示了根据所公开的实施例的针对图1的面部网格追踪器的更详细框图。

图3和4图示了根据所公开的实施例的交互驱动的化身。

图5是图示了根据所公开的实施例的用于生成面部表情和交互动画制作消息的过程的流程图。

图6是图示了根据所公开的实施例的用于交错面部表情和交互动画制作的过程的流程图。

图7是图示了根据所公开的实施例的用于估计头部姿势的过程的流程图。

图8图示了根据所公开的实施例的适用于实践本公开的各种方面的示例计算机系统。

图9图示了根据所公开的实施例的具有用于实践参照图2-7描述的方法的指令的存储介质。

具体实施方式

本文公开了与动画制作和渲染化身相关联的装置、方法和存储介质。在实施例中，装置可以包括面部网格追踪器以全部实时地接收多个图像帧，通过该多个图像帧检测用户面部的面部动作移动和用户头部的头部姿势姿态，并且输出描绘所检测的面部动作移动的多个面部运动参数、以及描绘所检测的头部姿势姿态的多个头部姿势姿态参数，以用于化身的动画制作和渲染。可以基于图像帧的像素采样而通过针对面部的嘴巴和眼睛以及头部的帧间差异来检测面部动作移动和头部姿势姿态。

在实施例中，面部动作移动可以包括嘴巴的张开或闭合，以及眼睛的眨动，并且多个面部运动参数可以包括描绘嘴巴的张开或闭合以及眼睛的眨动的参数。头部姿势姿态可以包括头部的倾斜、偏移、转动，头部的水平和竖直移动，以及头部的距离改变（变得更靠近或者更远离捕获图像帧的相机），并且多个头部姿势参数可以包括描绘头部的倾斜、偏移、转动、水平/竖直移动和距离改变的参数。

在实施例中，装置还可以包括化身动画制作引擎，其与面部网格追踪器耦合以接收由面部网格追踪器输出的多个面部运动参数，并且驱动化身模型以动画制作化身，从而通过多个预定义的形状的混合而在化身上复制用户的面部表情。另外，装置可以包括化身渲染引擎，其与化身动画制作引擎耦合以绘制如由化身动画制作引擎所动画制作的化身。

在以下详细描述中，参照形成其部分的附图，其中相同标号自始至终指明相同部分，并且其中通过例证的方式而示出可以实践的实施例。要理解到，可以利用其它实施例，并且可以做出结构或逻辑改变，而不脱离本公开的范围。因此，不应以限制性含义理解以下详细描述，并且实施例的范围由随附权利要求及其等价物所限定。

在随附描述中公开本公开的方面。可以设想到本公开的替换实施例及其等价物而不脱离本公开的精神或范围。应当指出，在附图中由相同参考标号指示下文公开的相同元素。

可以以最有助于理解所要求保护的主题的方式将各种操作描述为多个相继的分立动作或操作。然而，描述的次序不应当被解释为暗示这些操作必然是依赖于次序的。特别地，可以不以呈现次序而执行这些操作。可以以与所描述的实施例不同的次序而执行所描述的操作。在附加实施例中，可以执行各种附加操作和/或可以省略所描述的操作。

出于本公开的目的，短语“A和/或B”意指（A）、（B）或者（A和B）。出于本公开的目的，短语“A、B和/或C”意指（A）、（B）、（C）、（A和B）、（A和C）、（B和C）或者（A、B和C）。

描述可以使用短语“在一实施例中”或者“在实施例中”，其各自可以是指相同或不同实施例中的一个或多个。此外，如关于本公开的实施例所使用的术语“包含”、“包括”、“具有”等是同义词。

如本文中所使用，术语“模块”可以是指执行一个或多个软件或固件程序的专用集成电路（ASIC）、电子电路、处理器（共享、专用或分组）和/或存储器（共享、专用或分组）、组合逻辑电路、和/或提供所述功能性的其它适当组件、作为它们的部分或者包括它们。

现在参照图1，其中示出了根据所公开的实施例的小型化身系统。如所图示，小型化身系统100可以包括面部网格追踪器102、化身动画制作引擎104和化身渲染引擎106，它们如所图示的那样彼此耦合。面部网格追踪器102可以被配置成全部实时地例如从诸如相机（未示出）之类的图像源接收多个图像帧，在多个图像帧内检测用户面部的面部动作移动和/或用户头部的头部姿势姿态，并且输出描绘所检测的面部动作移动（例如眼睛和/或嘴巴移动）的多个面部运动参数、以及描绘所检测的头部姿势姿态（诸如头部旋转、移动和/或变得更靠近或者更远离相机）的头部姿势姿态参数。化身动画制作引擎104可以被配置成接收由面部网格追踪器102输出的多个面部运动参数，并且驱动化身模型以动画制作化身，从而在化身上复制用户的面部表情和/或头部移动。化身渲染引擎106可以被配置成绘制如由化身动画制作引擎104所动画制作的化身。

在实施例中，面部网格追踪器102可以至少包括头部姿势、嘴巴张开和网格追踪功能块，其足够精确而又在其所要求的处理能力方面可扩展，从而使得小型化身系统100适用于由各种各样的移动计算设备托管，诸如智能电话和/或计算平板。附加地，在实施例中，通过多个预定义的形状的混合，化身动画制作引擎104可以在化身上复制用户的面部表情，从而进一步使得小型化身系统100适用于由各种各样的移动计算设备所托管。

在实施例中，面部网格追踪器102可以被配置成生成并且输出具有描绘所检测的面部动作移动的面部运动参数以及描绘头部姿势姿态的头部姿势姿态参数的动画制作消息108以用于化身动画制作引擎104。在实施例中，面部网格追踪器102和化身动画制作引擎104还可以被配置成协作以支持用户交互驱动的化身动画制作，其中可以动画制作与用户交互（例如挥动姿态）对应的所录（canned）表情（例如伸出舌头）来代替所检测的面部表情和/或头部姿势。类似地，面部网格追踪器102可以被配置成检测、生成并且输出动画制作消息108，其具有关于用户交互的信息，例如开始时段、保持时段和结束时段，和/或对应的所录表情。

在实施例中，面部网格追踪器102可以被配置成通过使用3D面部动作模型以及使用3D面部形状模型预构建的用户的3D中性面部形状来生成用户的归一化头部姿势。可以通过3D面部数据库的机器学习而预构建3D面部动作模型和3D面部形状模型二者。

尽管小型化身系统100被设计成特别地适用于在诸如智能电话、平板手机、计算平板、膝上型计算机或电子阅读器之类的移动设备上操作，但是本公开不做如此限制。设想到，小型化身系统100也可以操作在具有比典型的移动设备更多的计算能力的计算设备上，诸如桌上型计算机、游戏控制台、机顶盒或者计算机服务器。将在下文相继地更详细描述小型化身系统100的前述以及其它方面。

图2图示了根据所公开的实施例的针对图1的面部网格追踪器的更详细框图。如所图示，在实施例中，面部网格追踪器102可以包括面部检测功能块202、标志检测功能块204、初始面部网格拟合功能块206、面部表情估计功能块208、头部姿势追踪功能块210、嘴巴张开估计功能块212、面部网格追踪功能块214、追踪确认功能块216、眼睛眨动检测和嘴巴校正功能块218、面部网格适配功能块220和混合形状映射功能块222，它们如所示出的那样彼此耦合。功能块202-222可以被实现在例如ASIC或者利用适当逻辑编程的可编程器件这样的硬件、要由通用和/或图形处理器执行的软件、或者它们的组合中。

在实施例中，面部检测功能块202可以被配置成通过所接收的多个图像帧中的一个或多个的窗口扫描来检测面部。在每一个窗口位置处，可以提取改进普查（census）变换（MCT）特征，并且可以应用层叠分类器以寻找面部。标志检测功能块204可以被配置成检测面部上的标志点，例如眼睛中心、鼻尖、嘴角和面部轮廓点。在给定面部矩形的情况下，可以根据平均面部形状而给定初始标志位置。在此之后，可以通过显式形状递归（ESR）方法而迭代地找到准确的标志位置。

在实施例中，初始面部网格拟合功能块206可以被配置成至少部分地基于在面部上所检测的多个标志点来初始化面部网格的3D姿势。可以使用Candide3线框头部模型。可以使用POSIT算法来估计头部模型的旋转角度、平移向量和缩放因子。作为结果，图像平面上的3D网格的投影可以与2D标志匹配。面部表情估计功能块208可以被配置成至少部分地基于在面部上所检测的多个标志点来初始化多个面部运动参数。可以由面部动作参数（FAU）控制Candide3头部模型，诸如嘴巴宽度、嘴巴高度、鼻子褶皱、眼睛张开。可以通过最小平方拟合来估计这些FAU参数。

头部姿势追踪功能块210可以被配置成计算用户头部的旋转角度，包括倾斜、偏移和/或转动，以及沿水平、竖直方向的平移距离，以及更靠近或者更远离相机。计算可以是基于多个图像帧的子采样像素的子集而应用动态模板匹配和重新登记。嘴巴张开估计功能块212可以被配置成计算嘴巴的上嘴唇和下嘴唇的张开距离。可以使用样本数据库来训练嘴巴几何形状（张开/闭合）与外观的相关性。另外，可以基于多个图像帧中的当前图像帧的子采样像素的子集应用FERN递归来估计嘴巴张开距离。

面部网格追踪功能块214可以被配置成基于多个图像帧的子采样像素的子集来调节面部网格的位置、取向或变形以维持面部的继续覆盖以及由面部网格对面部移动的反映。可以通过受制于Candide3模型中的预定义的FAU参数的连续的图像帧的图像对准而执行调节。头部姿势追踪功能块210的结果和嘴巴张开可以充当对参数优化的软约束。追踪确认功能块216可以被配置成监控面部网格追踪状态，以确定是否有必要重新定位面部。追踪确认功能块216可以应用一个或多个面部区或眼睛区分类器以做出确定。如果追踪平稳地运行，则操作可以继续下一帧追踪，否则操作可以返回到面部检测功能块202，以使得针对当前帧重新定位面部。

眼睛眨动检测和嘴巴校正功能块218可以被配置成检测眼睛眨动状态和嘴巴形状。可以通过光流分析来检测眼睛眨动，而可以通过针对嘴巴的帧间直方图差异的检测来估计嘴巴形状/移动。作为整个面部网格追踪的细化，眼睛眨动检测和嘴巴校正功能块216可以得出更加精确的眼睛眨动估计，并且增强嘴巴移动灵敏度。面部网格适配功能块220可以被配置成根据所导出的面部动作单元重构面部网格，并且对面部网格之下的当前图像帧重新采样以设立下一图像帧的处理。形状映射功能块222可以被配置成将面部动作单元转换成用于化身动画制作的混合形状系数。由于面部追踪可以使用具有化身渲染侧的不同网格几何形状和动画制作结构，所以形状映射功能块220还可以被配置成执行动画制作系数转换和面部模型重新瞄准以用于化身动画制作引擎104。在实施例中，形状映射功能块220可以将数个面部追踪参数输出为混合形状权重，以用于化身动画制作引擎104。这些面部追踪参数可以包括但不限于“下嘴唇向下”（LLIPD）、“两个嘴唇加宽”（BLIPW）、“两个嘴唇向上”（BLIPU）、“鼻子褶皱”（NOSEW）和“眉毛向下”（BROWD）。

如果头部姿势追踪功能块210估计了头部姿势角度并且嘴巴张开估计功能块212估计了嘴巴张开距离，那么其结果可以充当对面部网格追踪功能块214所执行的数值优化的软约束。该布置可以提供面部移动参数的更稳定估计，并且潜在地防止视觉追踪中的漂移问题，从而导致较少计算要求，并且更适用于操作在典型地具有比桌上型设备或服务器更少的计算资源/能力的移动设备上。

附加地，用以确认面部网格覆盖面部曲面的追踪确认功能块216的采用提供了视觉追踪中的实时故障恢复，再次使得小型化身系统100特别地适用于在各种各样的移动设备上操作。在追踪确认之后的操作于眼睛和嘴巴区域周围的更多粒状重新采样像素上的眼睛眨动检测和嘴巴校正功能块218的采用可以改善眼睛眨动检测精确度并且增强嘴巴移动灵敏度。

另外，在头部姿势追踪功能块210、嘴巴张开估计212和面部网格追踪功能块214操作于子采样像素的子集上的情况下，这些功能块的工作量可以更加可扩展，因为工作量可以基本上与所采样的像素数目成比例。因而，考虑到可用的计算能力，可以通过调节像素采样的密度来调节工作量。在实施例中，可以针对面部检测功能块202、标志检测204、追踪确认功能块216和眼睛眨动检测和嘴巴218而运用类似的策略。在执行对应图像分析之前，可以首先将感兴趣区调整大小成较小尺寸。作为结果，可以使这些功能块202-204和216-218的工作量基本上与图像帧大小无关，并且可以使其在可用计算资源/能力方面更加可扩展，从而使得便携式化身系统100更加适用于移动设备。

返回参照图1，如早前所述，化身动画制作引擎104可以被配置成采用形状混合而动画制作化身，以加速其操作。在实施例中，可以在面部追踪和动画制作之前首先预构建具有中性表情和一些典型表情的模型，诸如嘴巴张开、嘴巴微笑、眉毛向上和眉毛向下、眨动等。可以针对各种追踪器102性能和目标移动设备系统要求而决定或选择混合形状。在操作期间，如早前所述，面部网格追踪器202可以输出混合形状权重以用于化身动画制作引擎104。

在接收用于各种混合形状的混合形状权重 (α_i)之后，化身动画制作引擎104可以利用以下公式而生成所表达的面部结果：

其中B*是目标表达的面部，

B₀是具有中性表情的基本模型，并且

是基于针对具体表情的基本模型而存储顶点位置偏差的第i个混合形状。

与诸如运动传递和网格变形之类的其它面部动画制作技术相比，使用用于面部动画制作的混合形状可以具有若干优点：1）表情自定义：当创建化身模型时，可以根据化身的概念和特性来自定义表情。可以使化身模型对于用户而言更加有趣和有吸引力。2）低计算成本：计算可以被配置成与模型尺寸成比例，并且使其更适用于并行处理。3）良好可扩展性：可以使更多表情向框架中的添加更加容易。

仍旧参照图1，如早前所述，在实施例中，面部网格追踪器102可以被配置成生成并且输出具有描绘所检测的面部动作移动的面部运动参数的动画制作消息108，以用于化身动画制作引擎104。在实施例中，面部网格追踪器102和化身动画制作引擎104还可以被配置成协作以支持用户交互驱动的化身动画制作，其中可以动画制作与用户交互（例如挥动姿态）对应的所录表情（例如伸出舌头）来代替所检测的面部表情。参照图3，其中图示了与用户交互对应的伸出舌头的所录表情300的示例动画制作。类似地，面部网格追踪器102可以被配置成检测、生成并且输出具有关于用户交互的信息的动画制作消息108，例如开始时段402、保持时段404和结束时段406，如在图4中所图示，和/或对应的所录表情。

在实施例中，可以存在两种类型的动画制作消息108，面部表情动画制作消息和交互消息。面部表情消息可以用于支持面部表情驱动的化身动画制作，而交互消息可以用于支持交互事件驱动的化身动画制作，例如触摸事件驱动的化身动画制作，以用于具有触敏屏的设备。在实施例中，面部表情消息的长度可以为88个字节。前12个字节可以用于指定化身类型、版本和消息大小。其余76个字节可以用于指定面部表情的各种属性或特性。对于面部表情数据，在实施例中，前12个字节可以指定头部姿势，接下来的36个字节可以指定各种预定义的混合形状，而其余28个字节预留。在实施例中，可以压缩动画制作消息108，其中头部姿势和混合形状数据分别被量化成16位短和8位字节。

在实施例中，交互消息可以指定交互类型和持续时间信息。交互类型可以索引至要被动画制作的对应所录表情，例如但是不限于舌头伸出300、眨眼（未示出）、亲吻（未示出）等。持续时间消息可以指定开始时段402、保持时段404和结束时段406。在实施例中，开始时段402可以限定开始阶段中的帧的数目。例如，对于舌头伸出的示例，化身将在该阶段中伸出舌头。保持时段404可以限定保持当前状态的时间，而结束时段406可以限定化身应当在何时恢复回到中性表情。换言之，结束时段406可以限定从交互表情到中性面部的恢复时间。

在实施例中，所有交互事件具有相同优先级，并且所有面部表情事件具有相同优先级，而交互事件具有比面部表情事件更高的优先级。这意味着：1）交互事件不能打断其它交互事件。其将仅在当前交互事件结束之后实行。在交互事件期间，事件队列将不接受另一交互事件；2）交互事件可以在任何时间打断面部表情事件。当检测到新的交互事件时，面部网格追踪器102将在该时间帧处用交互事件替代面部表情事件。在此之后，面部表情事件将恢复实行。

如早前所述，在实施例中，化身动画制作引擎104可以采用混合形状。对于这些实施例，可以针对开始、保持和结束时段402-404而动画制作表情，如下所示：

其中B_t是在一时间点处的表情，

B0和ΔB如早前所定义，

t是时间，并且

N_s、N_k和N_e是针对开始、保持和结束时段的帧数目。

现在参照图5，其中图示了根据所公开的实施例的用于生成面部表情和交互动画制作消息的过程。可以例如通过图1的早前所述面部网格追踪器102来执行用于生成面部表情和交互动画制作消息的过程500。如所示，过程可以在框502处开始，其中动画制作消息的记录可以开始。消息记录可以响应于例如用户提供开始记录指令而开始，所述指令诸如由小型化身系统100提供的用户接口中的开始记录按钮上的点击。在框504处，可以读取图像帧。在框506处，可以检测图像帧内的面部以及面部移动。

在框508处，可以进行关于是否检测到了新的交互或者在前交互事件是否保持未完成的确定。如果没有检测到新的交互，也没有任何在前交互事件保持进行，则在框510处，可以生成具有面部移动数据的面部表情消息，以用于面部表情动画制作。从框510起，过程500可以在框504处如早前所述那样继续。

在框512处，如果检测到了新的交互，则可以生成具有交互和持续时间信息的新交互消息，以促进对应所录表情的动画制作。然而，如果在前交互事件保持进行，则将不生成面部表情和交互消息，从而允许继续在前交互的对应所录表情的交互动画制作。从框512起，如果既没有接收到停止记录指令，也没有达到记录长度限制阈值，则过程500可以在框504处如早前所述那样继续。另一方面，如果要么接收到了停止记录指令要么达到了记录长度限制阈值，则过程500可以前进至框514并且终止。

图6是图示了根据所公开的实施例的用于交错面部表情和交互驱动的动画制作的过程的流程图。可以例如通过图1的早前所述化身动画制作引擎104来执行用于交错面部表情和交互驱动的动画制作的过程600。如所示，过程可以在框602处开始，其中动画制作消息的播放可以开始。消息播放可以响应于例如用户提供开始记录/播放指令而与记录同时地开始，所述指令诸如由小型化身系统100提供的用户接口中的开始记录/播放按钮上的点击。在框604处，可以读取与图像帧对应的动画制作消息并且提取其数据。

在框606处，如果所提取的数据内部具有交互事件，则执行索引所录表情的动画制作。另外，可以做出新交互事件的开始的标记。然而，如果所提取的数据内部没有交互事件，并且当前不存在针对在前交互事件的任何所录表情的未完成动画制作，则执行依照动画制作消息中的面部表情数据的面部表情的动画制作。另一方面，如果所提取的数据内部没有交互事件，但是当前存在针对在前交互事件的所录表情的未完成动画制作，则与在前交互事件对应的所录表情的动画制作继续。

从框606起，如果既没有接收到停止记录/播放指令，也没有达到消息的结尾，则过程600可以在框604处继续，如早前所述。另一方面，如果要么接收到了停止记录/播放指令要么达到了消息的结尾，则过程600可以前进至框608并且终止。

现在参照图7，其中图示了根据所公开的实施例的用于估计头部姿势的过程的流程图。如所示，用于估计头部姿势的过程700可以包括模型训练操作702、针对中性面部的3D形状重构操作704、正视图预测操作706和视觉追踪操作708。可以在通过便携式化身系统100的追踪、动画制作和渲染的操作之前离线地执行模型训练操作702，而可以通过早前所述的面部网格追踪器102来执行针对中性面部的3D形状重构操作704、正视图预测操作706和视觉追踪操作708。

如所示，模型训练操作702可以包括使用学习器714以从具有不同面部表情的大量集群的3D面部数据库（例如数百个个体，每一个具有若干典型表情）来学习3D面部形状单元模型（FSU）716和3D面部动作单元（FAU）718，并且提供关键标志点。3D FSU模型可以描述具有不同的面部形状的空间，而3D FAU模型可以描述面部组分（面部表情）的局部运动。更具体地，在实施例中，可以首先在具有中性表情的所有3D形状上执行主组分分析（PCA）。在此之后，可以计算用于每一个表情的平均形状。具有表情的平均形状与中性的平均形状之间的差异可以被视为FAU模型。在实施例中，每一个FAU可以被设计用于一个维度中的仅仅一个组分的运动。组分的示例可以包括眼睛、眉毛、鼻子、嘴巴等。因而，FAU是独立的，并且可以被合成在一起以获得复杂面部表情，例如惊讶表情可以包括嘴巴张开和眉毛向上的FAU。

在实施例中，可以在用户的登记期间执行用于中性面部的3D形状重构操作704，其中数个中性面部可以被收集并且被用于重构3D中性面部。更具体地，在实施例中，通过求解以下优化问题，描述面部形状变化的3D FSU可以用于通过2D投影与中性面部登记的B₀之间的差异的最小化而重构3D面部形状：

其中P₀是3D FSU的平均形状，

P是3D FSU的本征向量，

α是线性组合系数，并且

T_2d是从3D空间向2D图像空间的投影。

因而可以通过计算以下而构建3D形状：

。

在实施例中，可以执行正视图预测操作706以通过最小化由视觉追踪操作708提供的2D图像标志S₀与来自3D形状的2D投影之间的差异而使用在登记期间所构建的用户的3D面部形状和3D FAU模型来重构3D形状S_3d，如下所示：

其中b、R和t是刚性变换参数（缩放、旋转和平移），

Q是3DFAU模型，并且

γ是3D FAU模型的系数。

类似于用于中性面部的3D形状重构操作704，可以通过求解以下优化问题而获得解：

。

在实施例中，可以通过分离地并且迭代地更新3D FAU系数和刚性变换参数的值而求解优化问题。换言之，将优化问题分成两个子问题：

，给定b，R和t；

，给定。

在此之后，在没有3D刚性变换的情况下可以利用以下的优化而获得正视图中的标志：

其中S_2d是3D形状的2D投影，其中用于用户的FAU具有特定面部形状。

头部姿势追踪可以补足面部网格追踪。组合地，两个追踪可以彼此确认，并改善总体追踪鲁棒性。实验已经示出，所公开的便携式化身系统100对于移动设备非常高效，能够在三星盖乐世S3电话上每秒处理70个帧并且在苹果iPhone5上每秒处理110个帧。

图8图示了可以适用于用作客户端设备或服务器以实践本公开的所选方面的示例计算机系统。如所示，计算机800可以包括一个或多个处理器或处理器内核802，以及系统存储器804。出于包括权利要求的本申请的目的，术语“处理器”和“处理器内核”可以被视为同义词，除非上下文清楚地要求其它方面。附加地，计算机800可以包括大容量存储设备806（诸如磁盘、硬驱动、紧凑盘只读存储器（CD-ROM）等）、输入/输出设备808（诸如显示器、键盘、指针控制等）以及通信接口810（诸如网络接口卡、调制解调器等）。元件可以经由系统总线812耦合到彼此，系统总线812可以表示一个或多个总线。在多个总线的情况下，它们可以通过一个或多个总线桥（未示出）而桥接。

这些元件中的每一个可以执行其在现有技术中已知的常规功能。特别地，可以采用系统存储器804和大容量存储设备806来存储编程指令的永久性副本和工作副本，所述编程指令实现早前所述的与面部网格追踪器102、化身动画制作引擎104和化身渲染引擎106相关联的操作，笼统地称为计算逻辑822。可以通过（一个或多个）处理器802或者可以编译成这样的指令的高级语言（诸如例如C）所支持的汇编指令来实现各种元件。

这些元件810-812的数目、性能和/或容量可以取决于是将计算机800用作客户端设备还是服务器而变化。当用作客户端设备时，这些元件810-812的性能和/或容量可以取决于客户端设备是固定还是移动设备（比如智能电话、计算平板、超级本或膝上型电脑）而变化。否则，元件810-812的构造已知，并且因而将不做进一步描述。

如本领域技术人员将领会到，本公开可以体现为方法或计算机程序产品。因而，除了如早前所述那样体现在硬件中之外，本公开可以采取完全软件实施例（包括固件、驻留软件、微代码等）或者组合软件和硬件方面的实施例的形式，其一般地可以全部被称为“电路”、“模块”或“系统”。此外，本公开可以采取体现在任何有形或非暂时性表达介质中的计算机程序产品的形式，其具有体现在介质中的计算机可用程序代码。图9图示了可以适用于存储指令的示例计算机可读非暂时性存储介质，所述指令响应于通过装置执行指令而引起装置实践本公开的所选方面。如所示，非暂时性计算机可读存储介质902可以包括数个编程指令904。编程指令904可以被配置成使得设备（例如计算机800）能够响应于编程指令的执行而实施例如与面部网格追踪器102、化身动画制作引擎104和化身渲染引擎106相关联的各种操作。在替换实施例中，编程指令904可以代替地被部署在多个计算机可读非暂时性存储介质902上。在替换实施例中，编程指令904可以被部署在诸如信号之类的计算机可读暂时性存储介质902上。

可以利用一个或多个计算机可用或者计算机可读的介质的任何组合。计算机可用或者计算机可读的介质可以是例如但不限于电子、磁性、光学、电磁、红外或者半导体系统、装置、设备或传播介质。计算机可读介质的更具体示例（非穷举性列表）将包括以下：具有一个或多个导线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光学存储设备、诸如支持互联网或内联网的那些之类的传输介质、或者磁性存储设备。要指出，计算机可用或者计算机可读的介质可以甚至是纸张或者在其上打印程序的另一适合的介质，因为程序可以经由例如纸张或其它介质的光学扫描而被电子地捕获，然后以适合的方式被编译、解译或以其它方式处理（如果必要的话），并且然后被存储在计算机存储器中。在本文件的上下文中，计算机可用或者计算机可读的介质可以是任何介质，其可以包含、存储、传送、传播或传输程序以供指令执行系统、装置或设备所使用或者与其结合地使用。计算机可用介质可以包括具有借助其体现的计算机可用程序代码的传播数据信号，其或者在基带中或者作为载波的部分。可以使用任何适当的介质传输计算机可用程序代码，包括但不限于无线、有线、光纤线缆、RF等。

可以以一个或多个编程语言的任何组合来编写用于实施本公开的操作的计算机程序代码，包括面向对象的编程语言，诸如Java、Smalltalk、C++等，以及常规程序化编程语言，诸如“C”编程语言或者类似的编程语言。可以完全地在用户的计算机上、部分地在用户的计算机上、作为独立式软件封装、部分地在用户的计算机上并且部分地在远程计算机上、或者完全地在远程计算机或服务器上执行程序代码。在后一方案中，远程计算机可以通过任何类型的网络被连接到用户的计算机，包括局域网（LAN）或广域网（WAN），或者可以向外部计算机进行连接（例如，通过使用互联网服务提供商的互联网）。

参照根据本公开的实施例的方法、装置（系统）和计算机程序产品的流程图图示和/或框图而描述本公开。将理解到，可以通过计算机程序指令而实现流程图图示和/或框图中的每一个框，以及流程图图示和/或框图中的框的组合。这些计算机程序指令可以被提供给通用计算机、专用计算机、或者其它可编程数据处理装置的处理器以产生机器，使得经由计算机或其它可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的部件。

这些计算机程序指令也可以被存储在计算机可读介质中，其可以引导计算机或其它可编程数据处理装置以特定方式起作用，使得存储在计算机可读介质中的指令产生制造品，该制造品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的指令部件。

计算机程序指令还可以被加载到计算机或其它可编程数据处理装置中以引起一系列操作步骤在计算机或其它可编程装置上执行以便产生计算机实现的过程，使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的过程。

各图中的流程图和框图图示了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能性和操作。在这一方面，流程图或框图中的每一个框可以表示模块、代码片段或部分，其包括用于实现（一个或多个）指定逻辑功能的一个或多个可执行指令。还应当指出，在一些替换实现中，在框中指出的功能可以不按照在图中指出的次序而发生。例如，连续示出的两个框事实上可以基本上同时地执行，或者框有时候可以以颠倒的次序执行，这取决于所涉及的功能性。还将指出的是，可以通过执行指定功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合而实现框图和/或流程图图示中的每一个框以及框图和/或流程图图示中的框的组合。

本文中使用的术语仅用于描述特定实施例的目的并且不意图限制本公开。如本文中所使用，单数形式“一”、“一个”和“那个”意图也包括复数形式，除非上下文清楚地指示其它方面。还将理解到，当在本说明书中使用时，术语“包括”和/或“包含”指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其分组的存在或添加。

实施例可以被实现为计算机过程、计算系统或者制造品，诸如计算机可读介质的计算机程序产品。计算机程序产品可以是由计算机系统可读并且编码计算机程序指令以用于执行计算机过程的计算机存储介质。

以下权利要求中的所有部件或步骤加上功能元素的对应结构、材料、动作及其等价物意图包括用于与其它要求保护的元素组合地执行功能的任何结构、材料或动作，如特别地要求保护的那样。已经出于例证和描述的目的而呈现了本公开的描述，但是其不意图是穷举性的或者被限于所公开的形式中的公开内容。对于本领域技术人员来说许多修改和变形将是显而易见的，而不脱离本公开的精神和范围。选择并且描述实施例以便最佳地解释本公开的原理和实际应用，并且使得本领域其他普通技术人员能够理解如适于所设想的特定使用的针对具有各种修改的实施例的公开内容。

返回参照图8，对于一个实施例，处理器802中的至少一个可以与具有计算逻辑822的存储器（代替存储在存储器804和存储装置806上）封装在一起。对于一个实施例，处理器802中的至少一个可以与具有计算逻辑822的存储器封装在一起以形成封装中的系统（SiP）。对于一个实施例，处理器802中的至少一个可以被集成在与具有计算逻辑822的存储器相同的管芯上。对于一个实施例，处理器802中的至少一个可以与具有计算逻辑822的存储器封装在一起以形成片上系统（SoC）。对于至少一个实施例，SoC可以利用在（例如，但不限于）智能电话或计算平板中。

因而，已经描述了本公开的各种示例实施例，其包括但不限于：

示例1可以是用于渲染化身的装置。装置可以包括一个或多个处理器；以及面部网格追踪器。面部网格追踪器可以由一个或多个处理器操作以全部实时地，接收多个图像帧，通过所述多个图像帧检测用户面部的面部动作移动以及用户头部的头部姿势姿态，并且输出描绘所检测的面部动作移动的多个面部运动参数、以及描绘所检测的头部姿势姿态的多个头部姿态参数，以用于化身的动画制作和渲染。另外，面部动作移动和头部姿势姿态的检测可以包括基于图像帧的像素采样来检测面部上的嘴巴和眼睛以及头部的帧间差异。

示例2可以是示例1，其中面部动作移动可以包括嘴巴的张开或闭合，以及眼睛的眨动，并且多个面部运动参数可以包括描绘嘴巴的张开或闭合的一个或多个第一面部运动参数以及描绘眼睛的眨动的一个或多个第二面部运动参数。

示例3可以是示例1或2，其中多个图像帧可以由相机捕获，并且头部姿势姿态可以包括头部旋转、沿水平和竖直方向的移动、以及头部更靠近或者更远离相机；并且其中多个头部姿势姿态参数可以包括描绘头部旋转、头部沿水平和竖直方向的移动、以及头部更靠近或者更远离相机的头部姿势姿态参数。

示例4可以是示例1-3中任一个，其中面部网格追踪器可以包括面部检测功能块以通过多个图像帧中的一个或多个的窗口扫描检测面部；其中窗口扫描可以包括改进普查变换特征的提取以及每一个窗口位置处的层叠分类器的应用。

示例5可以是示例1-4中任一个，其中面部网格追踪器可以包括标志检测功能块以检测面部上的标志点；其中标志点的检测可以包括根据平均面部形状的面部矩形中的初始标志位置的指派，以及通过显式形状递归迭代地指派准确标志位置。

示例6可以是示例1-5中任一个，其中面部网格追踪器可以包括初始面部网格拟合功能块以至少部分地基于在面部上所检测的多个标志点而采用Candide3线框头部模型来初始化面部网格的3D姿势。

示例7可以是示例1-6中任一个，其中面部网格追踪器可以包括面部表情估计功能块以至少部分地基于在面部上所检测的多个标志点而通过最小平方拟合来初始化多个面部运动参数。

示例8可以是示例1-7中任一个，其中面部网格追踪器可以包括头部姿势追踪功能块以基于多个图像帧的子采样像素的子集而应用动态模板匹配和重新登记来计算用户头部的旋转角度。

示例9可以是示例1-8中任一个，其中面部网格追踪器可以包括嘴巴张开估计功能块以基于多个图像帧的子采样像素的子集而应用FERN递归来计算嘴巴的上嘴唇和下嘴唇的张开距离。

示例10可以是示例1-9中任一个，其中面部网格追踪功能块可以基于多个图像帧的子采样像素的子集以及连续图像帧的图像对准来调节面部网格的位置、取向或变形以便维持面部的连续覆盖以及通过面部网格对面部移动的反映。

示例11可以是示例1-10中任一个，其中面部网格追踪器可以包括追踪确认功能块以应用一个或多个面部区或眼睛区分类器而监控面部网格追踪状态，以便确定是否有必要重新定位面部。

示例12可以是示例1-11中任一个，其中面部网格追踪器可以包括嘴巴形状校正功能块以通过用于嘴巴的帧间直方图差异的检测来校正嘴巴形状。

示例13可以是示例1-12中任一个，其中面部网格追踪器可以包括眼睛眨动检测功能块以通过光流分析来估计眼睛眨动。

示例14可以是示例1-13中任一个，其中面部网格追踪器可以包括面部网格适配功能块以根据所导出的面部动作单元来重构面部网格，并且在面部网格之下重新采样当前图像帧以便设立下一图像帧的处理。

示例15可以是示例1-14中任一个，其中面部网格追踪器可以包括混合形状映射功能块以将面部动作单元转换成用于化身的动画制作的混合形状系数。

示例16可以是示例1-15中任一个，还包括化身动画制作引擎，其与面部网格追踪器耦合以接收由面部网格追踪器输出的多个面部运动参数，并且驱动化身模型以动画制作化身，从而通过多个预定义的形状的混合而在化身上复制用户的面部表情。

示例17可以是示例1-16中任一个，还包括化身渲染引擎，其与化身动画制作引擎耦合以绘制如由化身动画制作引擎所动画制作的化身。

示例18可以是示例1-17中任一个，其中装置选自智能电话、平板电话、计算平板、膝上型计算机、电子阅读器、桌上型计算机、游戏控制台、机顶盒或计算机服务器中的一个。

示例19包括一种用于渲染化身的方法。方法可以包括通过在计算设备上操作的面部网格追踪器来接收多个图像帧；由面部网格追踪器通过多个图像帧检测用户面部的面部动作移动以及用户头部的头部姿势姿态；以及通过面部网格追踪器输出描绘所检测的面部动作移动的多个面部运动参数以及描绘所检测的头部姿势姿态的多个头部姿势姿态参数。附加地，接收、检测和输出全部可以实时地执行，以用于化身的动画制作和渲染。另外，检测面部动作移动和头部姿势姿态可以包括基于图像帧的像素采样来检测面部的嘴巴和眼睛以及头部的帧间差异。

示例20可以是示例19，其中面部动作移动可以包括嘴巴的张开或闭合，以及眼睛的眨动，并且多个面部运动参数包括描绘嘴巴的张开或闭合的一个或多个第一面部运动参数以及描绘眼睛的眨动的一个或多个第二面部运动参数。

示例21可以是示例19或20，其中多个图像帧可以由相机捕获，并且头部姿势姿态可以包括头部旋转、沿水平和竖直方向的移动、以及头部更靠近或者更远离相机；并且其中多个头部姿势姿态参数可以包括描绘头部旋转、头部沿水平和竖直方向的移动、以及头部更靠近或者更远离相机的头部姿势姿态参数。

示例22可以是示例19-21中任一个，其中检测可以包括通过多个图像帧中的一个或多个的窗口扫描来检测面部；其中窗口扫描包括提取改进普查变换特征并且在每一个窗口位置处应用层叠分类器。

示例23可以是示例19-22中任一个，其中检测可以包括检测面部上的标志点；其中检测标志点可以包括根据平均面部形状指派面部矩形中的初始标志位置，并且通过显式形状递归迭代地指派准确的标志位置。

示例24可以是示例19-23中任一个，其中检测可以包括至少部分地基于在面部上所检测的多个标志点而采用Candide3线框头部模型来初始化面部网格的3D姿势。

示例25可以是示例19-24中任一个，其中检测可以包括至少部分地基于在面部上所检测的多个标志点而通过最小平方拟合来初始化多个面部运动参数。

示例26可以是示例19-25中任一个，其中检测可以包括基于多个图像帧的子采样像素的子集而应用动态模板匹配和重新登记来计算用户头部的旋转角度。

示例27可以是示例19-26中任一个，其中检测可以包括基于多个图像帧的子采样像素的子集而应用FERN递归来计算嘴巴的上嘴唇和下嘴唇的张开距离。

示例28可以是示例19-27中任一个，其中检测可以包括基于多个图像帧的子采样像素的子集以及连续图像帧的对准来调节面部网格的位置、取向或变形以便维持面部的连续覆盖以及通过面部网格对面部移动的反映。

示例29可以是示例19-28中任一个，其中检测可以包括应用一个或多个面部区或眼睛区分类器来监控面部网格追踪状态以便确定是否有必要重新定位面部。

示例30可以是示例19-29中任一个，其中检测可以包括通过用于嘴巴的帧间直方图差异的检测来校正嘴巴形状。

示例31可以是示例19-30中任一个，其中检测可以包括通过光流分析来估计眼睛眨动。

示例32可以是示例19-31中任一个，其中检测可以包括根据所导出的面部动作单元重构面部网格，以及在面部网格之下重新采样当前图像帧以便设立下一图像帧的处理。

示例33可以是示例19-32中任一个，其中检测可以包括将面部动作单元转换成混合形状系数以用于化身的动画制作。

示例34可以是示例19-33中任一个，还包括：

通过在计算设备上操作的化身动画制作引擎来接收所输出的多个面部运动参数；以及

通过化身动画制作引擎驱动化身模型以动画制作化身，从而通过形状混合来在化身上复制用户的面部表情。

示例35可以是示例19-34中任一个，还包括通过在计算设备上操作的化身渲染引擎绘制如由化身动画制作引擎所动画制作的化身。

示例36可以是一个或多个计算机可读存储介质，其包括多个指令以响应于通过计算设备对指令的执行而引起计算设备实施19-35的方法示例中的任一个。

示例37可以是用于渲染化身的装置。装置可以包括：面部网格追踪部件，其用于全部实时地接收多个图像帧，通过多个图像帧检测用户面部的面部动作移动以及用户的头部姿势姿态，并且输出描绘所检测的面部动作移动的多个面部运动参数以及多个头部姿势姿态参数，以用于化身的动画制作和渲染。另外，检测面部动作移动和头部姿势姿态可以包括基于图像帧的像素采样来检测面部的嘴巴和眼睛以及头部的帧间差异。

示例38可以是示例37，还包括化身动画制作部件，其用于接收多个面部运动参数，并且驱动化身模型以动画制作化身，从而通过形状混合而在化身上复制用户的面部表情。

示例39可以是示例38，还包括化身渲染部件以用于绘制如由化身动画制作引擎所动画制作的化身。

示例40可以是用于渲染化身的装置。装置可以包括：一个或多个处理器、面部网格追踪器和动画制作引擎。面部网格追踪器可以由一个或多个处理器操作以接收多个图像帧，第一次在多个图像帧内检测面部的面部动作移动，第一次生成记录面部动作移动的一个或多个第一动画制作消息，第二次检测在多个图像帧的接收以及多个图像帧内面部的面部动作移动的第一次检测期间用户与装置的一个或多个交互，并且第二次生成记录所检测的一个或多个用户交互的一个或多个第二动画制作消息，这些全部是实时的。另外，动画制作引擎可以与面部网格追踪器耦合，以驱动化身模型来动画制作化身，从而交错基于一个或多个第一动画制作消息的化身上的所记录的面部动作移动的复制与对应于基于一个或多个第二动画制作消息所记录的一个或多个用户交互的一个或多个所录面部表情的动画制作。

示例41可以是示例40，其中一个或多个第一动画制作消息中的每一个可以包括指定化身类型的第一多个数据字节、指定头部姿势参数的第二多个数据字节、以及指定要被混合以动画制作面部表情的多个预定义的形状的第三多个数据字节。

示例42可以是示例40或41，其中一个或多个第二动画制作消息中的每一个可以包括指定用户交互的第一多个数据位、以及指定用于动画制作与所指定的用户交互对应的所录面部表情的持续时间的第二多个数据位。

示例43可以是示例40-42中任一个，其中持续时间可以包括用于动画制作的开始时段、保持时段和结束时段。

示例44可以是示例43，其中化身动画制作引擎可以至少部分地基于开始、保持和结束时段而通过将一个或多个预定义的形状混合到中性面部中而动画制作对应的所录面部表情。

示例45可以是示例40-42中任一个，其中第二次检测可以包括在图像帧内第一次检测面部的面部动作移动期间第二次检测是否发生新的用户交互以及在前所检测的用户交互是否已经完成。

示例46可以是示例40-42中任一个，其中面部网格追踪器响应于开始指令而开始执行接收、第一次检测、第一次生成、第二次检测和第二次生成，并且响应于停止指令或者第一和第二动画制作消息的数目或总体大小达到阈值而停止执行接收、第一次检测、第一次生成、第二次检测和第二次生成。

示例47可以是示例40-42中任一个，其中化身动画制作引擎在面部动作移动数据从用于图像帧的动画制作消息的恢复期间确定动画制作消息内的数据是否包括新用户交互的发生或者在前所检测用户交互的未完成的记录。

示例48可以是示例40-42中任一个，其中化身动画制作引擎是响应于开始指令而开始动画制作的执行，并且响应于停止指令或者所有第一和第二动画制作消息的处理的完成而停止执行动画制作。

示例49可以是用于渲染化身的方法。方法可以包括：通过在计算设备上操作的面部网格追踪器来接收多个图像帧；通过面部网格追踪器在多个图像帧内第一次检测面部的面部动作移动；通过面部网格追踪器第一次生成记录面部动作移动的一个或多个第一动画制作消息；通过面部网格追踪器第二次检测在多个图像帧的接收以及多个图像帧内的面部的面部动作移动的第一次检测期间用户与计算设备的一个或多个交互；以及第二次生成记录所检测的一个或多个用户交互的一个或多个第二动画制作消息。另外，可以包括通过化身动画制作引擎驱动化身模型以便动画制作化身，从而交错基于一个或多个第一动画制作消息的化身上的所记录的面部动作移动的复制与对应于基于一个或多个第二动画制作消息所记录的一个或多个用户交互的一个或多个所录面部表情的动画制作。附加地，接收、第一次检测、第一次生成、第二次检测、第二次生成和驱动全部可以实时地执行。

示例50可以是示例49，其中一个或多个第一动画制作消息中的每一个可以包括指定化身类型的第一多个数据字节、指定头部姿势参数的第二多个数据字节、以及指定要被混合以动画制作面部表情的多个预定义的形状的第三多个数据字节。

示例51可以是示例49或50，其中一个或多个第二动画制作消息中的每一个包括指定用户交互的第一多个数据位、以及指定用于动画制作与所指定的用户交互对应的所录面部表情的持续时间的第二多个数据位。

示例52可以是示例51，其中持续时间可以包括用于动画制作的开始时段、保持时段和结束时段。

示例53可以是示例52，其中动画制作对应的所录面部表情包括至少部分地基于开始、保持和结束时段而将一个或多个预定义的形状混合到中性面部中。

示例54可以是示例49-53中任一个，其中第二次检测可以包括在图像帧内的面部的面部动作移动的第一次检测期间第二次检测是否发生新的用户交互以及在前所检测的用户交互是否已经完成。

示例55可以是示例49-54中任一个，其中接收、第一次检测、第一次生成、第二次检测和第二次生成的执行是响应于开始指令，并且停止的执行是响应于停止指令或者第一和第二动画制作消息的数目或总体大小达到阈值。

示例56可以是示例49-55中任一个，其中驱动可以包括在面部动作移动数据从用于图像帧的动画制作消息的恢复期间确定动画制作消息内的数据是否包括新用户交互的发生或者在前所检测用户交互的未完成的记录。

示例57可以是示例49-56的方法中的任一个，其中驱动的执行是响应于开始指令，并且停止的执行是响应于停止指令，或者所有第一和第二动画制作消息的处理的完成。

示例58可以是一个或多个计算机可读存储介质，其包括多个指令以响应于通过计算设备对指令的执行而引起计算设备实施49-57的示例方法中的任一个。

示例59可以是用于渲染化身的装置。装置可以包括：面部网格追踪部件，以用于全部实时地，接收多个图像帧，在多个图像帧内第一次检测面部的面部动作移动，第一次生成记录面部动作移动的一个或多个第一动作消息，第二次检测在多个图像帧的接收以及多个图像帧内的面部的面部动作移动的第一次检测期间用户与装置的一个或多个交互，以及第二次生成记录所检测的一个或多个用户交互的一个或多个第二动画制作消息；以及化身动画制作部件，以用于驱动化身模型来动画制作化身，从而交错基于一个或多个第一动画制作消息的化身上的所记录的面部动作移动的复制与对应于基于一个或多个第二动画制作消息所记录的一个或多个用户交互的一个或多个所录面部表情的动画制作。

示例60可以是示例59，其中一个或多个第一动画制作消息中的每一个可以包括指定化身类型的第一多个数据字节、指定头部姿势参数的第二多个数据字节、以及指定要被混合以动画制作面部表情的多个预定义的形状的多个第三数据字节。

示例60可以是示例59或60，其中一个或多个第二动画制作消息中的每一个可以包括指定用户交互的第一多个数据位、以及指定用于动画制作与所指定的用户交互的所录面部表情的持续时间的第二多个数据位。

示例62可以是示例61，其中持续时间可以包括用于动画制作的开始时段、保持时段和结束时段。

示例63可以是示例62，其中化身动画制作部件可以包括用于通过至少部分地基于开始、保持和结束时段而将一个或多个预定义的形状混合到中性面部中来动画制作对应的所录面部表情的部件。

示例64可以是用于渲染化身的装置。装置可以包括：一个或多个处理器；以及面部网格追踪器。面部网格追踪器可以由一个或多个处理器操作以全部实时地，接收多个图像帧，在多个图像帧内检测面部的面部动作移动，并且输出描绘所检测的面部动作移动的多个面部运动参数，以用于化身的动画制作和渲染。附加地，面部可以是用户的面部，并且面部网格追踪器可以通过用户的归一化头部姿势来检测面部的面部动作移动。另外，面部网格追踪器可以通过使用3D面部动作模型以及使用3D面部形状模型预构建的用户的3D中性面部形状来生成用户的归一化头部姿势。

示例65可以是示例64，其中面部网格追踪器可以通过所检测的2D图像标志和3D中性面部形状的2D投影之间的差异的最小化来生成用户的归一化头部姿势。

示例66可以是示例64或65，其中通过3D面部数据库的机器学习离线预开发3D面部动作模型。

示例67可以是示例64-66中任一个，其中可以使用3D面部形状模型在用户的登记期间预构建用户的3D中性面部形状。

示例68可以是示例64-67中任一个，其中可以通过3D面部数据库的机器学习而离线预开发3D面部形状模型。

示例69可以是用于渲染化身的方法。方法可以包括：通过在计算设备上操作的面部网格追踪器来接收多个图像帧；通过面部网格追踪器在多个图像帧内检测面部的面部动作移动；以及通过面部网格追踪器输出描绘所检测的面部动作移动的多个面部运动参数以用于化身的动画制作和渲染。另外，面部可以是用户的面部，并且检测面部的面部动作移动可以是通过用户的归一化头部姿势，并且可以包括通过使用3D面部动作模型以及使用3D面部形状模型预构建的用户的3D中性面部形状来生成用户的归一化头部姿势。

示例70可以是示例69，其中生成用户的归一化头部姿势可以包括最小化所检测的2D图像标志与3D中性面部形状的2D投影之间的差异。

示例71可以是示例69或70，还包括通过3D面部数据库的机器学习而离线预开发3D面部动作模型。

示例72可以是示例69或71，还包括在用户的登记期间使用3D面部形状模型预构建用户的3D中性面部形状。

示例73可以是示例69或72，还包括通过3D面部数据库的机器学习而离线预开发3D面部形状模型。

示例74可以是一个或多个计算机可读存储介质，其包括多个指令以响应于通过计算设备对指令的执行而引起计算设备实施示例69-73的方法中的任一个。

示例75可以是用于渲染化身的装置。装置可以包括：面部网格追踪部件，用于全部实时地，接收多个图像帧，在多个图像帧内检测面部的面部动作移动，并且输出描绘所检测的面部动作移动的多个面部运动参数，以用于化身的动画制作和渲染。另外，面部可以是用户的面部，并且面部网格追踪器部件可以包括用于通过用户的归一化头部姿势来检测面部的面部动作移动的部件，以及用于通过使用3D面部动作模型和使用3D面部形状模型预构建的用户的3D中性面部形状来生成用户的归一化头部姿势的部件。

示例76可以是示例75，其中用于生成用户的归一化头部姿势的部件可以包括用于最小化所检测的2D图像标志与3D中性面部形状的2D投影之间的差异的部件。

本领域技术人员将显而易见的是，可以在所公开的设备及相关联的方法的所公开实施例中做出各种修改和变形而不脱离本公开内容的精神或范围。因而，意图是，本公开内容覆盖以上公开的实施例的修改和变形，如果修改和变形落入任何权利要求及其等价物的范围内的话。

Claims

1.一种用于渲染化身的装置，包括：

一个或多个处理器；以及

面部网格追踪器，其由一个或多个处理器操作以全部实时地，接收多个图像帧，通过所述多个图像帧检测用户面部的面部动作移动以及用户头部的头部姿势姿态，并且输出描绘所检测的面部动作移动的多个面部运动参数、以及描绘所检测的头部姿势姿态的多个头部姿态参数，以用于化身的动画制作和渲染；

其中面部动作移动和头部姿势姿态的检测包括基于图像帧的像素采样来检测面部上的嘴巴和眼睛以及头部的帧间差异。

2.权利要求1所述的装置，其中面部动作移动包括嘴巴的张开或闭合，以及眼睛的眨动，并且所述多个面部运动参数包括描绘嘴巴的张开或闭合的一个或多个第一面部运动参数以及描绘眼睛的眨动的一个或多个第二面部运动参数。

3.权利要求1所述的装置，其中所述多个图像帧由相机捕获，并且头部姿势姿态包括头部旋转、沿水平和竖直方向的移动、以及头部更靠近或者更远离相机；并且其中所述多个头部姿势姿态参数包括描绘头部旋转、头部沿水平和竖直方向的移动、以及头部更靠近或者更远离相机的头部姿势姿态参数。

4.权利要求1所述的装置，其中面部网格追踪器包括面部检测功能块以通过多个图像帧中的一个或多个的窗口扫描检测面部；其中窗口扫描包括改进普查变换特征的提取以及每一个窗口位置处的层叠分类器的应用。

5.权利要求1所述的装置，其中面部网格追踪器包括标志检测功能块以检测面部上的标志点；其中标志点的检测包括根据平均面部形状的面部矩形中的初始标志位置的指派，以及通过显式形状递归迭代地指派准确标志位置。

6.权利要求1所述的装置，其中面部网格追踪器包括初始面部网格拟合功能块以至少部分地基于在面部上所检测的多个标志点而采用Candide3线框头部模型来初始化面部网格的3D姿势。

7.权利要求1所述的装置，其中面部网格追踪器包括面部表情估计功能块以至少部分地基于在面部上所检测的多个标志点而通过最小平方拟合来初始化多个面部运动参数。

8.权利要求1所述的装置，其中面部网格追踪器包括头部姿势追踪功能块以基于多个图像帧的子采样像素的子集而应用动态模板匹配和重新登记来计算用户头部的旋转角度。

9.权利要求1所述的装置，其中面部网格追踪器包括嘴巴张开估计功能块以基于多个图像帧的子采样像素的子集而应用FERN递归来计算嘴巴的上嘴唇和下嘴唇的张开距离。

10.权利要求1所述的装置，其中面部网格追踪功能块基于多个图像帧的子采样像素的子集以及连续图像帧的图像对准来调节面部网格的位置、取向或变形以便维持面部的连续覆盖以及通过面部网格对面部移动的反映。

11.权利要求1所述的装置，其中面部网格追踪器包括追踪确认功能块以应用一个或多个面部区或眼睛区分类器而监控面部网格追踪状态，以便确定是否有必要重新定位面部。

12.权利要求1所述的装置，其中面部网格追踪器包括嘴巴形状校正功能块以通过用于嘴巴的帧间直方图差异的检测来校正嘴巴形状。

13.权利要求1所述的装置，其中面部网格追踪器包括眼睛眨动检测功能块以通过光流分析来估计眼睛眨动。

14.权利要求1所述的装置，其中面部网格追踪器包括面部网格适配功能块以根据所导出的面部动作单元来重构面部网格，并且在面部网格之下重新采样当前图像帧以便设立下一图像帧的处理。

15.权利要求1所述的装置，其中面部网格追踪器包括混合形状映射功能块以将面部动作单元转换成用于化身的动画制作的混合形状系数。

16.权利要求1所述的装置，还包括：

化身动画制作引擎，其与面部网格追踪器耦合以接收由面部网格追踪器输出的多个面部运动参数，并且驱动化身模型以动画制作化身，从而通过多个预定义的形状的混合而在化身上复制用户的面部表情；以及

化身渲染引擎，其与化身动画制作引擎耦合以绘制如由化身动画制作引擎所动画制作的化身。

17.一种用于渲染化身的装置，包括：

一个或多个处理器；以及

面部网格追踪器，其由一个或多个处理器操作以全部实时地，接收多个图像帧，第一次在多个图像帧内检测面部的面部动作移动，第一次生成记录面部动作移动的一个或多个第一动画制作消息，第二次检测在多个图像帧的接收以及所述多个图像帧内面部的面部动作移动的第一次检测期间用户与装置的一个或多个交互，并且第二次生成记录所检测的一个或多个用户交互的一个或多个第二动画制作消息；以及

动画制作引擎，其与面部网格追踪器耦合，以驱动化身模型来动画制作化身，从而交错基于一个或多个第一动画制作消息的化身上的所记录的面部动作移动的复制与对应于基于一个或多个第二动画制作消息所记录的一个或多个用户交互的一个或多个所录面部表情的动画制作。

18.权利要求17所述的装置，其中一个或多个第一动画制作消息中的每一个包括指定化身类型的第一多个数据字节、指定头部姿势参数的第二多个数据字节、以及指定要被混合以动画制作面部表情的多个预定义的形状的第三多个数据字节。

19.权利要求17所述的装置，其中一个或多个第二动画制作消息中的每一个包括指定用户交互的第一多个数据位、以及指定用于动画制作与所指定的用户交互对应的所录面部表情的持续时间的第二多个数据位。

20.权利要求19所述的装置，其中持续时间包括用于动画制作的开始时段、保持时段和结束时段；并且其中化身动画制作引擎至少部分地基于开始、保持和结束时段而通过将一个或多个预定义的形状混合到中性面部中而动画制作对应所录面部表情。

21.权利要求17-20中任一项所述的装置，其中第二次检测包括在图像帧内第一次检测面部的面部动作移动期间第二次检测是否发生新的用户交互以及在前所检测的用户交互是否已经完成；并且其中化身动画制作引擎在面部动作移动数据从用于图像帧的动画制作消息的恢复期间确定动画制作消息内的数据是否包括新用户交互的发生或者在前所检测用户交互的未完成的记录。

22.一种用于渲染化身的方法，包括：

通过在计算设备上操作的面部网格追踪器来接收多个图像帧；

通过面部网格追踪器在多个图像帧内第一次检测面部的面部动作移动；以及

通过面部网格追踪器输出描绘所检测的面部动作移动的多个面部运动参数，以用于化身的动画制作和渲染；

其中面部是用户的面部，并且检测面部的面部动作移动是通过用户的归一化头部姿势，包括通过使用3D面部动作模型以及使用3D面部形状模型预构建的用户的3D中性面部形状来生成用户的归一化头部姿势。

23.权利要求22所述的方法，其中生成用户的归一化头部姿势包括最小化所检测的2D图像标志与3D中性面部形状的2D投影之间的差异。

24.权利要求22所述的方法，还包括通过3D面部数据库的机器学习而离线预开发3D面部动作模型和3D面部形状模型。

25.权利要求22所述的方法，还包括在用户的登记期间使用3D面部形状模型预构建用户的3D中性面部形状。