CN103942822B

CN103942822B - 一种基于单视频摄像机的面部特征点跟踪和人脸动画方法

Info

Publication number: CN103942822B
Application number: CN201410146194.6A
Authority: CN
Inventors: 周昆; 曹晨; 侯启明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2017-02-01
Anticipated expiration: 2034-04-11
Also published as: CN103942822A

Abstract

本发明公开了一种基于单视频摄像机的面部特征点跟踪和人脸动画方法，包括以下步骤：基于已公布的人脸图像数据库，创建回归器训练集，以此作为输入训练得到一个DDE模型回归器；利用该回归器，对于输入的图像回归计算得到相应的形状矢量，并依此计算图像中面部特征点的二维位置；对形状矢量进行后处理，使得其中表情系数满足一定约束；结合特征点二维位置和后处理的形状矢量更新全局参数；将得到的三维动态表情参数映射到虚拟替身上，驱动动画角色进行人脸动画。本发明面向通用用户，不需要对特定用户进行任何预处理工作，新用户可以直接使用系统；本发明可以更好的处理快速运动、大幅度平移和旋转，可以更好的应对剧烈的光照变化。

Description

一种基于单视频摄像机的面部特征点跟踪和人脸动画方法

技术领域

本发明涉及图像中人脸特征点跟踪、人脸动作捕获和实时动画技术，尤其涉及一种基于单视频摄像机的面部特征点跟踪和人脸动画方法。

背景技术

本发明相关的研究背景简述如下：

人脸动作捕获和人脸特征点跟踪在计算机图形学和视觉研究领域被广泛研究。在这些研究中，已经有很多方法被使用，用于从一个主体中捕获表情并将其转移到另一个目标模型。在商业应用（如电影和游戏）中，一些特殊的设备，比如面部标记点（Huang,H.,Chai,J.,Tong,X.,and Wu,H.,T.,2011.Leveraging motion capture and3d scanningfor high-field facial performance acquisition.ACM Trans.Graph.30,4,74:1-74:10.）,摄像机阵列（Bradley,D.,Heidrich,W.,Popa,T.,and Sheffer,A.2010.Highresolution passive facial performance capture.ACM Trans.Graph.29,4,41:1-41:10;Beeler,T.,Hahn,F.,Bradley,D.,Bickel,B.,Beardsley,P.,Gotsman,C.,Sumner,R.W.,and Gross,M.2011.High-quality passivie facial performance capture usinganchor frames.ACM Trans.Graph.30,4,75:1-75:10）和投影结构光图谱（Zhang,L.,Snavely,N.,Curless,B.,and Seitz,S.M.2004.Space time faces:high resolutioncapture for modeling and animation.ACM Trans.Graph.23,3,548-558;Weise,T.,Li,H.,Gool,L.V.,and Pauly,M.2009.Face/off:Live facial puppetry.In Eurographics/Siggraph Symposium on Computer Animation.）被广泛使用，可以获取高精度的人脸几何形状。但这些技术由于设备的复杂性，并不适合于普通用户。

对于普通用户来说，基于视频的面部特征点跟踪和人脸动画方法无疑更加适合。这一类技术利用摄像机拍摄到的人脸图像，定位图像中人脸相关的语义特征点，如眼睛、嘴角、鼻子的二维位置，然后利用这些特征点的位置来驱动人脸动画。之前跟踪定位这些特征点往往使用光流的方法，但对于快速运动或者噪声的情况，光流的方法往往不够稳定。之后有一些方法在此基础上加入了一些几何约束信息，如表情变化过程中的特征偏移信息（Chai,J.X.,Xiao,J.,and Hodgins,J.2003.Vision-based control of3d facialanimation.In Symp.Comp.Anim.,193-206），基于物理的可变形网格模型（ESSA,I.,BASU,S.,DARRELL,T.,AND PENTLAND,A.1996.Modeling,tracking and interactive animationof faces andheads:using input from video.In Computer Animation,68–79.;DECARLO,D.,AND METAXAS,D.2000.Optical flow constraints on deformable modelswith applications to face tracking.Int.Journal of Computer Vision38,2,99–127.）和数据驱动的人脸模型（BLANZ,V.,AND VETTER,T.1999.A morphable model forthe synthesis of3d faces.In Proceedings of SIGGRAPH,187–194.;VLASIC,D.,BRAND,M.,PFISTER,H.,AND POPOVI′C758,J.2005.Face transfer with multilinearmodels.ACM Trans.Graph.24,3,426–433.）。最近的一些跟踪方法通常使用CPR（CascadedPose Regression，级联形态回归）或者CLM（Constrained Local Model，约束的局部模型）来定位图像中的特征点位置。使用CPR的典型方法有DOLLAR,P.,WELINDER,P.,AND PERONA,P.2010.Cascaded pose regression.In Proceedings of IEEE CVPR,1078–1085.；CAO,X.,WEI,Y.,WEN,F.,AND SUN,J.2012.Face alignment by explicit shaperegression.Proceedings of IEEE CVPR,2887–2894.而使用CLM的典型方法则包括：SARAGIH,J.,LUCEY,S.,AND COHN,J.2011.Deformable model fitting by regularizedlandmark mean-shift.International Journal of Computer Vision91,2,200–215.；BALTRUSAITIS,T.,ROBINSON,P.,AND MORENCY,L.-P.2012.3D constrained local modelfor rigid and non-rigid facial tracking.In Proceedings of IEEE CVPR,2610–2617.；ASTHANA,A.,ZAFEIRIOU,S.,CHENG,S.,AND PANTIC,M.2013.Robustdiscriminative response map fitting with constrained local models.In IEEECVPR,3444–3451。这些方法的结果在精度和稳定性方面较差，如无法处理人脸的大幅度旋转，或快速移动等情况，无法提供较好的用户体验。

近几年，随着深度摄像机的推广，促进了一系列基于深度摄像机的人脸动画方法，包括WEISE,T.,BOUAZIZ,S.,LI,H.,AND PAULY,M.2011.Realtime performance-basedfacial animation.ACM Trans.Graph.30,4(July),77:1–77:10；BOUAZIZ,S.,WANG,Y.,ANDPAULY,M.2013.Online modeling for realtime facial animation.ACMTrans.Graph.32,4(July),40:1–40:10；LI,H.,YU,J.,YE,Y.,AND BREGLER,C.2013.Realtime facial animation with on-the-fly correctives.ACMTrans.Graph.32,4(July),42:1–42:10。这些方法都基于对一个特定用户的DEM（DynamicExpression Model动态表情模型），通过深度摄像机得到的几何信息，实时捕获人脸的刚性和非刚性变化。相比于之前只利用颜色信息的人脸动画，基于深度摄像机的人脸动画技术更加的稳定和准确。

2013年，Cao等人针对特定用户开发了基于单个视频摄像机的人脸动画技术（CAO,C.,WENG,Y.,LIN,S.,AND ZHOU,K.2013.3d shape regression forreal-time facialanimation.ACM Trans.Graph.32,4(July),41:1–41:10）。对于每个特定用户，该技术要求用户预先采集一系列规定表情和姿势的图像，并在每张图像上进行半自动标定，标记图像中人脸特征点的二维位置。这些标定的图像之后用于训练生成针对该用户的三维形状回归器。该回归器可以实时计算视频序列中该用户面部特征点的三维位置，这些三维位置之后用于计算相应的人脸姿势参数和表情系数，用于驱动替身进行虚拟动画。该方法可以得到与基于深度摄像机方法类似精度和稳定的结果。之后Weng等人在此基础上进一步改进了该技术，可以从二维图像中直接获取用户的人脸姿势参数和表情系数。（WENG,Y.,CAO,C.,HOU,Q.,AND ZHOU,K.2013.Realtime facial animation on mobile devices.GraphicalModels,PrePrints.）但这些方法都是针对特定用户，对于任意一个新用户，都需要花费大量时间采集数据、标定，以及回归器的训练，对于该技术在普通用户中的推广仍存在大量问题。

在表达人脸的相关研究中，大量的表达模型被应用。如ASM（Active Shape Model，主动形状模型）（COOTES,T.F.,TAYLOR,C.J.,COOPER,D.H.,AND GRAHAM,J.1995.Activeshape models-their training and application.Computer Vision and ImageUnderstanding61,38–59.），AAM（Active Appearance Model，主动外观模型）（COOTES,T.F.,EDWARDS,G.J.,AND TAYLOR,C.J.1998.Active appearance models.In Proceedingsof ECCV,484–498.）等。这些表达在过去被大量研究，都无法提供通用的，准确、鲁棒的人脸动画方法。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于单视频摄像机的面部特征点跟踪和人脸动画方法，该方法通过单个视频摄像机获取人脸的视频序列，准确、鲁棒的实时获取图像中面部特征点的二维位置，同时获取人脸的三维动态表情参数，并用于驱动动画角色进行人脸动画。

本发明的目的是通过以下技术方案来实现的，一种基于单视频摄像机的面部特征点跟踪和人脸动画方法，包括如下步骤：

（1）通用回归器的训练：基于网络上已经公布的人脸图像数据库，对每张图片进行手工标定二维特征点，然后结合三维人脸表情模型数据库得到相应的形状矢量；基于图像和对应的形状矢量，构造相应的训练数据集，训练得到一个DDE模型的回归器；

（2）形状矢量的回归：利用步骤1中得到的DDE模型回归器，对于输入的人脸图像回归计算得到相应的形状矢量，包括三维动态表情参数和二维特征点偏移量，并以此计算图像中人脸面部特征点的二维位置；

（3）形状矢量的后处理：对步骤2中得到的形状矢量进行后处理，使得三维动态表情参数满足一定的条件约束；

（4）全局参数更新：结合步骤2中得到的特征点二维位置和步骤3中后处理的形状矢量，更新系统的全局参数，包括用户表情融合模型和摄像机参数；

（5）虚拟替身驱动：将步骤3中得到的三维动态表情参数映射到虚拟替身上，驱动动画角色进行人脸动画。

本发明的有益效果是，易于使用，对任意新用户，不需要进行任何预处理过程，可以直接使用。特别适用于普通用户，用户在任何环境中使用单个视频摄像机和普通桌面电脑，即可实时获取视频图像中二维特征点位置和人脸的三维表情参数，并用其驱动虚拟角色进行人脸动画。相比于之前的方法，本方法更加通用，可以提供更好的用户体验，且能够更好的处理头部的快速运动、大幅度平移和旋转。此外，本发明对于剧烈的光照变化可以达到更鲁棒的处理效果。本发明的方法可以直接从二维图像中回归得到三维动态表情参数，因此非常高效，在普通电脑上只需要20ms左右即可完成对一帧的处理，经过优化甚至可以将本方法移植到移动平台上。

附图说明

图1是本发明形状矢量的回归步骤中摄像机获取的一张人脸图像；

图2是本发明形状矢量的回归步骤中回归计算得到的人脸面部特征点的二维位置；

图3是本发明形状矢量的回归步骤中回归计算得到的三维人脸形状；

图4是本发明形状矢量的后处理步骤中后处理后得到的三维人脸形状；

图5是本发明虚拟替身驱动步骤中将图4中三维人脸形状的参数映射到替身上，驱动动画角色人脸动画截图。

具体实施方式

本发明的核心在于从实时输入的人脸视频序列中，计算得到相应的二维特征点位置，同时得到三维动态表情参数，用于驱动虚拟替身进行人脸动画。此外，从实时获取的视频序列中，选择有代表性的图像，结合相应的二维特征点和三维动态表情参数，更新全局参数。

本发明公布了一种全新的二维人脸形状表示方式，即DDE（Displaced DynamicExpression，带偏移量的动态表情）模型。其结合了用户的三维人脸形状和图像中二维面部特征点。其中，三维人脸形状的表达是表情融合模型。表情融合模型包含用户的自然表情形状b₀和46个FACS表情形状{b₁,b₂,...,b₄₆}，用户的三维人脸形状可以表示为表情融合模型B=[b₀,b₁,...,b₄₆]的线性组合加上一个旋转R和一个平移t：

F=R(Be^T)+t

其中F是用户的三维人脸形状，e=[e₀,e₁,...,e₄₆]是表情融合模型的表情系数，每一个系数e_i的值都被限制在0到1之间。

其中用户的表情融合模型是通过FaceWarehouse中的三维人脸表情模型数据库中得到的，该三维人脸表情模型数据库包括150个不同的个体，每个个体包括47个不同表情形状，组成了一个三维人脸模型张量C（11K形状顶点×150个体×47表情），利用这一张量表达，给定张量中的用户的个体系数，即可计算得到该用户的表情融合模型：

B=C×₂u^T

其中B是用户的表情融合模型，C是FaceWarehouse数据库中的三维人脸模型张量，u是用户的个体系数。

在表达图像中用户的二维人脸形状，即面部特征点位置时，首先将上述得到的三维人脸形状投影到图像空间中，然后对于投影后的人脸形状中，选取对应的顶点位置的二维位置，再加上一定的二维偏移量，最终得到二维面部特征点位置，即

S_{k} = Π_{Q} (F^{(v_{k})}) + d_{k}

其中s_k是二维特征点位置，F是用户的三维人脸形状，Π_Q是透视投影算子，利用投影矩阵Q将三维点投影到图像空间中，v_k是三维人脸形状上相应特征点的顶点序号，d_k是二维特征点的偏移量。用户的二维人脸形状即可表达为所有的二维特征点位置S={s_k}，而二维偏移量向量则可以表达为D={d_k}。

综上所述，使用DDE表示人脸二维形状可以总结为下述函数：

DDE(Q,u;e,R,t,D)=S

其中Q是摄像机的透视投影矩阵，u是用户的个体系数，这二者在之后的视频序列中都是不变量，因此被称为全局变量。e是表情融合模型的表情系数，R是旋转矩阵，t是平移向量，D是二维偏移量向量，这些变量在视频序列中的每一帧都不一样，将其定义为形状矢量：P=(e,R,t,D)。

基于DDE的表达，本发明提出了一种基于单个视频摄像机的面部特征点跟踪和人脸动画方法，该方法包括以下几个步骤：通用回归器的训练，形状矢量的回归，形状矢量的后处理，全局参数更新以及虚拟替身驱动。具体来说，包括以下步骤：

1.通用回归器的训练：基于网络上已经公布的人脸图像数据库，对每张图片进行手工标定二维特征点，然后结合三维人脸表情模型数据库得到相应的形状矢量；基于图像和对应的形状矢量，构造相应的训练数据集，训练得到一个DDE模型的回归器。

首先选取网络上已经公布的三套人脸图像数据库：

1）FaceWarehouse（CAO,C.,WENG,Y.,ZHOU,S.,TONG,Y.,AND ZHOU,K.2013.Facewarehouse:a3D facial expression database for visual computing.IEEETVCG,PrePrints.）

2）LFW（HUANG,G.B.,RAMESH,M.,BERG,T.,AND LEARNEDMILLER,E.2007.Labeledfaces in the wild:A database for studying face recognition in unconstrainedenvironments.Tech.Rep.07-49,University of Massachusetts,Amherst,October.）

3）GTAV（TARRES,F.,AND RAMA,A.GTAV Face Database.http://gps-tsc.upc.es/GTAV/ResearchAreas/UPCFaceDatabase/GTAVFaceDatabase.ht m.）

1.1训练图像的选取和标定

从FaceWarehouse，LFW和GTAV三套数据库中共选择14,460张不同的人脸图像，下表列出了分别从三套数据库中选取的不同个体数量和图像数量：

人脸图像数据库	FaceWarehouse	LFW	GTAV
				个体数量	150	3,010	44
图像数量	5,904	7,258	1,298

对每张图像，首先利用一个通用的二维特征点回归器自动标定二维特征点位置，之后对已自动标定结果中不准确的部分，对其进行简单的人工拖拽操作，将其修复到正确位置。

1.2训练图像的预处理

对于标定后的每一个图像，我们对它进行拟合，拟合的方法类似于CAO,C.,WENG,Y.,LIN,S.,AND ZHOU,K.2013.3d shape regression for real-time facialanimation.ACM Trans.Graph.32,4(July),41:1–41:10，在满足DDE(Q,u;e,R,t,D)=S的约束下，最小化二维偏移量向量的大小

优化的过程采用坐标下降的方法，每次交替优化过程中，只保留一个变量进行优化，而保持其他变量为它们当前的值不变。这样交替的优化不同的变量，直到所有变量收敛。这样每个图像都可以得到相应的参数，将任一图像表示为I_i，相对应的，标定的二维特征点位置向量拟合得到的摄像机透视投影矩阵个体系数为相应的形状矢量其包含表情融合模型中的表情系数旋转矩阵平移向量以及二维偏移量向量

1.3训练数据对集合的构造

基于上述预处理得到的每个训练图像及其对应的参数，开始构造训练数据集。对每个训练图像，需要对其指定若干初始化参数，构成训练数据对。将这些训练数据对表示为

(I_{i}, Q_{ij}, u_{ij}; P_{ij}, P_{ij}^{g})

其中I_i为图像，Q_ij为指定的摄像机透视投影矩阵，u_ij为指定的个体系数，P_ij为指定的形状矢量，为图像真实的形状矢量。

经过1.2步骤中的预处理，对每个图像I_i，都已经得到真实的参数，即其中形状矢量对于每个这样的图像及其参数，将其中的某一参数进行随机的替换，得到当前形状矢量，其与图像的真实参数一起，构造得到相应的训练数据对。这种随机替换分为以下几类：

1）随机旋转：在真实旋转矩阵上随机的增加一个旋转量ΔR_ij，则当前的形状矢量为

P_{ij} = (e_{i}^{g}, R_{i}^{g} + {ΔR}_{ij}, t_{i}^{g}, D_{ij}^{r}),

真实形状矢量为

P_{ij}^{g} = P_{i}^{g};

2）随机平移：在真实平移向量上随机的增加一个平移量Δt_ij，则当前的形状矢量为

P_{ij} = (e_{i}^{g}, R_{i}^{g}, t_{i}^{g} + {Δt}_{ij}, D_{ij}^{r}),

真实形状矢量为

P_{ij}^{g} = P_{i}^{g};

3）随机表情：随机选择另一张图像I_i'，指定表情系数为该图像的真实表情系数，即则当前的形状矢量为真实形状矢量为

4）随机个体：随机选择另一张图像I_i'，指定该图像的真实个体系数为当前训练数据对的个体，即当前的形状矢量为而由于个体系数在回归过程中不会变化，为了消除因个体系数变化导致的真实形状矢量与二维特征点位置的不吻合，需要重新计算真实形状矢量中的二维特征点位置偏移量，则真实形状矢量为

5）随机投影矩阵：在真实摄像机投影矩阵上随机增加一个焦距偏移量ΔQ_ij，当前的形状矢量为与4）随机个体类似，由于摄像机矩阵在回归过程中保持固定，为了消除因摄像机矩阵导致的真实形状矢量与二维特征点位置的不吻合，重新计算真实形状矢量中的二维特征点位置偏移量，则真实形状矢量为

P_{i}^{g} = (e_{i}^{g}, R_{i}^{g}, t_{i}^{g}, D_{ij}^{g}) .

在上述的构造过程，对每个训练数据对，同时随机从其他图像中选取二维特征点偏移量指定为当前形状矢量的二维特征点偏移量。

对每一个图像，对上述的随机表情替换执行15次，其余4类随机替换执行5次，对每个训练图像生成共计35个训练数据对。

1.4DDE模型回归器的训练

基于1.3节中构建的训练数据对集合，训练DDE模型的回归器。回归器采用CAO,X.,WEI,Y.,WEN,F.,AND SUN,J.2012.Face alignment by explicit shaperegression.Proceedings of IEEE CVPR,2887–2894提出的双层级联回归器：在第一层中有T级弱分类器，在每一个弱分类器中又有K级原子分类器。

在第一层分类器中，对每一个训练数据对，要根据当前的形状矢量，从图像中抽取相应的外观向量。首先对于所有的训练数据对，计算平均形状矢量，并根据该平均形状矢量重建平均二维形状（即二维特征点的集合）。在此平均二维形状上随机产生P个采样点，对平均二维形状进行三角化，对每个采样点，选择该点所处的三角形，并根据三角形三个顶点计算该采样点在三角形中的局部坐标。这样每个采样点既可以表达为二维形状中一个三角形序号加上一个局部坐标。对每一个训练数据对根据这P个采样点的三角形序号和局部坐标，生成相应位置的采样点，并从这些采样点的位置上获取图像的颜色值，这P个颜色值就组成了该训练数据对在第一层级联回归中的外观向量V_ij。

在第二层分类器中，基于第一层中计算得到外观向量，在第二层的每个原子分类器中，寻找有效序列对，并根据每一个外观向量中序列对所代表的颜色值差的值，对所有的训练数据集进行分类，并根据分类结果计算输出，更新每个训练数据对。第一层中得到的外观向量，通过计算两两不同位置元素的差，可以产生P²个特征，将其称为序列号特征。对每一个训练数据对首先计算当前形状矢量P_ij和真实形状矢量的差异，将每个差异投影到同一个随机方向上，产生一个标量，将不同训练数据对产生的标量看做随机变量，从上述的P²个序列号特征中选取与这个随机变量相关性最大的特征。重复这一步骤F次得到F个不同特征。

基于选择的F个不同特征，对每个特征指定随机的阈值，根据这些阈值将所有的训练数据分为2^F类。在每一类b中，对所有落在这一类中的训练数据对集合Ω_b，计算回归输出如下：

{δP}_{b} = \frac{1}{1 + β / | Ω_{b} |} \frac{Σ_{{i &Element; Ω}_{b}} (P_{i}^{g} - P_{i})}{| Ω_{b} |}

其中δP_b是该原子分类器的回归输出，β是松弛系数，用于防止落在这一类中的训练数据对过少导致的过拟合，Ω_b是落在这一类中的训练数据对集合，|Ω_b|是训练数据对的个数，是训练数据对中的真实形状矢量，P_i是训练数据对当前形状矢量。

得到原子分类器的回归输出后，将该输出加到Ω_b中所有的训练数据对中，即

P_i=P_i+δP_b,i∈Ω_b

其中P_i是训练数据对当前形状矢量，δP_b是原子分类器的回归输出，Ω_b是落在这一类中的训练数据对集合。

DDE模型回归器的训练迭代T次，每一次生成K个级联的原子分类器，这种双层的级联回归器组成了最终的DDE模型回归器。在本发明中，DDE模型回归器的参数通常选择是T=15,K=300,P=400,F=5,β=150。

2.形状矢量的回归：利用第1节中得到的回归器，对于输入的人脸图像回归计算得到相应的形状矢量，包括三维动态表情参数和二维特征点偏移量，并以此计算图像中人脸面部特征点的二维位置。

在计算形状矢量回归的过程中，保持全局参数，即用户的个体系数u和摄像机投影矩阵Q固定不变。

在运行中，对于视频摄像机拍摄的人脸视频序列，对于其中每一帧I^t（如附图1所示），首先要选取猜测形状矢量对于第一帧人脸图像，首先利用CAO,X.,WEI,Y.,WEN,F.,AND SUN,J.2012.Face alignment by explicit shape regression.Proceedings ofIEEE CVPR,2887–2894提出的通用的二维特征点回归器，计算得到该图像中人脸的二维面部特征点。结合固定的全局参数，利用1.2节中描述的拟合算法，可以拟合得到该图像的形状矢量，将其作为第一帧图像的猜测形状矢量。对于之后的帧，直接选择上一帧计算得到的形状矢量作为当前帧的猜测。

基于猜测形状矢量首先从1.2节中拟合得到的所有训练图像的形状矢量中，选取与最接近的形状矢量P_near。这里，在比较两个形状矢量时，首先使用它们重建二维形状，然后将两个二维形状的中心对齐，然后计算对应特征点的距离和。将中的旋转矩阵替换为P_near中的旋转矩阵，然后再从训练图像的形状矢量中，选择与替换后的形状矢量最接近的M个形状矢量，记为

选择的这M个形状矢量被称为初始化形状矢量，是回归计算操作的初始值。将每一个初始化形状矢量作为当前形状矢量，输入到步骤1中训练生成的DDE模型回归器中，并结合当前帧的图像，回归计算符合当前帧的形状矢量。

在回归器的第一层分类器中，根据当前形状矢量，重建二维形状，然后根据在训练中记录的采样点的三角形序号和局部坐标，计算P个采样点的位置，并从当前帧图像中的相应位置获取颜色值，构建外观向量V_j。

在回归器的第二层分类器中，根据每一个原子分类器中记录的F个序列号特征计算相应的特征，然后与特征对应的阈值进行比较，根据比较结果判断从原子分类器中的2^F类中选择所述的类b，并将该类的回归输出δP_b取出，加到当前形状矢量上：

P_{j}^{t - 1} = P_{j}^{t - 1} + {δP}_{b}

其中是当前形状矢量，δP_b是从原子分类器中取出的形状矢量。

将每一个根据上述方法依次通过T个第一层分类器，更新得到符合当前形状矢量。对这些形状矢量进行均值操作，即

{\overset{&OverBar;}{P}}^{t} = \frac{Σ_{j = 1}^{M} P_{j}^{t - 1}}{M}

其中是当前帧的平均形状矢量，是从不同初始形状向量出发回归得到的形状矢量，M是初始形状矢量的个数。

回归计算后，根据重建的三维人脸形状如附图3所示，相应的二维特征点位置如附图2所示。

3.形状矢量的后处理：对第2节中得到的形状矢量进行后处理，使得三维动态表情参数满足一定的条件约束。比如，为了使得得到的表情系数合理，要让表情融合模型表情系数的值在0和1之间。

形状矢量的后处理优化如下的能量项如下，其中第一项拟合能量为：

E_{fit} = Σ_{k = 1}^{m} {| | Π_{Q} {({\hat{R}}^{t} ({B \hat{e}}^{tT}) + {\hat{t}}^{t})}^{(v_{k}^{t})} - S_{k}^{t} | |}^{2}

其中E_fit为拟合能量项，m是特征点的个数，Π_Q是摄像机透视投影算子，Q是摄像机透视投影矩阵，是当前帧最终形状矢量的旋转矩阵，B是用户的表情融合模型，是当前帧最终形状矢量的表情系数向量，是当前帧最终形状矢量的平移向量，是三维人脸形状上相应特征点的顶点序号，是第2节中计算得到的二维特征点位置，k是二维特征点序号。

第二项是正则能量项：

E_{reg} = {| | {\hat{P}}^{t} - {\overset{&OverBar;}{P}}^{t} | |}^{2}

其中E_reg是正则能量项，是当前帧最终的形状矢量，是在第2节中计算得到的平均形状矢量。

第三项是光滑能量项：

E_{tm} = | | {\hat{P}}^{t - 2} - 2 {\hat{P}}^{t - 1} + {\hat{P}}^{t} | |

其中E_tm是光滑能量项，是当前帧最终的形状矢量，和分别是前面一帧和前面两帧的最终形状矢量。

最终的能量方程为：

E_tot=E_fit+ω_regE_reg+ω_tmE_tm

其中E_tot是形状矢量后处理的总能量，E_fit，E_reg，和E_tm分别是拟合能量项，正则能量项和光滑能量项，ω_reg和ω_tm是非负权重值，分别用户控制正则能量项和光滑能量项的权重，在本发明中取ω_reg=5和ω_tm=1。该能量方程使用BYRD,R.H.,LU,P.,NOCEDAL,J.,ANDZHU,C.1995.A limited memory algorithm for bound constrained optimization.SIAMJ.Sci.Comput.16,5(Sept.),1190–1208中描述的BFGS方法进行优化，限制表情融合模型中的系数在0到1之间。最终得到的三维人脸形状如附图4所示。

4.全局参数更新：结合第2节中得到的特征点二维位置和第3节中后处理的形状矢量，更新系统的全局参数，包括用户表情融合模型和摄像机参数。

在上述的第2节和第3节中，对形状矢量进行回归和后处理过程中，保持全局参数，即用户的个体系数u和摄像机投影矩阵Q固定不变。在这一节中，根据上述计算得到的特征点二维位置和形状矢量，优化系统的全局参数。

4.1全局参数初始化

当一个新的用户进入摄像机视野，开始使用系统，需要首先初始化全局参数。对于用户个体系数u，我们使用FaceWarehouse三维人脸表情模型数据库中的平均个体系数。而对于摄像机投影矩阵Q，对于第一帧图像，首先使用第2节中的方法，使用通用的二维特征点回归器，计算得到该图像中人脸的二维面部特征点，然后再利用CAO,C.,WENG,Y.,LIN,S.,AND ZHOU,K.2013.3d shape regression for real-time facial animation.ACMTrans.Graph.32,4(July),41:1–41:10中提供的方法，使用二分查找的方法计算摄像机的初始参数，以此构造摄像机的初始投影矩阵。

4.2代表帧的选取

在用户实时输入的视频序列中，选取有代表性的帧，用于优化全局参数。这些有代表性的帧需要包含用户的不同表情，不同姿势等信息。

选择出来的代表帧，包括其对应的，从第2节和第3节中计算得到的二维特征点和形状向量，将其集合定义为代表帧集合其中S^l是代表帧的二维特征点向量，为代表帧经过后处理后最终得到的形状向量。最开始的L帧首先被加入到代表帧集合中，在之后，根据输入的视频序列，有选择的选取代表帧。

对每一帧I^t及其最终形状矢量定义一个表情-旋转向量：

V^t=(R^t,e^t)

其中V^t为这一帧的表情_-旋转向量，R^t是最终形状矢量中的旋转矩阵，e^t是中的表情系数向量。

对于代表帧集中的所有帧，定义相应的表情-旋转向量，并所有表情旋转向量进行主元分析，得到代表帧集合表情_-旋转向量的平均向量和特征向量矩阵M，构造当前表情-旋转向量的空间。在做主元分析时，注意根据能量大小，将最后的占据总能量5%的特征向量忽略。

对于视频输入的每一帧I^t，基于第2,3节计算得到的形状向量构造表情-旋转向量V^t，计算其在当前表情-旋转向量的空间中的重建误差：

E_{rec} = {| | V^{t} - (\overset{&OverBar;}{V} + {MM}^{T} (V^{t} - \overset{&OverBar;}{V})) | |}^{2}

其中E_rec为重建误差，V^t为当前帧的表情_-旋转向量，和M为对代表帧集合的表情-旋转向量集合进行主元分析后得到的平均向量和特征向量矩阵。

根据重建误差E_rec的大小，如果大于一定的阈值（在本发明中采用0.1），则将这一帧加入到代表帧集合中，并重新对代表帧集合中所有表情-旋转向量重新做主元分析，更新向量空间。

4.3优化全局参数

在4.2节中，当有新的帧加入到代表帧集合中，则立刻基于当前的代表帧集合执行全局参数的交替优化：首先固定摄像机投影矩阵Q，优化个体系数u；之后固定个体系数u，优化摄像机投影矩阵Q。此外，当全局参数更新后，还需要利用更新后的全局参数，更新代表帧集合中所有帧的形状矢量。

在优化个体系数u时，方法类似于1.2节中对训练图像的预处理。固定摄像机投影矩阵Q和代表帧集合中的形状矢量集合在满足的约束下，优化个体系数u，以最小化二维偏移量向量大小

在优化摄像机投影矩阵Q时，首先固定用户的个体系数和代表帧集合中的形状矢量集合基于这些固定的参数可以构造每个代表帧的三维人脸形状模型F^l，基于三维人脸形状优化下述能量方程：

E_{im} = \underset{i, k}{Σ} {| | Π_{Q} F^{l, (v_{k})} - S_{k}^{l} | |}^{2}

其中E_im是拟合能量项，l是代表帧的序号，k是二维特征点序号，Π_Q是摄像机透视投影算子，Q是摄像机透视投影矩阵，v_k是三维人脸形状上相应特征点的顶点序号，是图像中二维特征点位置。该能量方程可以用最小二乘方法解析求得摄像机矩阵Q。

个体系数u和摄像机矩阵Q的优化均执行一次，基于更新后的全局参数，利用1.2节中的方法更新代表帧集合中所有帧的形状向量，并相应的更新代表帧集合的表情-旋转向量空间。

5.虚拟替身驱动：将第3节中得到的三维动态表情参数映射到虚拟替身上，驱动动画角色进行人脸动画。

对于输入的人脸图像I^t，通过第2节的回归计算和第3节的后处理，得到最终的形状矢量包括表情系数向量旋转矩阵和平移向量对于虚拟替身的表情融合模型D={d₀,d₁,...,d₄₆}，先利用表情系数向量线性融合得到替身三维模型，再将该模型进行旋转、平移，得到最终的三维模型：

F_{D}^{t} = {\hat{R}}^{t} (D {\hat{e}}^{tT}) + {\hat{t}}^{t}

其中是最终的替身三维模型，和分别是第3节中得到的形状矢量中的旋转矩阵、平移向量和表情系数向量。这样就完成了对虚拟替身的驱动，如附图5所示。

实施实例

发明人在一台配备Intel Core i5（3.0GHz）中央处理器的台式计算机，及一个以30帧/秒提供640×480分辨率的网络摄像机上实现了本发明的实施实例。一次性预处理中，通用回归器的训练约需要6个小时。在运行中，对于每一帧，大约需要12毫秒完成对形状矢量的回归，3毫秒完成对形状矢量的后处理，5毫秒的全局参数更新，使得本系统最终可以达到平均28帧/秒的速度。

发明人邀请了不同的新用户来测试基于本发明的系统。结果表明，系统可以对于任意新用户，不需要任何的预处理工作，在图像中可以得到准确的二维特征点位置，同时准确获取人脸的三维动态表情参数，用于驱动虚拟替身进行人脸动画。相比于之前的方法，本发明可以更好的处理快速运动、大幅度旋转或平移，并能够更好的应对剧烈的光照变化。

Claims

1.一种基于单视频摄像机的面部特征点跟踪和人脸动画方法，其特征在于，包括以下步骤：

(1)通用回归器的训练：基于网络上已经公布的人脸图像数据库，对每张图像进行手工标定二维特征点，然后结合三维人脸表情模型数据库得到相应的形状矢量；基于图像和对应的形状矢量，构造相应的训练数据集，训练得到DDE模型回归器；

(2)形状矢量的回归：利用步骤1中得到的DDE模型回归器，对于输入的人脸图像回归计算得到相应的形状矢量，包括三维动态表情参数和二维特征点偏移量，并以此计算图像中人脸面部特征点的二维位置；

(3)形状矢量的后处理：对步骤2中得到的形状矢量进行后处理，使得三维动态表情参数的范围处于0到1之间；

(4)全局参数更新：结合步骤2中得到的特征点二维位置和步骤3中后处理的形状矢量，更新系统的全局参数，包括用户表情融合模型和摄像机参数；

(5)虚拟替身驱动：将步骤3中得到的三维动态表情参数映射到虚拟替身上，驱动动画角色进行人脸动画。

2.根据权利要求1所述基于单视频摄像机的面部特征点跟踪和人脸动画方法，其特征在于，所述步骤1包括以下子步骤：

(1.1)收集网络上公开的人脸图像数据库，包括FaceWarehouse，LFW和GTAV三个数据库；

(1.2)利用二维特征点回归器对每张图像进行自动的二维特征点标定，对自动标定结果中不满意的部分，对其进行简单的人工拖拽操作以修复；

(1.3)结合FaceWarehouse数据库中的三维人脸表情模型，对每张标定后的图像进行拟合，计算相应的刚性参数、个体参数、表情系数和二维特征点偏移量，组成相应的形状矢量，作为原始训练形状矢量集；

(1.4)基于步骤1.3得到的原始训练形状矢量集，构造相应的训练数据集；

(1.5)基于步骤1.4得到的训练数据集，训练得到一个DDE模型回归器。

3.根据权利要求2所述基于单视频摄像机的面部特征点跟踪和人脸动画方法，其特征在于，所述步骤2包括以下子步骤：

(2.1)固定系统全局参数，包括用户的表情融合模型和摄像机参数；

(2.2)运行时，对于第一帧图像，使用人脸检测算法检测人脸位置，然后利用通用的二维特征点回归器得到该帧图像的二维特征点，结合固定的全局参数，拟合形状矢量作为猜测矢量；对于其他帧的图像，则选取上一帧的形状矢量作为猜测矢量；

(2.3)基于步骤2.2中得到的猜测矢量，从原始训练形状矢量集找到若干个近似的形状矢量，作为初始化矢量；

(2.4)基于步骤2.3中选取的每个初始化矢量和当前帧图像，利用权利要求2中得到的DDE模型回归器，回归计算得到相应的形状矢量；

(2.5)对步骤2.4中得到的不同形状矢量，取均值操作，作为最终的形状矢量；

(2.6)基于步骤2.5中得到的形状矢量，包括三维动态表情参数和二维特征点偏移量，计算图像中人脸面部特征的二维位置。

4.根据权利要求3所述基于单视频摄像机的面部特征点跟踪和人脸动画方法，其特征在于，所述步骤3包括以下子步骤：

(3.1)基于权利要求3中得到的形状矢量和面部二维特征点位置，建立能量方程；

(3.2)利用梯度下降算法最小化步骤3.1中建立的能量方程，将三维动态表情参数中的表情系数限制在0到1之间，得到后处理的形状矢量。

5.根据权利要求4所述基于单视频摄像机的面部特征点跟踪和人脸动画方法，其特征在于，所述步骤4包括以下子步骤：

(4.1)运行时，经过权利要求3和4中描述的处理过程，得到每一帧图像对应的形状矢量，有选择性的从拍摄到的视频序列中选择有代表性的帧及其相应的形状矢量，加入代表帧集合中；

(4.2)基于步骤4.1中选择的帧和其对应的形状矢量，构造能量方程，联合优化全局参数，包括用户的表情融合模型和摄像机参数；

(4.3)基于优化后的全局参数，更新代表帧集合中的每一帧的形状矢量；

(4.4)在步骤4.1中，每当一个新的帧被加入代表帧集合，执行步骤4.2和步骤4.3，更新全局参数。

6.根据权利要求5所述基于单视频摄像机的面部特征点跟踪和人脸动画方法，其特征在于，所述步骤5包括以下子步骤：

(5.1)基于权利要求4中后处理后的形状矢量，将其中三维动态表情参数中的表情系数映射到虚拟替身中，得到动画角色的相应表情；

(5.2)基于权利要求4中后处理后的形状矢量，将其中三维动态表情参数中的刚性参数映射到虚拟替身上，得到相应的姿势。