CN104217454B

CN104217454B - 一种视频驱动的人脸动画生成方法

Info

Publication number: CN104217454B
Application number: CN201410415274.7A
Authority: CN
Inventors: 夏时洪; 王涵
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2014-08-21
Filing date: 2014-08-21
Publication date: 2017-11-03
Anticipated expiration: 2034-08-21
Also published as: CN104217454A

Abstract

本发明提供一种视频驱动的人脸动画生成方法，包括：1)从视频的人脸图像中提取所述视频的语义特征向量，语义特征向量由多个语义特征变量组成，语义特征变量包括：描述脸部器官周围局部运动的特征变量，以及描述全脸各器官之间相对运动的特征变量；2)基于由多个表情基构成的参考模型，将所述视频的语义特征向量表示为各表情基的语义特征向量的加权和，并将与各表情基的语义特征向量的加权系数作为表情参数；3)基于步骤2)所获得的表情参数和相应的参考模型的表情基，生成与所述视频表情一致的人脸动画。本发明能够增加人脸动画的稳定性和真实感；能够尽可能减少用户操作；能够减少计算量，降低内存消耗。

Description

一种视频驱动的人脸动画生成方法

技术领域

本发明涉及人脸表情捕捉和重用技术领域，具体地说，本发明涉及一种视频驱动的人脸动画生成方法。

背景技术

视频驱动人脸动画的技术主要是研究如何从单目摄像头拍摄记录的带有人脸表情的视频中提取并重用人脸表情信息，从而实时生成相应的人脸动画。所生成的人脸动画既可以即时动态地将合成的表情反馈给用户，也可以将原始视频中的表情信息转化为不同角色的表情动画，因而这种技术可以广泛应用于动画制作、游戏开发以及网络社交等领域。

现有技术中，视频驱动人脸动画通常基于表情基方法(blendshape method)实现。它需要建立一个参考模型，参考模型由多个表情基组成，每个表情基都是一种典型的表情模型，例如大笑、撅嘴、瞪眼模型等等。理论上任意一个人脸表情都能够由参考模型中若干个表情基的加权叠加而成，相应的加权系数通常称为表情参数。这样，视频驱动人脸动画的方法实际上就是从视频中捕获人脸数据，然后寻找一组表情参数，使得相应的表情基加权叠加而成的表情模型与所捕获的人脸数据尽可能接近。在获得这样的表情参数后，即可基于表情参数和参考模型将视频中的表情重用到动画角色中。这样，就能获得具有更加逼真，更加丰富表情的人脸动画。

为实现视频驱动人脸动画，首先需要一个合适的表情定义，以表达视频中的人脸表情。近年来，已有出现了很多关于实时视频驱动人脸动画的表情定义，主要方法类型有以下几类：

1)直接从二维特征点估算人脸表情的方法，它是将从人脸图像中追踪到的稀疏二维特征点直接作为表情定义，通常误差较大。

2)通过像素颜色信息与追踪到的二维特征点互相优化以估算人脸表情的方法。此方法将像素色彩信息和稀疏二维特征点作为表情定义，以降低仅使用二维特征点估算结果的误差。但是直接使用像素色彩信息，对图像的质量要求较高，而网络摄像头拍摄的图像、室外环境下拍摄的图像通常不能满足要求。

3)采用三维表情数据库估算人脸表情的方法。它寻求三维点云的恢复，然后用三维点云作为表情定义。这种方法中，为了获得稳定的表情，要么大大降低了恢复表情的准确度，要么需要大量的手工标记操作以及用户提前训练。并且此种方法需要庞大的数据库，往往导致计算量较大，效率较低。

4)采用三维模型库估计表演者的三维模型，进而估算人脸表情的方法。这个方法首先建立三维点云数据库，然后用自定义的控制参数来建立特征点与数据库之间的关系，最后从数据库中估算相关的三维点云作为表情定义。这种方法最终的重用结果依赖于所建立的数据库的内容和质量。但建立包含所有用户表情的高质量数据库是比较困难的。

另一方面，在有了一定的表情定义后，还需要基于表情基对视频中的表情重定向，才能生成相应的人脸动画。基于表情基的表情重定向方法，是通过优化权值(又称表情参数)使得目标模型表情基加权组合之后的表情与源表情之间误差最小。在已知表情基的情况下，寻找合适的表情参数实际上就是求解最小值问题。求解最小值问题往往较为费时，如何在保证人脸动画的稳定性和真实感的前提下减少计算量，是当前需要解决的一大技术问题。

发明内容

因此，本发明的任务是提供一种稳定性和真实感较好且计算量小的视频驱动的人脸动画生成方法。

本发明提供了一种视频驱动的人脸动画生成方法，包括下列步骤：

1)捕获视频中人脸图像的二维特征点，并从所述二维特征点中提取出所述视频的语义特征向量，所述语义特征向量由多个语义特征变量组成，所述语义特征变量包括：描述脸部器官周围局部运动的特征变量，以及描述全脸各器官之间相对运动的特征变量；

2)基于由多个表情基构成的参考模型，将所述视频的语义特征向量表示为表情基的语义特征向量的加权和，并将与各表情基的语义特征向量的加权系数作为表情参数；

3)基于步骤2)所获得的表情参数和相应的参考模型的表情基，生成与所述视频表情一致的人脸动画。

其中，所述步骤1)、2)中，所述描述脸部器官周围局部运动的特征变量包括：描述眉毛周围局部运动的特征变量，描述眼睛周围局部运动的特征变量，以及描述嘴巴周围局部运动的特征变量。

其中，所述步骤1)、2)中，所述描述眉毛周围局部运动的特征变量包括两眉毛之间的水平距离，左眉内眉梢、外眉梢、眉毛中心与左眼的垂直距离，以及右眉内眉梢、外眉梢、眉毛中心与右眼的垂直距离；

所述描述眼睛周围局部运动的特征变量包括左眼上眼皮与下眼皮之间的最大垂直距离，以及右眼上眼皮与下眼皮之间的最大垂直距离；

所述描述嘴巴周围局部运动的特征变量包括上嘴角宽度、嘴巴最大宽度和嘴巴最大张开幅度。

其中，所述步骤1)、2)中，所述描述全脸各器官之间相对运动的特征变量包括：鼻眼之间，嘴眼之间以及鼻嘴之间的距离特征变量。

其中，所述步骤1)、2)中，所述鼻眼之间的距离特征变量包括：鼻尖与两眼中心的垂直距离；嘴眼之间的距离特征信息包括：左嘴角与眼睛的垂直距离，以及右嘴角与眼睛的垂直距离；鼻嘴之间的距离特征信息包括：鼻尖与左嘴角的水平距离、鼻尖与右嘴角的水平距离、鼻尖与上嘴唇中心的垂直距离、鼻尖与上嘴唇左尖的垂直距离，以及鼻尖与上嘴唇右尖的垂直距离。

其中，所述步骤2)包括下列子步骤：

21)基于描述脸部器官周围局部运动的特征变量，构造分别与各脸部器官相对应的多个局部特征子向量，基于描述全脸各器官之间相对运动的特征变量，构造全局特征子向量；

22)基于误差最小原则，求解将所述视频的局部特征子向量表示为表情基的局部特征子向量加权和的表情参数局部子向量；求解将所述视频的全局特征子向量表示为表情基的全局特征子向量加权和的表情参数全局子向量；

23)将表情参数全局子向量与各脸部器官所对应的表情参数局部子向量融合，得到各所述表情基最终的表情参数。

其中，所述步骤22)还包括：在基于误差最小原则求解表情参数局部子向量和表情参数全局子向量时，优先求解使用频度高的表情基的表情参数。

其中，所述步骤22)还包括：基于训练集，分别获取各表情基的使用频度。

其中，所述步骤23)包括：对于参考模型中的每个表情基，在表情参数全局子向量与各脸部器官所对应的表情参数局部子向量中，如果仅有一个非零的该表情基所对应的表情参数，则直接将其作为该表情基最终的表情参数；如果存在多个非零的该表情基所对应的表情参数，则以这些表情参数的平均值作为该表情基最终的表情参数。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够增加人脸动画的稳定性和真实感。

2、本发明不需要对用户进行预先训练，能够尽可能减少用户操作，从而获得更好的用户体验。

3、本发明能够减少计算量，降低内存消耗，因此特别适合移动网络社交应用。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了本发明一个实施例的视频驱动的人脸动画生成方法的流程示意图；

图2示出了本发明一个实施例中一种具有46个表情基的参考模型；

图3示出了本发明一个实施例中20个语义特征变量的示意图；

图4示出了本发明一个实施例中在表情模型中人脸各器官及脸部轮廓上均匀地选取m个特征点的示意图；

图5示出了图2的参考模型中表情基的语义特征向量；

图6示出了本发明一个实施例中在视频中的人脸各器官轮廓及脸部轮廓上均匀地提取二维特征点的示意图；

图7示出了本发明一个实施例中基于语义特征变量，与基于2D点云和基于3D点云进行人脸表情重定向的误差对比；

图8示出了本发明一个实施例的表情参数分区求解的流程示意图；

图9示出了本发明一个实施例中基于表情参数分区求解的重定向结果和表情参数不分区求解的重定向结果的对比；

图10示出了本发明一个实施例中嘴巴周围区域分为2组与不分组求解表情参数时的重定向结果的对比；

图11示出了基于本发明得到的人脸动画结果的一组示例。

具体实施方式

图1示出了本发明一个实施例的视频驱动的人脸动画生成方法的流程示意图，该视频驱动的人脸动画生成方法包括下列步骤1至3：

步骤1：基于语义表情定义，对表情基和视频中的人脸图像进行语义表情映射，得到相应的语义特征向量。如前文背景技术部分所述，参考模型中，每个表情基都是一种典型的表情模型，例如大笑、撅嘴、瞪眼模型等等，它通常是由三维点云构成的3D模型。图2示出了一种具有46个表情基的参考模型。而视频通常由二维图像帧构成，要将二维图像帧中的人脸表情用参考模型中的三维表情基表示，首先就需要将表情基和视频中的人脸表情映射到统一的数学空间。本文中，将这个映射过程称为语义表情映射，相应的统一的数学空间称为语义表情空间。语义表情空间是一个多维空间，每个维度都代表一个从人脸画面中或表情基中提取的反映表情语义信息的特征，该特征称为语义特征变量。语义特征变量包括：描述脸部器官(例如：眉毛、眼睛、嘴巴)周围局部运动的特征变量，以及描述全脸各器官之间相对运动的特征变量。全部维度的语义特征变量构成语义特征向量，这样，将视频中的人脸或表情基映射为语义特征向量，就能够表示出视频中的人脸或表情基的语义表情。

在一个实施例中，定义了20个语义特征变量，图3示出了这20个语义特征变量的示意图。其中，其中眉毛周围的语义特征变量共7个，包括：两眉毛之间的水平距离a1，左眉内眉梢、外眉梢以及眉毛中心与眼睛的垂直距离a2、a3、a4，右眉内眉梢、外眉梢以及眉毛中心与眼睛的垂直距离a5、a6、a7。眼睛周围的语义特征变量共2个，包括：左眼上眼皮与下眼皮之间的最大垂直距离a8，右眼上眼皮与下眼皮之间的最大垂直距离a9。嘴巴周围的语义特征变量共3个，包括：上嘴唇宽度a10，嘴巴的最大宽度a11，嘴巴张开幅度a12。器官相互位置关系的语义特征变量共8个，包括：鼻尖与眼睛垂直距离a13、右嘴角与眼睛的垂直距离a14、左嘴角与眼睛的垂直距离a15、鼻尖与右嘴角的水平距离a16、鼻尖与左嘴角的水平距离a17、鼻尖与上嘴唇右尖的垂直距离a18、鼻尖与上嘴唇左尖的垂直距离a19、鼻尖与上嘴唇中心的垂直距离a20。

从二维特征点集合中提取语义特征变量的过程，本质上是放大了那些与人脸表情所代表的语义直接相关的特征信息，丢弃了那些与人脸表情所代表的语义无关联的信息，因此具有一定的去噪效果，能够帮助提高最终的人脸表情估算的准确度。

步骤2：基于误差最小原则，将所述视频的语义特征向量表示为表情基的语义特征向量的加权和，并将与各表情基的语义特征向量的加权系数作为表情参数。

视频中所提取的一个语义表情可以由一系列表情基组合而成。假设b₀是参考模型中的中性表情,b₁,...,b_n是n个不同的表情基，令ΔB＝[b₁-b₀,...,b_n-b₀]，用x＝[x₁,...,x_n]表示表情参数，则视频所映射的语义表情F可以表示为：

F＝b₀+ΔB x (1)

求解表情参数x＝[x₁,...,x_n]的过程就是估算视频表情的过程。在语义表情空间，视频中所提取的语义表情对应于该视频所映射的语义特征向量FES，第i个表情基对应的语义特征向量为FES_i，其中i＝1，2，3，…，n。

公式(1)表情参数的求解可以转化为基于误差最小原则的表情参数估计，即对以下的最小值问题的求解：

目前，已存在多种基于误差最小原则的表情参数估计方法，例如G-I方法(参考文献：Goldfarb,D.,& Idnani,A.(1983).A numerically stable dual method for solvingstrictly convex quadratic programs.Mathematical programming,27(1),1-33.)。

步骤3：根据所获得的表情参数和相应的参考模型的表情基，生成与所述视频表情一致的人脸动画，从而完成人脸表情重定向。估计表情参数之后，将之直接映射到虚拟角色上，即基于表情参数直接对虚拟角色的表情基的加权叠加，从而得到虚拟角色的动画。在一个例子中，虚拟角色是由一个网格组成的，通过对网格上每一个顶点的改变来获得连续的动画结果，这里的每帧顶点的位置由虚拟角色的表情基的相应顶点位置进行加权叠加得出，最终就合成了表情动画。

在一个实施例中，所述步骤1中，对参考模型表情基的语义表情映射通过预处理实现。通常来说，参考模型具备1个无表情(即中性表情)模型和n个不同的表情模型(即表情基)，它们存储为网格模型的形式{B₀,B₁,B₂,…,B_n}。这些网格模型具备完全相同点数，面片数和拓扑结构，即网格模型中点的联接方式都是一致的，点的位置也是一一对应的。任选一个表情模型(例如中性表情模型或者任意一个表情基)，在人脸各器官及脸部轮廓上均匀地选取m个特征点，如图4所示。按照特征点在中性表情的下标，计算其它所有的表情基的特征点位置，得到无表情模型的特征点b₀和n个表情基的特征点{b₁,...,b_n}。本实施例中，n＝46，m＝87。

进一步地，根据前文所述的语义表情定义，可以写出转换矩阵M_FES(转换矩阵M_FES可以是稀疏矩阵)，将每个表情基的特征点集转换为语义特征向量。转换方法为：

FES(P)＝M_FES·Vec(P)

其中，P是任意表情基的一组二维特征点，FES(P)为与P对应的语义特征向量，函数Vec(·)是列向量化操作P。对参考模型的n+1个特征点组{b₀,b₁,...,b_n}进行转换操作，即可得到n+1个语义表情基{FES₀,FES₁,...,FES_n}。语义表情基就是前文所述表情基的语义特征向量。以图2中的参考模型为例，该参考模型中表情基的语义特征向量如图5所示，图5中横坐标表示语义特征变量的序号，纵坐标表示语义特征变量的数值，其单位为毫米。

在一个实施例中，所述步骤1中，基于AAM(全称active appearance model)算法追踪人脸，在人脸各器官轮廓及脸部轮廓(例如眉毛、眼睛、鼻子、嘴巴和下半边脸轮廓)上均匀地提取二维特征点，如图6所示，然后在基于所提取的二维特征点集合计算语义表情空间中各个维度的语义特征变量，例如前文中所述的20个语义特征变量，从而实现视频中的人脸图像的语义表情映射。图7示出了基于语义特征变量，与基于2D点云和基于3D点云进行人脸表情重定向的误差对比。2D点云指的是二维特征点集，3D点云指的是三维特征点集。对比实验设计如下：用Vicon(一种精确采集表情特征点的设备)采集了9段表情，总共有17016帧，时长为6.5分钟。将这组数据，分别用3D点云、3D点云向摄像机透视投影的2D点云，2D点云计算得到的语义信息作为表情定义，运用相同的参数优化方法求取表情参数，然后将此三类参数估算的表情与源采集的数据比较误差，结果是3D点云表情的所有标记点平均误差为0.44mm(这个结果作为最理想的情况)，语义表情的所有标记点平均误差为0.84mm，2D点云的所有标记点平均误差为1.08mm(如图7所示)，实验证明了语义表情的有效性，并且基于语义特征变量的表情的定义方法要显著优于二维特征点作为表情定义，而相对于3D点云，基于语义特征变量的表情的定义方法能够极大地节省计算量，使得视频驱动的人脸动画更加适合于智能手机等移动应用场景。

进一步地，由于参考模型与当前用户并非同一人，他们具有不同的头部形状、人脸特征。因此，在一个实施例中，所述步骤1中，将当前帧的语义表情映射到参考模型的语义表情空间时，不同人的追踪特征点需要进行语义表情归一化。从初始语义信息(即正脸无表情时计算的语义信息)中计算每个用户语义表情的归一化映射，此映射的映射系数就是所有初始化语义值与参考语义值的比值任意此用户的其它语义表情可以归一化为：FES_reference＝k_mapFES_user这里，FES_user和FES_reference分别是用户和参考模型的语义表情，FES^neutral是初始语义表情，即无表情时的语义参数。这样，我们就能将任意用户的语义表情归一化到参考模型的语义表情空间，归一化后的语义表情已经与参考模型具备相同尺度，就可以直接进行相互运算了。

在一个实施例中，所述步骤1中，在基于AAM算法提取二维特征点后，先对这些二维特征点进行预处理，以进一步地提高降噪能力，然后再基于预处理后的二维特征点集合计算语义表情空间中各个维度的语义特征变量，从而实现视频中的人脸图像的语义表情映射。一般通用的人脸特征点提取方法所提取的二维特征点都会带有一定的噪声，这个噪声包含头部摆动造成的摆动噪声，以及抖动噪声等。本实施例中，首先进行简单的头部姿态的去绝对朝向，得到第一次降噪结果，然后对第一次降噪结果再进行高斯滤波来减少抖动。

在一个实施例中，所述步骤1中，对二维特征点进行预处理的过程包括：首先记录一帧正面头部姿态的人脸二维特征点集x＝{x₁,...,x_m}，那么任意头部姿态的人脸特征点集y＝{y₁,...,y_m}可以认为是由x做旋转平移缩放得到的，即视频中任意时间的记录的人脸特征点集y可以认为是由x旋转平移缩放的结果。本实施例定义x和y分别是n×2的矩阵，然后计算xy的协方差矩阵Σ_xy＝(Σ(y_i-μ_y)(x_i-μ_x)^T)/n，其中μ_x,μ_y分别是特征点x与y的均值。对此协方差矩阵进行奇异值分解：Σ_xy＝UDV^T，U，D，V^T分别表示：左奇异向量组成的矩阵、对角阵和右奇异向量组成的矩阵的转置。由得出任意头部姿态的人脸特征点去绝对朝向之后的点为：

R＝USV^T，T＝μ_y-sRμ_x，

将y′作为进行过一步降噪处理之后的特征点，R、T和s分别作为头部姿态的估计，依次为相对于正面头部姿态的旋转、平移和缩放。然后，对特征点y′和头部姿态的旋转R、平移T和缩放s分别进行减少抖动处理。本实施例用高斯分布的密度函数作为滤波函数，定义一个容量为cn的滤波器{g_i＝exp(x² _i/2σ²)/Σ|i＝1,...,cn}，其中x_i＝-0.5cn+i，σ＝(cn²-1)/12，Σ是滤波器中所有权值的加和。在实时系统中，将这个滤波器前后对折，形成了一个仅包含中心和前半部分的“半个滤波器”，即形成一个容量为cn/2+1的滤波器{g_i＝2exp(x² _i/2σ²)/Σ|i＝1,...,cn/2+1}。将这个滤波器作用于特征点流，获得的新特征点流具备抖动小的特征点，这样就完成了数据的减少抖动。本实例中，去绝对朝向后的特征点使用的滤波器容量为3，而头部姿态使用的滤波器容量为5。

在一个实施例中，所述步骤2中，通过将表情参数分区来优化式(2)的最小值问题求解，以估算更加逼真地人脸表情。图8示出了本实施例的表情参数分区求解的流程示意图，包括下列子步骤：

步骤21：对于语义特征向量，基于其中描述脸部器官周围局部运动的特征变量，构造分别与各脸部器官相对应的多个局部特征子向量，基于其中描述全脸各器官之间相对运动的特征变量，构造全局特征子向量。参考图8，本步骤就是基于语义特征向量获取分区的语义信息。在一个例子中，按照人脸肌肉的分布，将人脸分为四大块：眉毛周围、眼睛周围、嘴巴周围、全脸。相应地，语义特征向量FES按照区域分成多个子向量{FES⁽¹⁾,...,FES⁽⁴⁾}，其中眉毛周围、眼睛周围、嘴巴周围区域所对应的子向量为局部特征子向量，全脸所对应的子向量为全局特征子向量，每个子向量包含相应区域的语义特征变量，以图3为例，眉毛周围的子向量的语义特征变量包括：两眉毛之间的水平距离a1，左眉内眉梢、外眉梢以及眉毛中心与眼睛的垂直距离a2、a3、a4，右眉内眉梢、外眉梢以及眉毛中心与眼睛的垂直距离a5、a6、a7。对于眉毛周围的子向量，除了上述7个维度外，20维的语义特征空间中的其余维度均置0。其余局部区域和全局区域所对应的语义特征变量的构造可参考前文，此处不再赘述。

步骤22：基于误差最小原则，求解将所述视频的局部特征子向量表示为表情基的局部特征子向量加权和的表情参数局部子向量；求解将所述视频的全局特征子向量表示为表情基的全局特征子向量加权和的表情参数全局子向量。在构造全局特征子向量和多个局部特征子向量后，式(2)可相应地改进为：

其中，BN^(j)是第j区域的表情基数目，是第j区域对应的表情参数。FES^(j)是视频中提取的第j区域的特征子向量，是第i个表情基的第j区域的特征子向量。第j区域的特征子向量是前文所述的局部特征子向量或者全局特征子向量。

在参考模型中，有的表情基只有一个局部区域(例如眉毛周围，眼睛周围或者嘴巴周围)发生了运动，这一类表情基就划分到相应的局部区域，有的表情基多个器官处均发生了运动，则这一类表情基同时划分到相应的局部区域和全脸区域。在分区域求解后，每个区域都会获得各自对应的表情参数向量。为便于描述，本文中将全脸区域对应的表情参数向量称为表情参数全局子向量，将局部区域(例如眉毛周围，眼睛周围或者嘴巴周围)对应的表情参数向量称为表情参数局部子向量。

步骤23：将表情参数全局子向量与各脸部器官所对应的表情参数局部子向量融合，得到各所述表情基最终的表情参数。在一个实施例中，对于参考模型中的每个表情基，在表情参数全局子向量与各脸部器官所对应的表情参数局部子向量中，如果仅有一个非零的该表情基所对应的表情参数，则直接将其作为该表情基最终的表情参数；如果存在多个非零的该表情基所对应的表情参数，则以这些表情参数的平均值作为该表情基最终的表情参数，即最终的动画参数。

图9示出了基于表情参数分区求解的重定向结果和表情参数不分区求解的重定向结果的对比。图9中，左边是视频中的一帧，中间是基于表情参数分区求解的重定向结果，右边是表情参数不分区求解的重定向结果，可以看出基于表情参数分区求解的重定向结果能够更加准确地表现局部区域的细节特征，使得整体上的表情更加准确。

进一步地，在一个优选实施例中，对式(3)进行求解时，优先求解使用频度高的表情基的表情参数。即依照表情基使用频度从高到低，依次对这些表情基优化表情参数。每步优化完成，优化目标都要减掉优化参数所表达的表情，因此越早优化的参数权重越大，这依次突出了表情基的使用频度。基于表情基的使用频度，原最小值问题式(2)的求解过程可改进为：FES^[1]＝FES，FES^[i+11]＝FES^[i]-x_iFES_i。

这样，针对具有n个表情基的参数优化，最小值问题的1次求解分成n次求解。由于每次最小值求解是本算法的主要耗时部分，因此需要尽量减少求解次数以加快算法的速度。结合将语义参数分为4个部分的分区优化，按照表情基相对中性表情的运动所在区域不同，将之也分成对应的4个组，依次求取同区域的表情基的表情参数。次序由区域的表情基频度之和由高到低决定。那么，原来的最小值问题(3)可改进为：

其中，k^(j)是为不同的分区的表情参数集赋予的不同的权重。由于每次求解后，都会减去前次求解的表情，因此越早求解的表情参数获得的权重越大，这符合其对应的表情基使用频度更高的规律。在一个实施例中，由于嘴巴周围区域的表情基较多，为了能更好地区分这个区域里的表情基权重，进一步将这个区域的表情基再分为2组，优先求解嘴巴周围区域对称的表情基所在分组的表情参数。图10是嘴巴周围区域分为2组与不分组求解表情参数时的重定向结果的对比。图10中，左边是视频中的一帧，中间是嘴巴周围区域分为2组求解表情参数时的重定向结果，右边是嘴巴周围区域不分组求解表情参数时的重定向结果，可以看出分为2组求解表情参数时的重定向结果更加准确。

综上所述，本发明通过提取语义表情特征并基于语义特征向量(包括描述脸部器官周围局部运动的特征变量，以及描述全脸各器官之间相对运动的特征变量，通常这些特征变量即可表示出人脸表情的语义)进行参数估计，能够放大那些与人脸表情所代表的语义直接相关的特征信息,帮助提高最终的人脸表情重定向的准确度，进而增加人脸动画的稳定性和真实感。图11是基于本发明得到的人脸动画结果的一组示例，图中上排图像为视频中的人脸，下派为重定向结果。可以看出，本发明能够准确逼真地重定向各种人脸表情。另外，本发明不需要建立大的数据库，不需要对用户进行预先训练，能够尽可能减少用户操作，从而获得更好的用户体验。再者，本发明的计算量相对较小，能够降低内存消耗，实时性好，可以方便地植入智能手机，用于移动社交领域。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种视频驱动的人脸动画生成方法，其特征在于，包括下列步骤：

1)从视频的人脸图像中提取所述视频的语义特征向量，所述语义特征向量由多个语义特征变量组成，所述语义特征变量包括：描述脸部器官周围局部运动的特征变量，以及描述全脸各器官之间相对运动的特征变量；

2)基于由多个表情基构成的参考模型，将所述视频的语义特征向量表示为各表情基的语义特征向量的加权和，并将与各表情基的语义特征向量的加权系数作为表情参数；

3)基于步骤2)所获得的表情参数和相应的参考模型的表情基，生成与所述视频表情一致的人脸动画；

所述步骤1)、2)中，所述描述脸部器官周围局部运动的特征变量包括：描述眉毛周围局部运动的特征变量，描述眼睛周围局部运动的特征变量，以及描述嘴巴周围局部运动的特征变量；

所述描述眉毛周围局部运动的特征变量包括两眉毛之间的水平距离，左眉内眉梢、外眉梢、眉毛中心与左眼的垂直距离，以及右眉内眉梢、外眉梢、眉毛中心与右眼的垂直距离；

所述描述嘴巴周围局部运动的特征变量包括上嘴角宽度、嘴巴最大宽度和嘴巴最大张开幅度；

所述描述全脸各器官之间相对运动的特征变量包括：鼻眼之间，嘴眼之间以及鼻嘴之间的距离特征变量；

所述鼻眼之间的距离特征变量包括：鼻尖与两眼中心的垂直距离；嘴眼之间的距离特征信息包括：左嘴角与眼睛的垂直距离，以及右嘴角与眼睛的垂直距离；鼻嘴之间的距离特征信息包括：鼻尖与左嘴角的水平距离、鼻尖与右嘴角的水平距离、鼻尖与上嘴唇中心的垂直距离、鼻尖与上嘴唇左尖的垂直距离，以及鼻尖与上嘴唇右尖的垂直距离；

所述步骤2)包括下列子步骤：

2.根据权利要求1所述的视频驱动的人脸动画生成方法，其特征在于，所述步骤22)还包括：在基于误差最小原则求解表情参数局部子向量和表情参数全局子向量时，优先求解使用频度高的表情基的表情参数。

3.根据权利要求2所述的视频驱动的人脸动画生成方法，其特征在于，所述步骤22)还包括：基于训练集，分别获取各表情基的使用频度。

4.根据权利要求1所述的视频驱动的人脸动画生成方法，其特征在于，所述步骤23)包括：对于参考模型中的每个表情基，在表情参数全局子向量与各脸部器官所对应的表情参数局部子向量中，如果仅有一个非零的该表情基所对应的表情参数，则直接将其作为该表情基最终的表情参数；如果存在多个非零的该表情基所对应的表情参数，则以这些表情参数的平均值作为该表情基最终的表情参数。

5.根据权利要求1所述的视频驱动的人脸动画生成方法，其特征在于，所述步骤1)还包括：捕获视频中人脸图像的二维特征点，并从所述二维特征点中提取出所述视频的语义特征向量。