CN1920880A

CN1920880A - 一种基于视频流的人脸表情幻想方法

Info

Publication number: CN1920880A
Application number: CN 200610053394
Authority: CN
Inventors: 庄越挺; 张剑; 肖俊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2007-02-28
Anticipated expiration: 2026-09-14
Also published as: CN100403338C

Abstract

本发明公开了一种基于视频流的人脸表情幻想技术用来根据一张输入的中性人脸表情图像合成相应的多种表情序列。算法步骤为：1)手工从输入人脸图像中选择人脸兴趣子区域；2)计算其在样本空间中的k近邻以及相应的m维特征坐标；3)用近邻的m维坐标和特征表示训练径向基函数；4)以输入图像的坐标作为径向基函数的输入得到对应的特征表示，进而逐帧合成人脸兴趣子区域的动态序列；5)将合成的动态序列逐帧移植到输入的中性人脸表情图像上得到最终表情效果。本发明提供的人脸表情幻想技术能够根据一幅图像快速产生丰富合理的多种动态表情序列，具有极大的创新性，并在人机交互、电影制作和游戏娱乐等方面有较高的应用价值。

Description

一种基于视频流的人脸表情幻想方法

技术领域

本发明涉及数字图像处理领域中一种基于视频流的人脸表情幻想方法。

背景技术

人脸表情幻想技术属于一种表情合成技术，目前的表情合成方法主要分为三类：基于类比的表情合成，基于重定向的表情合成以及基于学习的表情合成。基于类比的表情合成方法中有代表性的是Qingshan Zhang等人开发的“形状驱动的人脸表情合成系统”，此项工作公布于《欧洲图形学/美国计算机学会计算机图形专业组计算机动画座谈会2003年会议论文集》(Eurographics/SIGGRAPH Symposium on Computer Animation，San Diego，CA(2003)177-186)上，该系统通过比较人脸图像的形状特征混合恰当的图像子区域从而产生具有真实感的人脸表情。Zicheng Liu等人的工作可以看作是基于类比的表情合成方法，他们用表情比率图来表示人脸表情的细微光照变化，通过结合图像的几何形变，可以将表情比率图映射至任意人脸从而产生真实感表情，此项工作公布于《美国计算机学会计算机图形专业组2001年会议论文集》(Proceedings of ACM SIGGRAPH.Los Angeles，Califomia(2001)271-276)。人脸表情幻想是一种基于学习的表情合成技术，“人脸幻想”是由Kanad第一次在2000年IEEE自动人脸和姿态识别国际会议上(the Fourth IEEE International Conference on AutomaticFace and Gesture Recognition.Grenoble，France(2000)83-88)公布，其出发点是基于样本学习将输入的低分辨率人脸图像恢复为高分辨率人脸图像，这实质上是图像超分辨率技术在人脸方面的应用。Ce Liu在2001年IEEE计算机视觉与模式识别国际会议上(IEEE Computer SocietyConference on Computer Vision and Pattern Recognition.Kauai Marriott，Hawaii(2001)192-198)公布了一种两步人脸幻想方法达到了同样的目的。Congyong Su等人将人脸幻想扩展至人脸表情合成，从而形成了人脸表情幻想技术，此项工作公布于第七届IEEE计算机视觉应用研讨会(Seventh IEEE Workshops on Application of Computer Vision，Vol.1.(2005)93-98)。人脸表情幻想的目的是给定一张中性表情的人脸图像，幻想出图像中人脸应当具有的各种表情，有两个约束条件必须满足：幻想出的表情本身应当是合理可信的；幻想出的表情应该保持原中性人脸的身份特征，即看起来还是这个人。前面列举的人脸表情合成技术均是基于图像的，而且部分方法需要大量的人工交互，难以满足实际应用的需要。如果能够设计一种动态的人脸表情幻想技术，在较少手工交互的情况下，根据一张图像生成丰富的动态表情序列，必将在人机交互领域得到广泛应用。

发明内容

本发明的目的是提供一种基于视频流的人脸表情幻想方法。

基于视频流的人脸表情幻想方法包括训练阶段和测试阶段两个阶段，训练阶段为捕获多种表情训练视频，对表情视频的每一帧手工切分出感兴趣的表情兴趣子区域，这些构成一个子区域视频序列，采用主成分分析提取每段子区域视频的特征表示ER，ER将在测试阶段用来合成新的表情序列；

测试阶段包括如下步骤：

1)手工从输入人脸图像中选择人脸兴趣子区域作为算法输入I_in，一幅人脸图像的兴趣子区域是最能反映表情特征的子区域，分为眼睛区域和嘴巴区域两块；

2)选择每段训练子区域视频的第一帧作为样本空间，计算I_in在此样本空间中的k近邻I_nb以及相应的m维特征空间中的坐标Y_in和Y_nb；

3)选择与Y_nb对应的特征表示ER_nb并用Y_nb和ER_nb训练径向基函数，得到低维特征空间与视频特征表示之间的映射关系；

4)将Y_in作为输入，利用径向基函数回归得到与I_in对应的特征表示ER_in；

5)利用合成的特征表示ER_in逐帧合成人脸兴趣子区域的动态序列，将此子区域逐帧移植到输入的中性人脸图像获得最终合成的动态表情序列。

所述的对表情视频的每一帧手工切分出感兴趣的表情兴趣子区域：对于一幅人脸图像，手工确定两眼和两嘴角的准确位置，以两跟连线l_e和两嘴角连线l_m为水平基准线分别向上下推移一定距离，从两外侧眼角和两侧嘴角向左右两侧各推移一定距离，这个矩形子区域看作是人脸兴趣子区域，推移的距离分别按l_e和l_m的特定比例确定。

采用主成分分析提取每段子区域视频的特征表示：对每一视频帧，以像素列为单位把所有列叠加在一起构成一个列向量，所有列向量构成的样本矩阵X就表示了整段视频，用 X表示均值矩阵，其中每一列 X₁均为X的列均值向量，则

\tilde{X} = (X - \overset{&OverBar;}{X}) / N^{1 / 2}

可看作是X的规范化形式，其中N是这段视频包含的帧数，对

进行QR因子分解，得到

[q, r] = QR (\tilde{X}),

进一步对r进行奇异值分解，得到{u，s，v]＝SVD(r)，则主成分分析的特征向量U可由下式得到：U＝q·u，接下来将每一视频帧f投射到这组特征向量上得到f的重建系数y＝U^T·(f- X¹)，则表示重建后的f，

\tilde{f} = U \cdot y + {\overset{&OverBar;}{X}}^{1},

U，y和 X¹组成了一个视频帧的特征表示er，每帧视频都可由er按照上面的步骤进行重建，ER代表了整段视频的特征表示。

计算I_in在此样本空间中的k近邻I_nb以及相应的m维特征空间中的坐标Y_in和Y_nb按如下方法：

1)计算I_in与样本空间中每幅图像I_s的欧氏距离‖I_in-I_s‖²，按照距离大小进行排序，选择前k个距离最小的样本组成I_in的k近邻I_nb；

2)设样本空间中共有N幅图像，此N幅图像和I_in构成一个集合，此集合中每一幅I均可看作由其余图像按权重w线性组合得到，总的重建误差为

ϵ (w) = Σ_{i = 1}^{N + 1} {| | I_{i} - Σ_{j = 1}^{N + 1} w_{i} I_{j} | |}^{2},

其中∑w_i＝1，且当I_j不在I_i的k近邻中时，w_j＝0，令I¹表示I的近邻，定义G＝(I1^T-I¹)^T(I1^T-I¹)，其中1表示k×1的列向量，则组合权重可计算如下，w_j＝G^-11/(1^TG^-11)；

3)令W表示N+1维的权重方阵，其中w_ij可按上步计算，定义M＝(I-W)^T(I-W)，其中I是单位矩阵，求取M的m+1个最小特征值对应的特征向量并保留其中m个较大特征向量，此m个特征向量即表示I_i和I_nb的m维特征空间坐标Y_in和Y_nb。

用Y_nb和ER_nb训练径向基函数为：选择Y_nb和对应的特征表示ER_nb训练径向基函数

{ER}_{nb} = β_{0} + Σ_{i = 1}^{n} β_{i} K (Y_{nb}, μ),

利用最小二乘算法解得径向基函数参数β；n为基函数的个数，K为核函数，μ为训练中心数据，设定为将Y_nb聚类后每个类簇的质心，类簇的个数等于N/k，即样本数目与近邻个数的商。

利用合成的特征表示ER_in逐帧合成人脸兴趣子区域的动态序列为：将Y_in作为径向基函数的输入，回归得到与I_in对应的特征表示ER_in，利用此ER_in逐帧合成人脸兴趣子区域的动态序列，将此子区域手工逐帧移植到输入的中性人脸图像获得最终合成的动态表情序列。

本发明的有益效果：

以往的技术通常局限于图像的合成，而忽略了人脸表情本身的动态特性，本发明突破了这个思路，采用视频的特征表示代表一段视频，利用邻域样本合成与输入图像对应的表情视频序列。本发明根据一张中性表情图像可高效地合成多种表情视频序列，结果真实自然，具有较高的可信度，较之中性表情具有更强的表现力，有利于使用有限的素材进行动画制作、游戏开发以及人机交互界面设计，在影视动画创作、游戏娱乐等领域有广泛用途。

附图说明

图1是基于视频流的人脸表情幻想方法流程示意图；

图2是本发明的人脸表情的兴趣子区域示意图；

图3是本发明的训练样本中不同人的兴趣子区域示意图；

图4(a)是本发明的输入中性表情人脸图像；

图4(b)是本发明的根据输入中性人脸表情图像幻想得到的惊讶表情序列与真实惊讶表情序列对比示意图；

图5(a)是本发明的输入中性人脸表情图像；

图5(b)是本发明的根据输入中性人脸表情图像幻想得到的高兴表情序列与真实高兴表情序列对比示意图；

图6(a)是本发明的输入中性人脸表情图像；

图6(b)是本发明的根据输入中性人脸表情图像幻想得到的愤怒表情序列与真实愤怒表情序列对比示意图。

具体实施方式

本发明是根据输入的一张中性人脸表情图像合成动态的表情视频序列，其原理是：建立训练视频的特征表示与视频首帧在特征空间中的坐标之间的映射关系，然后通过度量输入图像和训练视频首帧在特征空间中的相似度，按照训练得到的映射关系，利用相似的邻域训练视频来合成表情序列。

样本视频和测试图像包含正面无遮挡的人脸，且具有相同的图像分辨率。当输入图像的分辨率有所变化时，将训练视频的分辨率手工调至与测试图像相仿即可执行算法。为了能处理多种分辨率的输入图像，我们离线地调整所有训练视频分辨率，形成了多个分辨率的训练视频库，分别包含1920×1080，1024×768，800×600像素分辨率的视频帧。为了建立包含多种表情的表情视频样本集，我们对40个志愿者进行表情视频摄制，每个志愿者拍摄三段典型的表情，即惊讶、高兴和愤怒，每段视频限定为50帧，包含了从中性表情直到表情最大值的动态变化过程。

在训练时我们需要离线地对训练视频进行预处理，首先手工截取训练视频的表情兴趣区域(图2深色矩形方框内的区域)，然后使用主成分分析方法获得每段训练子区域视频的特征表示ER。手工截取训练视频的表情兴趣区域方法如下：只需确定两眼中心点的位置和两嘴角的位置并固定这些特征点在兴趣区域内的相对位置，兴趣区域可根据这些显著特征点的位置自动圈定。在主成分分析方法中需要设置特征向量的数目，在本发明中，我们通过将重建图像与原始图像之间的均方根误差限定在某个阈值范围内确定特征向量的个数，经验表明特征向量设定为10到15个即可恢复原始图像98％的信息，因此在训练过程中我们将特征向量个数设定为12个。一旦获得了每段训练视频的特征表示，我们将这些特征表示存储下来以作视频合成。当有新的训练视频加入视频库时，只需计算并存储这些新视频的特征表示即可，因此训练过程可以增量式进行，十分快捷有效。

如图1所示，基于视频流的人脸表情幻想方法实施如下：

1：手工截取输入图像的表情兴趣区域，作为算法输入I_in。此方法与训练过程中截取表情兴趣区域的方法完全相同，例如：当输入图像为1920×1080像素时，眼睛兴趣区域应为400×200像素，嘴巴兴趣区域应为200×300像素。在手工截取时，我们只需确定两眼中心点的位置和两嘴角的位置并固定这些特征点在兴趣区域内的相对位置，兴趣区域可根据这些显著特征点的位置自动圈定。

2：选择每段训练子区域视频的第一帧作为样本空间，计算I_in在此样本空间中的k近邻I_nb以及相应的m维特征空间中的坐标Y_in和Y_nb。这一步骤是在训练视频中找到与输入图像最接近的k个样本，并对输入图像和这k个样本进行维度约减，得到最能代表这些数据的m维低维特征坐标。在进行维度约减的时候，算法涉及到邻域的大小k和维度m，目前在这一领域内还没有方法能够自动决定最优的k和m，因此我们进行多次实验，挑选能够使最终合成的图像与真实图像之间误差最小的参数值。实验表明，当k在8到17之间，m在8到16之间取值时，算法效果最优。

3：选择与Y_nb对应的特征表示ER_nb。由于每段训练视频对应一个ER，而Y则代表了这段训练视频首帧的低维特征，因此Y和ER之间显然存在一个一一对应，所以我们只需要定位Y_nb在整个低维特征空间矩阵中的位置，并在特征表示空间中的相同位置选择出ER_nb即可。

4：这一步骤是要用Y_nb与ER_nb训练径向基函数，得到低维特征空间与特征表示空间之间的映射关系。在训练径向基函数时，核函数的中心可以由样本聚类的质心表示，而类簇的数目等于样本的数目与k的商。例如样本的数目为32，k取值为8，则类簇的数目为4，核函数中心即为这4个类簇的质心。

5：将Y_in作为输入，利用径向基函数回归得到与I_in对应的特征表示ER_in。此步骤根据训练得到的映射关系，由输入图像的兴趣区域估计出对应的表情兴趣区域视频的特征表示，特征表示是这段兴趣区域视频的表示方式。

6：由于特征表示是由主成分分析方法得到的，因此根据步骤5得到的特征表示可以逆向重建出兴趣区域视频的每一帧。重建出的兴趣区域同样包括眼睛区域和嘴巴区域，分别为400×200和200×300像素分辨率，表征了输入图像的眼睛和嘴巴在表情运动时所应当具有的视觉外观。

7：将得到的一系列表情兴趣区域逐帧移植至输入的中性人脸图像上，即可得到最终的表情幻想结果。移植时，我们只需要确定兴趣区域中眼睛中心点和两嘴角的位置，将这些特征点的位置与输入中性人脸的特征点位置重叠，然后就可自动使用合成的表情兴趣区域覆盖输入中性人脸的兴趣区域，每帧重复这种做法即可得到连续的表情视频。

图3描述了部分样本人脸表情兴趣区域视频的首帧，由于人脸表情是从中性过渡到表情的最大幅度，因此图示为中性表情图像。

我们选择40个志愿者中的32个人用作训练，其余8个人用作测试，对于三种表情的测试结果如下：

实施例1

惊讶表情序列幻想实施例：

1：输入图像为1920×1080像素，手工确定图像上双眼瞳孔的位置，双眼瞳孔水平间距为190像素，从双眼瞳孔分别向左右各推移105个像素宽度、向上下各推移100个像素宽度，得到400×200像素的眼睛子区域；手工确定图像上两嘴角的位置，两嘴角水平间距为140像素，从两嘴角分别向左右各推移80个像素宽度、向上下分别推移150和50个像素宽度，得到300×200像素的嘴巴子区域，此眼睛子区域和嘴巴子区域构成了此输入图像的人脸表情兴趣子区域。

2：将眼睛周围子区域和嘴巴周围子区域分别作为I_in，选择相应训练子区域视频的第一帧作为样本空间，使用局部线性嵌入算法在此样本空间中选择12个样本构成I_in的近邻I_nb，计算I_in和I_nb的9维特征空间坐标Y_in和Y_nb。

3：选择与Y_nb对应的特征表示ER_nb。

4：用Y_nb与ER_nb训练径向基函数，对Y_nb使用K近邻算法聚为3类，选择每类的质心作为核函数中心。

5：将Y_in作为输入，利用径向基函数回归得到与I_in对应的特征表示ER_in。

6：使用ER_in根据主成分分析算法，逆向重建出兴趣子区域视频的每一帧。重建出的兴趣子区域同样包括眼睛子区域和嘴巴子区域，分别为400×200和200×300像素分辨率。

7：在输入图像上手工标定两眼瞳孔位置，由于合成的眼睛子区域中瞳孔的位置是已知的，因此只需将合成的眼睛子区域中瞳孔位置与输入图像中瞳孔逐帧位置对齐，眼睛区域即可复制到输入图像，同样嘴巴区域也可以复制到输入图像，这样就形成了最终的表情视频。

图4是一个惊讶表情幻想效果示意图，共包括两个测试者。图4(a)描述了输入的中性人脸表情图像，图4(b)则是幻想得到的惊讶表情序列与真实惊讶表情序列的对比，其中第一行是真实的人脸表情，第二行是幻想得到的人脸表情。

本例根据一张输入的中性人脸表情产生动态的惊讶表情序列，且产生的表情非常逼真，较之中性表情具有更强的表现力，可用于影视特技制作。

实施例2

高兴表情序列幻想实施例：

1：输入图像为1920×1080像素，手工确定图像上双眼瞳孔的位置，双眼瞳孔水平间距为188像素，从双眼瞳孔分别向左右各推移106个像素宽度、向上下各推移100个像素宽度，得到400×200像素的眼睛子区域；手工确定图像上两嘴角的位置，两嘴角水平间距为144像素，从两嘴角分别向左右各推移78个像素宽度、向上下分别推移150和50个像素宽度，得到300×200像素的嘴巴子区域，此眼睛子区域和嘴巴子区域构成了此输入图像的人脸表情兴趣子区域。

2：将眼睛周围子区域和嘴巴周围子区域分别作为I_in，选择相应训练子区域视频的第一帧作为样本空间，使用局部线性嵌入算法在此样本空间中选择16个样本构成I_in的近邻I_nb，计算I_in和I_nb的9维特征空间坐标I_in和Y_nb。

3：选择与Y_nb对应的特征表示ER_nb。

4：用Y_nb与ER_nb训练径向基函数，对Y_nb使用K近邻算法聚为2类，选择每类的质心作为核函数中心。

图5是一个高兴表情幻想效果示意图。图5(a)描述了输入的中性人脸表情图像，图5(b)则是幻想得到的高兴表情序列与真实高兴表情序列的对比，其中第一行是真实的人脸表情，第二行是幻想得到的人脸表情。

本例根据一张输入的中性人脸表情产生动态的高兴表情序列，产生的表情较为自然，较之中性表情具有更强的表现力，可面向用于面向娱乐的游戏制作。

实施例3

愤怒表情序列幻想实施例：

1：输入图像为1920×1080像素，手工确定图像上双眼瞳孔的位置，双眼瞳孔水平间距为186像素，从双眼瞳孔分别向左右各推移107个像素宽度、向上下各推移100个像素宽度，得到400×200像素的眼睛子区域；手工确定图像上两嘴角的位置，两嘴角水平间距为138像素，从两嘴角分别向左右各推移81个像素宽度、向上下分别推移150和50个像素宽度，得到300×200像素的嘴巴子区域，此眼睛子区域和嘴巴子区域构成了此输入图像的人脸表情兴趣子区域。

2：将眼睛周围子区域和嘴巴周围子区域分别作为I_in，选择相应训练子区域视频的第一帧作为样本空间，使用局部线性嵌入算法在此样本空间中选择8个样本构成I_in的近邻I_nb，计算I_in和I_nb的10维特征空间坐标Y_in和Y_nb。

3：选择与Y_nb对应的特征表示ER_nb。

4：用Y_nb与ER_nb训练径向基函数，对Y_nb使用K近邻算法聚为4类，选择每类的质心作为核函数中心。

6：使用ER_in根据PCA算法，逆向重建出兴趣子区域视频的每一帧。重建出的兴趣子区域同样包括眼睛子区域和嘴巴子区域，分别为400×200和200×300像素分辨率。

图6是一个愤怒表情幻想效果示意图。图6(a)描述了输入的中性人脸表情图像，图6(b)则是幻想得到的愤怒表情序列与真实愤怒表情序列的对比，其中第一行是真实的人脸表情，第二行是幻想得到的人脸表情。

本例根据一张输入的中性人脸表情产生动态的愤怒表情序列，产生的表情真是自然，较之中性表情具有更强的表现力，可用于人机交互界面设计以及影视特技制作。

在三个例子中最终产生的表情是动态连续的，表情的过渡真实自然，具有较高的可信度，在游戏娱乐、人机交互以及影视动画创作等领域具有广阔应用前景。

Claims

1.一种基于视频流的人脸表情幻想方法，其特征在于方法包括训练阶段和测试阶段两个阶段，训练阶段为捕获多种表情训练视频，对表情视频的每一帧手工切分出感兴趣的人脸兴趣子区域，这些构成一个子区域视频序列，采用主成分分析提取每段子区域视频的特征表示ER，ER将在测试阶段用来合成新的表情序列；

测试阶段包括如下步骤：

2)选择每段训练子区域视频的第一帧作为样本空间，计算I_in在样本空间中的k近邻I_nb以及相应的m维特征空间中的坐标Y_in和Y_nb；

4)将Y_in作为输入，利用径向基函数回归得到与I_in对应的特征表示EP_in；

2.根据权利要求1所述的一种基于视频流的人脸表情幻想方法，其特征在于所述的对表情视频的每一帧手工切分出感兴趣的人脸兴趣子区域：对于一幅人脸图像，手工确定两眼和两嘴角的准确位置，以两眼连线l_e和两嘴角连线l_m为水平基准线分别向上下推移一定距离，从两外侧眼角和两侧嘴角向左右两侧各推移一定距离，这个矩形子区域看作是人脸兴趣子区域，推移的距离分别按l_e和l_m的特定比例确定。

3.根据权利要求1所述的一种基于视频流的人脸表情幻想方法，其特征在于所述的采用主成分分析提取每段子区域视频的特征表示：对每一视频帧，以像素列为单位把所有列叠加在一起构成一个列向量，所有列向量构成的样本矩阵X就表示了整段视频，用 X表示均值矩阵，其中每一列 X¹均为X的列均值向量，则

\tilde{X} = (X - \overset{&OverBar;}{X}) / N^{1 / 2}

可看作是X的规范化形式，其中N是这段视频包含的帧数，对

进行QR因子分解，得到

[q, r] = QR (\tilde{X}),

进一步对r进行奇异值分解，得到[u，s，v]＝SVD(r)，则主成分分析的特征向量U可由下式得到：U＝q·u，接下来将每一视频帧f投射到这组特征向量上得到f的重建系数y＝U^T·(f- X¹)，则表示重建后的f，

\tilde{f} = U \cdot y + {\overset{&OverBar;}{X}}^{1},

4.根据权利要求1所述的一种基于视频流的人脸表情幻想方法，其特征在于所述的计算I_in在样本空间中的k近邻I_nb以及相应的m维特征空间中的坐标Y_in和Y_nb按如下方法：

ϵ (w) = Σ_{i = 1}^{N + 1} {| | I_{i} - Σ_{j = 1}^{N + 1} w_{j} I_{j} | |}^{2},

其中∑w_j＝1，且当I_j不在I_i的k近邻中时，w_j＝0，令I¹表示I的近邻，定义G＝(I1^T-I¹)^T(I1^T-I¹)，其中1表示k×1的列向量，则组合权重可计算如下，w_j＝G^-11/(1^TG^-11)；

5.根据权利要求1所述的一种基于视频流的人脸表情幻想方法，其特征在于所述的用Y_nb和ER_nb训练径向基函数为：选择Y_nb和对应的特征表示ER_nb训练径向基函数

E R_{nb} = β_{0} + Σ_{i = 1}^{n} β_{i} K (Y_{nb}, μ),

6.根据权利要求1所述的一种基于视频流的人脸表情幻想方法，其特征在于所述的利用合成的特征表示ER_in逐帧合成人脸兴趣子区域的动态序列为：将Y_in作为径向基函数的输入，回归得到与I_in对应的特征表示ER_in，利用此ER_in逐帧合成人脸兴趣子区域的动态序列，将此子区域手工逐帧移植到输入的中性人脸图像获得最终合成的动态表情序列。