CN107610209A

CN107610209A - 人脸表情合成方法、装置、存储介质和计算机设备

Info

Publication number: CN107610209A
Application number: CN201710708218.6A
Authority: CN
Inventors: 盛斌; 郑凌寒; 申瑞民
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2018-01-19

Abstract

本发明涉及一种人脸表情合成方法、装置、存储介质和计算机设备。获取源视频和目标视频中的图像，源视频中的图像包含待合成至目标视频中的图像的表情，对图像中的人脸进行人脸特征点定位。对经过人脸特征点定位后的图像进行3D人脸建模，得到3D人脸模型，在3D人脸模型的形状层面，将源视频中图像的表情对应转移至目标视频中的图像，生成表情转移后的目标视频中的图像的3D人脸模型，对转移后的3D人脸模型进行纹理贴图，得到表情转移后的合成脸模型。将2D人脸图像转换为3D人脸模型，这样能够将脸部的姿态与其形状分离开，用模型参数对表情、形状等部分用参数进行限定。所以对图像进行3D人脸建模可以便捷地实现保持人脸基本特征一致而改变表情的效果。

Description

人脸表情合成方法、装置、存储介质和计算机设备

技术领域

本发明涉及计算机视觉和计算机图形学技术领域，特别是涉及一种人脸表情合成方法、装置、存储介质和计算机设备。

背景技术

近年来，一些研究者提出了“表情转移”技术，即捕捉视频中人脸表情后将其转移予虚拟形象以完成动画制作。这些工作实现了虚拟人物的仿真化，赋予了动画角色更加丰富生动的表情，有效地增添了动画作品的趣味性，提高了视觉效果的真实感。而Thies J与他的同事们则走得更远一步，提出了在不同的真人个体间进行表情转移，其工作内容是：同时获取两个视频，源视频与目标视频，首先捕捉源视频中的人物表情，然后将该表情重现在目标视频中另一个人物的脸上，达到操控目标人物表情的效果。该项技术可以被应用在视频会议、译制片等场景中，将翻译人员的表情转移到说话者的脸上，可以使得嘴型神态与发音更好地匹配，从而带来更加自然舒适的观感体验。但是传统的表情转移方法并不能处理源视频与目标视频中人物姿态不同时的表情转移。

发明内容

基于此，有必要针对上述技术问题，提供一种人脸表情合成方法、装置、存储介质和计算机设备。

一种人脸表情合成方法，所述方法包括：

获取源视频和目标视频中的图像，所述源视频中的图像包含待合成至所述目标视频中的图像的表情；

对所述图像中的人脸进行人脸特征点定位；

对经过人脸特征点定位后的所述图像进行3D人脸建模，得到3D人脸模型；

在所述3D人脸模型的形状层面，将所述源视频中图像的表情对应转移至所述目标视频中的图像，生成表情转移后的目标视频中的图像的3D人脸模型；

对所述转移后的3D人脸模型进行纹理贴图，得到表情转移后的合成脸模型。

在其中一个实施例中，所述对所述图像中的人脸进行人脸特征点定位，包括：

通过Haar分类器进行人脸检测，获得人脸的矩形标记框，所述Haar分类器包含级联的多个强分类器，所述强分类器是由弱分类器组合构成的；

对所述矩形标记框中的人脸进行人脸特征点定位。

在其中一个实施例中，所述对所述矩形标记框中的人脸进行人脸特征点定位，包括：

从训练模型中得到人脸的平均特征点位置；

将所述平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于所述矩形标记框中；

对所述特征点位置进行优化，得到优化后的特征点位置，所述优化后的特征点位置能够与所述矩形标记框中的人脸吻合。

在其中一个实施例中，所述对经过人脸特征点定位后的所述图像进行人脸建模，得到人脸模型，包括：

将经过人脸特征点定位后的所述图像通过SFM模型进行模型拟合，得到人脸模型。

在其中一个实施例中，所述将经过人脸特征点定位后的所述图像通过SFM 模型进行模型拟合得到人脸模型，包括：

采用黄金标准算法计算得到投影矩阵；

获取SFM模型中的初始化网格，所述初始化网格为无表情的平均脸；

根据所述初始化网格中的特征点与人脸特征点定位后的所述图像中的点进行匹配，对所述投影矩阵进行更新；

根据所述无表情的平均脸、人脸特征点定位后的所述图像计算得到表情系数及形状系数；

根据所述相机矩阵、所述表情系数及所述形状系数对人脸特征点定位后的图像进行建模，得到整个人脸的人脸网格。

一种人脸表情合成装置，所述装置包括：

获取图像模块，用于获取源视频和目标视频中的图像，所述源视频中的图像包含待合成至所述目标视频中的图像的表情；

人脸特征点定位模块，用于对所述图像中的人脸进行人脸特征点定位；

人脸建模模块，用于对经过人脸特征点定位后的所述图像进行3D人脸建模，得到3D人脸模型；

表情转移模块，用于在所述3D人脸模型的形状层面，将所述源视频中图像的表情对应转移至所述目标视频中的图像，生成表情转移后的目标视频中的图像的3D人脸模型；

纹理贴图模块，用于对所述转移后的3D人脸模型进行纹理贴图，得到表情转移后的合成脸模型。

在其中一个实施例中，所述人脸特征点定位模块包括：

人脸检测模块，用于通过Haar分类器进行人脸检测，获得人脸的矩形标记框，所述Haar分类器包含级联的多个强分类器，所述强分类器是由弱分类器组合构成的；

定位模块，用于对所述矩形标记框中的人脸进行人脸特征点定位。

在其中一个实施例中，所述定位模块包括：

平均特征点位置获取模块，用于从训练模型中得到人脸的平均特征点位置；

平均特征点位置等比放缩模块，用于将所述平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于所述矩形标记框中；

优化模块，用于对所述特征点位置进行优化，得到优化后的特征点位置，所述优化后的特征点位置能够与所述矩形标记框中的人脸吻合。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

对所述图像中的人脸进行人脸特征点定位；

一种计算机设备，所述计算机设备包括存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对所述图像中的人脸进行人脸特征点定位；

上述人脸表情合成方法、装置、存储介质和计算机设备，首先，从源视频和目标视频中获取图像，分别对获取的图像进行人脸特征点定位。分别对经过人脸特征点定位后的图像进行3D人脸建模，得到3D人脸模型。然后，对3D 人脸模型先在形状层面进行表情转移，之后再进行纹理贴图。最终，得到了表情转移后的合成脸模型。将图像经过人脸特征点定位可以得到不同角度、不同姿态的人脸信息。对经过人脸特征点定位后的图像进行3D人脸建模，得到3D 人脸模型。将2D人脸图像转换为3D人脸模型，这样能够将脸部的姿态与其形状分离开，用模型参数对表情、形状等部分用参数进行限定。所以对图像进行 3D人脸建模可以便捷地实现保持人脸基本特征一致而改变表情的效果。在3D 人脸模型上进行表情转移，之后再进行纹理贴图，由纹理贴图处理得到的图像的纹理效果更加细致、真实。

附图说明

图1为一个实施例中服务器的内部结构图；

图2为一个实施例中人脸表情合成方法的流程图；

图3为一个实施例中人脸特征点分布示意图；

图4为一个实施例中六种表情变形示意图；

图5为一个实施例中表情转移的形状变化示意图；

图6为一个实施例中对图像中人脸特征点定位方法的流程图；

图7为一个实施例中对矩形标记框中的人脸进行人脸特征点定位方法的流程图；

图8为一个实施例中初始平均特征点位置和最终定位特征点位置的示意图；

图9为一个实施例中不同姿态表情下的最终定位特征点位置的示意图；

图10为一个实施例中人脸表情合成方法的流程图；

图11为一个实施例中通过SFM模型得到人脸模型方法的流程图；

图12为一个实施例中人脸表情合成装置的结构示意图；

图13为图12中人脸特征点定位模块的结构示意图；

图14为图13中定位模块的结构示意图；

图15为图12中人脸建模模块的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在一个实施例中，如图1所示，还提供了一种服务器，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口，非易失性存储介质中存储有操作系统和一种人脸表情合成装置，该人脸表情合成装置用于执行一种人脸表情合成方法。该处理器用于提高计算和控制能力，支撑整个服务器的运行。内存储器用于为非易失性存储介质中的人脸表情合成装置的运行提供环境，该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得该处理器执行一种人脸表情合成方法。网络接口用于与终端进行网络通信，接收或发送数据，例如接收终端发送的人脸表情合成的请求，以及向终端发送人脸表情合成后的图片等。

本发明实施例可以实现将从一个视频中捕捉到的人物表情渲染到另一个视频中的人脸上，以达到表情转移的效果。例如，该项技术可以被应用在视频会议、译制片等场景中，将翻译人员的表情转移到说话者的脸上，可以使得嘴型神态与发音更好地匹配，从而带来更加自然舒适的观感体验。当然，也可以使用在动画制作等领域，将从一个视频中捕捉人脸表情后将其转移予另一视频中的虚拟形象以完成动画制作。这些工作实现了虚拟人物的仿真化，赋予了动画角色更加丰富生动的表情，有效地增添了动画作品的趣味性，提高了视觉效果的真实感。

在一个实施例中，如图2所示，提供了一种人脸表情合成方法，以该方法应用于图1中的服务器为例进行说明，包括：

步骤210，获取源视频和目标视频中的图像，源视频中的图像包含待合成至目标视频中的图像的表情。

图1中的服务器可以分别捕捉源视频和目标视频中的图像。源视频中包含了一些具有目标表情的图像，目标表情即为待合成至目标视频中的图像的表情。具体的，目标表情可以为生气、讨厌、恐惧、开心、悲伤、惊讶等各种表情。需要将上述目标表情合成至目标视频中的图像中，使得目标视频中的图像能够具有目标表情。例如，在视频会议、译制片等场景中时，源视频可以是翻译人员的视频。

目标视频为需要对其中的图像进行表情合成的视频。例如，在视频会议、译制片等场景中时，目标视频可以为说话者的视频。

步骤220，对图像中的人脸进行人脸特征点定位。

对捕捉的源视频和目标视频中的图像，通过Haar分类器进行人脸检测，获得人脸的矩形标记框，Haar分类器包含级联的多个强分类器，强分类器是由弱分类器组合构成的。再进一步对矩形标记框中的人脸进行人脸特征点定位。人脸特征点定位又称为人脸对齐(face alignment)，其目的是在人脸检测的基础上，进一步确定脸部特征点，如眉毛、眼睛、鼻尖、嘴角、脸部轮廓等的位置。具体的，本实施例中人脸特征点为68个，请参见图3所示，为人脸特征点分布示意图。

对矩形标记框中的人脸进行人脸特征点定位，具体的，包括：从训练模型中得到人脸的平均特征点位置。将平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于矩形标记框中。对特征点位置进行优化，得到优化后的特征点位置，优化后的特征点位置能够与矩形标记框中的人脸吻合。

步骤230，对经过人脸特征点定位后的图像进行3D人脸建模，得到3D人脸模型。

分别获得了能够与源视频中的图像吻合的特征点位置，能够与目标视频中的图像吻合的特征点位置。对经过人脸特征点定位后的图像进行3D人脸建模，具体为，对经过人脸特征点定位后的图像通过SFM模型进行模型拟合，得到人脸模型。SFM(Surrey FaceModel)模型由英国萨里大学的图像、语音与信号处理中心(Centre of Vision,Speechand Signal Processing at the University of Surrey) 所建立的3D人脸形变模型，是一种可使用的开源模型。该模型有四种不同的规模，分别包含有29387、16759、3448、1724个顶点，每种规模既有仅仅包含形状的模型，也有形状与颜色均包含在内的模型。

SFM的训练集有169个人，既包含十几岁少年也包含六十岁以上老人，以 20-29岁间青年居多。其中，欧洲白种人有101人，剩余为亚洲人、非洲人、拉丁美洲人。因为SFM模型中包含全球各种人种的人，所以拟合的效果比较满意。 SFM由两部分组成：一个PCA形状模型，一个PCA颜色模型。形状和颜色信息用式(4-1)的两个向量分别表示:

s＝(x₁,y₁,z₁,…,x_m,y_m,z_m)^T (1)

t＝(r₁,g₁,b₁,…,r_m,g_m,b_m)^T

这些顶点(xj,yj,zj)∈R3都各自拥有其对应的颜色(rj,gj,bj)∈[0,1]3，于是一张脸可以用上述(1)中两个长度为3m的向量表示。

每一个PCA模型是由式(2)的平均值、标准差和主要成分组成，新的人脸可用式(4-3)描述。

M_s＝(μ_s,σ_s,U_s)、M_t＝(μ_t,σ_t,U_t) (2)

其中μ是平均值，σ是标准差，U＝[u₁,…,u_n]是主要成分(principal components)的n个正交基。由此，任何一个新的人脸模型可以通过主要成分的线性组合来表示：

s(α)＝μ_s+U_sdiag(σ_s)α (3)

t(β)＝μ_t+U_tdiag(σ_t)β

通过改变形状系数α和β可以模拟出长宽胖瘦各异、性别年龄肤色不同的各种人脸模型。但它们的不同之处在于，SFM还对脸部常用特征点，即图3中的68个点进行了标注，有助于应用。更重要的是，SFM还额外提供了六种表情变形(blendshape)，它们分别是生气(anger)、厌恶(disgust)、害怕(fear)、开心(happy)、沮丧(sad)和惊讶(surprised)，如图4所示。由于图4中的图片没有颜色信息，所以各种表情并不是非常直观，但依然能分辨出大致不同。则在用式(3)确定了一个特定人脸形状s(α)之后，我们可以通过调整下式(4)中的表情参数p∈R6得到该人脸在不同表情下的模型：

s′＝s+[b_angerb_disgustb_fearb_happyb_sadb_surprised]p (4)

表情参数p的引入，显然会使得后续表情转移的工作更加的简单易操作。

步骤240，在3D人脸模型的形状层面，将源视频中图像的表情对应转移至目标视频中的图像，生成表情转移后的目标视频中的图像的3D人脸模型。

将身份信息与表情信息均考虑在内，该网格可以用式(3)与式(4)的结合进行表示，即：

s(α)＝μ_s+U_sdiag(σ_s)α+[b_angerb_disgustb_fearb_happyb_sadb_surprised]p (5)

其中α是形状系数，控制了人脸基本形状，决定了该模型的身份信息；而p∈R6为表情系数，控制了人脸表情变化，决定了该模型的表情信息。于是，显然地，我们可以通过保留目标人物的形状系数α，替换表情系数p来达到情转移的目的，用数学表达如下：

s′_synthesized(α)＝μ_s+U_sdiag(σ_s)α_dst+bp_src (6)

式子中的下标src表示源(source)，dst表示目标(destination)。利用源视频和目标视频中经过人脸特征点定位后的图像分别作为源图片与目标图片，对源图片与目标图片均进行建模，然后利用上述过程得到合成人脸网格。如图5所示，获取的源视频中的表情嘴巴张大，头微微抬起，而目标视频中的表情为抿嘴微笑，头基本完全正对镜头。用式(6)计算后，得到的形状如图5中右边的网格所示。右边的人脸网格与镜头的相对位置几乎和目标视频中图像的网格相同，但嘴巴呈现张开状，与源视频中的表情相似。显然，我们已经在形状层面上实现了表情的转移。

步骤250，对转移后的3D人脸模型进行纹理贴图，得到表情转移后的合成脸模型。

为了生成经过表情转移之后看起来真实自然的新视频，因此在形状层面上实现了表情的转移之后，需要进一步考虑如何将颜色信息，即人脸的纹理信息进行复现，从而达到渲染出逼真人脸的效果。

纹理(texture)是另一种为3D物体添加外表色彩的方式，它是一张2D图片，通过将该图片“无缝”地贴合在3D模型上，即可以使得物体拥有有色彩有质感的外表，从而避免了大量为大量顶点指定足够多颜色而产生的额外开销，并且保留更多的细节。纹理贴图，有时也叫作纹理映射(Texture Mapping)，正是将纹理贴到三维物体表面的过程。为了贴图，每个顶点需要指定一个纹理坐标(Texture Coordinate)，用来标明从纹理图像取样的位置。

在贴图之前，我们首先构造纹理。在本发明实施例中构造的纹理图像是对齐的，即对于不同的人脸图片，构造的纹理图像中，某特征点对应位置固定不动。在SFM中，每个顶点的纹理坐标已经预先确定。构造纹理图像时，首先找到各个三维顶点在平面图像上的对应点。然后通过纹理坐标找到上述对应点在纹理图像上的对应位置，并将图像上的颜色赋值到纹理图像上，不与任何顶点对应的位置，采用插值法(线性插值、双线性插值或最邻近插值均可)填补，最终可以得到纹理图像。

纹理坐标是定义在x轴与y轴上，范围在0到1之间的坐标。采样(Sampling) 是在纹理坐标基础上获取纹理颜色的过程。具体的，只要确定了纹理坐标， openGL规范的函数库通常都能够自动进行纹理贴图。显然，对图像进行纹理贴图得到的纹理效果更加细致、真实。

本实施例中，首先，从源视频和目标视频中获取图像，分别对获取的图像进行人脸特征点定位。分别对经过人脸特征点定位后的图像进行3D人脸建模，得到3D人脸模型。然后，对3D人脸模型先在形状层面进行表情转移，之后再进行纹理贴图。最终，得到了表情转移后的合成脸模型。将图像经过人脸特征点定位可以得到不同角度、不同姿态的人脸信息。对经过人脸特征点定位后的图像进行3D人脸建模，得到3D人脸模型。将2D人脸图像转换为3D人脸模型，这样能够将脸部的姿态与其形状分离开，用模型参数对表情、形状等部分用参数进行限定。所以对图像进行3D人脸建模可以便捷地实现保持人脸基本特征一致而改变表情的效果。在3D人脸模型上进行表情转移，之后再进行纹理贴图，由纹理贴图处理得到的图像的纹理效果更加细致、真实。

在一个实施例中，如图6所示，对图像中的人脸进行人脸特征点定位，包括：

步骤222，通过Haar分类器进行人脸检测，获得人脸的矩形标记框，Haar 分类器包含级联的多个强分类器，强分类器是由弱分类器组合构成的。

本发明实施例中采用AdaBoost算法，将一系列弱分类器(weak classifier)加权线性组合，从而构造了一个强分类器(strong classifier)：

h(x)＝sign(∑_jα_jh_j(x)) (7)

其中，每一个弱分类器实际都是一个基于特征fj的阈值函数：

阈值θ、极值sj和系数α都通过训练得出。

经过以上的步骤，我们可以得到一个强分类器，然而由于人脸检测受到尺度、方位、姿势、表情、光照等多变因素的影响，仅仅凭借一个强分类器仍然难以保证正确率，事实上，AdaBoost训练出来的强分类器虽然一般具有较小的误识率(几乎不会把非人脸误认为作人脸)，但是它的检测率却并不是很高。于是，我们可以将多个强分类器级联起来，通过增加分类器的个数来提高检测率。级联分类器的训练如以下伪代码所示：

1)设定每一层最大可接受的误识率f，最小可接受检测率d；

2)设定最终级联分类器的目标误识别率F_target；

3)用P表示人脸训练样本集，N表示非人脸训练样本集；

4)while F_i>F_target：//当目前误识率仍然高于目标误识率时

i++；

n_i＝0；F_i＝F_i-1；

while F_i>f*F_i-1：

n_i++；

利用AdaBoost算法在样本集P、N上训练n_i个弱分类器组合得到的强分类器；

衡量当前级联分类器的误识率F_i和检测率D_i；

减小第i个强分类器的阈值，直到当前级联分类器的检测率至少为d*D_i-1；

if F_i>F_target then：

利用当前级联分类器检测非人脸图像，将误识的图像放入N。

由此，我们可以得到一个Haar分类器来实现图像人脸探测。通过Haar分类器进行人脸检测，准确获得人脸的矩形标记框。

步骤224，对矩形标记框中的人脸进行人脸特征点定位。

采用SDM(监督下降方法，Supervised Descent Method)模型进行训练，训练时的训练集为一系列人脸图片，并且已知这一系列人脸图片的特征点正确位置。通过对这一系列人脸图片进行训练得到人脸的平均特征点位置，将平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于矩形标记框中。最后对特征点位置进行优化，得到优化后的特征点位置，优化后的特征点位置能够与矩形标记框中的人脸吻合。

在本实施例中，由于人脸检测受到尺度、方位、姿势、表情、光照等多变因素的影响，仅仅凭借一个强分类器难以保证正确率，因此，我们可以将多个强分类器级联起来，通过增加分类器的个数来提高检测率。通过SDM模型对已知特征点正确位置的人脸图片进行训练，得到人脸的平均特征点位置。在对平均特征点位置放置于本次实测的人脸图像中进行调整，进而得到与本次实测的人脸图像吻合的特征点位置。对训练集进行训练这样得出的人脸的平均特征点位置更加准确，进而使得最终得到的与本次实测的人脸图像吻合的特征点位置更加准确。

在一个实施例中，如图7所示，对矩形标记框中的人脸进行人脸特征点定位，包括：

步骤224a，从训练模型中得到人脸的平均特征点位置。

训练模型为：SDM(监督下降方法，Supervised Descent Method)。该训练模型的主要思想为：从训练数据中学习梯度下降的方向，并建立相应的回归模型，然后再利用训练所得模型进行梯度方向估计，从而在较低的计算复杂度下解决了最小二乘问题。

在SDM中，采用的是一种监督的方法，直接学习Δx与(h(I(x₀)-h(I(x*))之间的线性回归关系。注意到，h(I(x*))实际上是一个固定量，所以我们简单把它当作常数，故将Δx与特征向量间的关系假定为线性关系，记为：

Δx₁＝R₀h(I(x₀))+b₀ (9)

通常来讲，仅仅一次更新并不能得到最优参数解，与第一步迭代类似，我们假设第k+1次迭代中参数的更新量为：

Δx_k+1＝R_kh(I(x_k))+b_k (10)

训练时，训练集为一系列人脸图片，记为{Iⁱ}，并且已知这一系列人脸图片的特征点正确位置{x*ⁱ}。于是，学习R₀和b₀等同于求解：

这是一个非常典型的线性最小二乘问题，容易求解。之后，根据式(10)的更新法则，很容易求解到新的数据集，则与上同理，学习R_k和b_k等同于求解：

通过训练，SDM模型可以在最优化过程的迭代中学习{R_k}和{b_k}的值，从而学会如何从初始位置x₀逐步收敛到最佳位置x_*，由此我们可以实现特征点的自动定位。从而从训练模型中得到人脸的初始平均特征点位置。

步骤224b，将平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于矩形标记框中。

步骤224c，对特征点位置进行优化，得到优化后的特征点位置，优化后的特征点位置能够与矩形标记框中的人脸吻合。

对特征点进行迭代地优化。具体为，选取迭代次数为6次，每次迭代时，对当前特征点位置提取HOG特征(在每个特征点附近处取5x5大小的细胞单元，直方图的梯度值划分为4x4个直方，则每个特征点的HOG特征向量长度为400，68个特征点的总特征长度为27200)，利用式(9)，代入已经学习到的 R_k和b_k，更新当前参数，即优化后的特征点位置。如图8所示，图中(a)为初始平均特征点位置，图中(b)为最终定位的特征点位置。更多不同姿态、光照、表情下的例子如图9中标记点所示。

在本实施例中，通过SDM模型对已知特征点正确位置的人脸图片进行训练，得到人脸的平均特征点位置。在对平均特征点位置放置于本次实测的人脸图像中进行调整，进而得到与本次实测的人脸图像吻合的特征点位置。对训练集进行训练这样得出的人脸的平均特征点位置更加准确，进而使得最终得到的与本次实测的人脸图像吻合的特征点位置更加准确。

在一个实施例中，如图10所示，对经过人脸特征点定位后的图像进行人脸建模，得到人脸模型，包括：

步骤232，将经过人脸特征点定位后的图像通过SFM模型进行模型拟合，得到人脸模型。

s＝(x₁,y₁,z₁,…,x_m,y_m,z_m)^T (1)

t＝(r₁,g₁,b₁,…,r_m,g_m,b_m)^T

这些顶点(xj,yj,zj)∈R3都各自拥有其对应的颜色(rj,gj,bj)∈[0,1]3，于是一张脸可以用上述(4-1)中两个长度为3m的向量表示。

每一个PCA模型是由式(4-2)的平均值、标准差和主要成分组成，新的人脸可用式(4-3)描述。

M_s＝(μ_s,σ_s,U_s)、M_t＝(μ_t,σ_t,U_t) (2)

s(α)＝μ_s+U_sdiag(σ_s)α (3)

t(β)＝μ_t+U_tdiag(σ_t)β

s′＝s+[b_angerb_disgustb_fearb_happyb_sadb_surprised]p (4)

在本实施例中，通过SFM对人脸进行3D建模，如上式所示，最终的人脸模型等于无表情的人脸加上六种基本表情的人脸的加权叠加，这个加权叠加值就是表情系数。因为SFM的训练集中既有欧洲人、也有亚洲人、非洲人、拉丁美洲人的图像，所以通过SFM对人脸进行3D建模的结果更加准确。

在一个实施例中，如图11所示，将经过人脸特征点定位后的图像通过SFM 模型进行模型拟合得到人脸模型，包括：

步骤232a，采用黄金标准算法计算得到投影矩阵。

假设已知n≥4对以上模型与图片间对应点组其中X_i∈R⁴，x_i∈R³，均是用齐次坐标(homogeneous coordinates)表示。我们的目标是求得3x4 投影矩阵P，满足：

并且根据仿射约束，P的第三行为(0,0,0,1)。具体算法如下：

(1)标准化(Normalization)：用一个相似变换T来标准化图片上的点，用另一个相似变换U来标准化空间中的点。假设变换之后x_i’＝Tx_i，X_i’＝UX_i。现在我们希望得到P’满足x_i’＝P’X_i’，并且其第三行依旧为(0,0,0,1)。

(2)对于每一组对应我们都可以建立得到一个等式：

则将所有的对应点对组合起来，可以得到2n x 8的矩阵X，满足Xk＝x，其中k是一个长度为8的向量，并且对应期望的表达x_i’＝P’X_i’可知，k的前 4个数即是P’的第一行，而后4个数是P’的第二行。

(3)求解k可以看作一个线性最小二乘问题，我们可以利用第二章中提及过的SVD分解法求得X的伪逆X⁺，从而解得k近似等于X⁺x。再考虑到P’_row3＝(0, 0,0,1)，从而可以得到P’。

(4)去标准化(Denormalization)：目前的计算都是基于标准化后的数据进行的，最后一步需要将现在的数据转换到原来的坐标系中，由于x_i’＝P’X_i’，即Tx_i＝P’UX_i。所以，我们需要求解的P可以用下式计算得到：

P＝T^-1P′U

(15)

于是，我们在模拟拟合过程的开始时，先用平均脸得到初始模型，并找到当前图像与模型上的68组对应特征点，利用上述算法简单快速地得到了现在的相机矩阵(cameramatrix)P，方便后续使用。

步骤232b，获取SFM模型中的初始化网格，初始化网格为无表情的平均脸。

步骤232c，根据初始化网格中的特征点与人脸特征点定位后的图像中的点进行匹配，对投影矩阵进行更新。

步骤232d，根据无表情的平均脸、人脸特征点定位后的图像计算得到表情系数及形状系数。

由于SFM只有形状没有颜色，所以模型拟合本质就是在形状拟合(shapefitting)，目标是调整当前人脸网格(mesh)的形状，使得其在屏幕上的投影极大与原图片相似。

我们定义X(α)为长度4n的向量，存储了当前形状s(α)的特征点齐次坐标，其中α是式(3)中的形状系数，n是特征点的数量；定义x(α)为长度为3n长的向量，存储了特征点在图片上的齐次坐标；定义B是4n x 6大小的矩阵，存储了6个blendshape分别在特征点位置的齐次坐标；为了方便计算，再定义一个矩阵P*，它的对角线上放置上述步骤计算得来的P，其余为0。

则用数学公式表达，形状拟合即是需要求得形状系数α和表情参数p满足：

argmin_α，p||P^*(X(α)+Bp)-x||² s.t.p≥0 (16)

我们采用迭代的方法，分别求解最佳的形状系数α和表情参数p。

步骤232e，根据相机矩阵、表情系数及形状系数对人脸特征点定位后的图像进行建模，得到整个人脸的人脸网格。

根据相机矩阵(camera matrix)P、形状系数α和表情参数p对人脸特征点定位后的图像进行建模，得到整个人脸的人脸网格。

在本实施例中，通过黄金标准算法计算得到投影矩阵，在计算机图形学中把3D模型变成2D图片都需要经过投影矩阵处理。根据相机矩阵(camera matrix) P、形状系数α和表情参数p对人脸特征点定位后的图像进行建模，得到整个人脸的人脸网格。这样能够将脸部的姿态与其形状分离开，用模型参数对表情、形状等部分用参数进行限定。所以对图像进行3D人脸建模之后可以便捷地实现保持人脸基本特征一致而改变表情的效果。

在一个实施例中，如图12所示，还提供了一种人脸表情合成装置300，该装置包括：获取图像模块310、人脸特征点定位模块320、人脸建模模块330、表情转移模块340及纹理贴图模块350。

获取图像模块310，用于获取源视频和目标视频中的图像，源视频中的图像包含待合成至目标视频中的图像的表情。

人脸特征点定位模块320，用于对图像中的人脸进行人脸特征点定位。

人脸建模模块330，用于对经过人脸特征点定位后的图像进行3D人脸建模，得到3D人脸模型。

表情转移模块340，用于在3D人脸模型的形状层面，将源视频中图像的表情对应转移至目标视频中的图像，生成表情转移后的目标视频中的图像的3D人脸模型。

纹理贴图模块350，用于对转移后的3D人脸模型进行纹理贴图，得到表情转移后的合成脸模型。

在一个实施例中，如图13所示，人脸特征点定位模块320包括：人脸检测模块322及定位模块324。

人脸检测模块322，用于通过Haar分类器进行人脸检测，获得人脸的矩形标记框，Haar分类器包含级联的多个强分类器，强分类器是由弱分类器组合构成的；

定位模块324，用于对矩形标记框中的人脸进行人脸特征点定位。

在一个实施例中，如图14所示，定位模块324包括：平均特征点位置获取模块324a、平均特征点位置等比放缩模块324b及优化模块324c。

平均特征点位置获取模块324a，用于从训练模型中得到人脸的平均特征点位置；

平均特征点位置等比放缩模块324b，用于将平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于矩形标记框中；

优化模块324c，用于对特征点位置进行优化，得到优化后的特征点位置，优化后的特征点位置能够与矩形标记框中的人脸吻合。

在一个实施例中，人脸建模模块330还用于将经过人脸特征点定位后的图像通过SFM模型进行模型拟合，得到人脸模型。

在一个实施例中，如图15所示，人脸建模模块330包括：投影矩阵计算模块331、初始化网格获取模块332、投影矩阵更新模块333、表情系数及形状系数计算模块334及人脸网格获取模块335。

投影矩阵计算模块331，用于采用黄金标准算法计算得到投影矩阵；

初始化网格获取模块332，用于获取SFM模型中的初始化网格，初始化网格为无表情的平均脸；

投影矩阵更新模块333，用于根据初始化网格中的特征点与人脸特征点定位后的图像中的点进行匹配，对投影矩阵进行更新；

表情系数及形状系数计算模块334，用于根据无表情的平均脸、人脸特征点定位后的图像计算得到表情系数及形状系数；

人脸网格获取模块335，用于根据相机矩阵、表情系数及形状系数对人脸特征点定位后的图像进行建模，得到整个人脸的人脸网格。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取源视频和目标视频中的图像，源视频中的图像包含待合成至目标视频中的图像的表情；对图像中的人脸进行人脸特征点定位；对经过人脸特征点定位后的图像进行3D人脸建模，得到3D人脸模型；在3D人脸模型的形状层面，将源视频中图像的表情对应转移至目标视频中的图像，生成表情转移后的目标视频中的图像的3D人脸模型；对转移后的3D人脸模型进行纹理贴图，得到表情转移后的合成脸模型。

在一个实施例中，上述程序被处理器执行时还实现以下步骤：通过Haar分类器进行人脸检测，获得人脸的矩形标记框，Haar分类器包含级联的多个强分类器，强分类器是由弱分类器组合构成的；对矩形标记框中的人脸进行人脸特征点定位。

在一个实施例中，上述程序被处理器执行时还实现以下步骤：从训练模型中得到人脸的平均特征点位置；将平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于矩形标记框中；对特征点位置进行优化，得到优化后的特征点位置，优化后的特征点位置能够与矩形标记框中的人脸吻合。

在一个实施例中，上述程序被处理器执行时还实现以下步骤：将经过人脸特征点定位后的图像通过SFM模型进行模型拟合，得到人脸模型。

在一个实施例中，上述程序被处理器执行时还实现以下步骤：采用黄金标准算法计算得到投影矩阵；获取SFM模型中的初始化网格，初始化网格为无表情的平均脸；根据初始化网格中的特征点与人脸特征点定位后的图像中的点进行匹配，对投影矩阵进行更新；根据无表情的平均脸、人脸特征点定位后的图像计算得到表情系数及形状系数；根据相机矩阵、表情系数及形状系数对人脸特征点定位后的图像进行建模，得到整个人脸的人脸网格。

在一个实施例中，还提供了一种计算机设备，该计算机设备包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，上述处理器执行计算机程序时还实现以下步骤：通过Haar 分类器进行人脸检测，获得人脸的矩形标记框，Haar分类器包含级联的多个强分类器，强分类器是由弱分类器组合构成的；对矩形标记框中的人脸进行人脸特征点定位。

在一个实施例中，上述处理器执行计算机程序时还实现以下步骤：从训练模型中得到人脸的平均特征点位置；将平均特征点位置进行等比放缩，将等比放缩后得到的特征点位置放置于矩形标记框中；对特征点位置进行优化，得到优化后的特征点位置，优化后的特征点位置能够与矩形标记框中的人脸吻合。

在一个实施例中，上述处理器执行计算机程序时还实现以下步骤：将经过人脸特征点定位后的图像通过SFM模型进行模型拟合，得到人脸模型。

在一个实施例中，上述处理器执行计算机程序时还实现以下步骤：采用黄金标准算法计算得到投影矩阵；获取SFM模型中的初始化网格，初始化网格为无表情的平均脸；根据初始化网格中的特征点与人脸特征点定位后的图像中的点进行匹配，对投影矩阵进行更新；根据无表情的平均脸、人脸特征点定位后的图像计算得到表情系数及形状系数；根据相机矩阵、表情系数及形状系数对人脸特征点定位后的图像进行建模，得到整个人脸的人脸网格。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM) 等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种人脸表情合成方法，所述方法包括：

对所述图像中的人脸进行人脸特征点定位；

2.根据权利要求1所述的方法，其特征在于，所述对所述图像中的人脸进行人脸特征点定位，包括：

对所述矩形标记框中的人脸进行人脸特征点定位。

3.根据权利要求2所述的方法，其特征在于，所述对所述矩形标记框中的人脸进行人脸特征点定位，包括：

从训练模型中得到人脸的平均特征点位置；

4.根据权利要求1所述的方法，其特征在于，所述对经过人脸特征点定位后的所述图像进行人脸建模，得到人脸模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述将经过人脸特征点定位后的所述图像通过SFM模型进行模型拟合得到人脸模型，包括：

采用黄金标准算法计算得到投影矩阵；

6.一种人脸表情合成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述人脸特征点定位模块包括：

8.根据权利要求7所述的装置，其特征在于，所述定位模块包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权1至5中任一项所述的人脸表情合成方法。

10.一种计算机设备，所述计算机设备包括存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权1至5中任一项所述的人脸表情合成方法。