CN106600667A

CN106600667A - 一种基于卷积神经网络的视频驱动人脸动画方法

Info

Publication number: CN106600667A
Application number: CN201611138441.3A
Authority: CN
Inventors: 曹汛; 李可; 岳涛; 朱昊; 季胜裕; 金威
Original assignee: Nanjing University
Current assignee: Jiangsu Yuanli Digital Technology Co ltd; Nanjing University
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-04-26
Anticipated expiration: 2036-12-12
Also published as: CN106600667B

Abstract

本发明公开了一种基于卷积神经网络的视频驱动人脸动画方法，属于计算机图形学领域。该方法包括：S1随机生成表情系数驱使三维模型做出相应的表情；S2将三维表情模型在不同光照、不同姿态下投影生成二维图片；S3用表情系数和得到的二维图片作为训练数据训练神经网络；S4输入视频信号，由神经网络得到每帧图片对应的表情系数；S5由表情系数驱动三维模型。本发明能够基于卷积神经网络产生表情系数驱动人脸动画，训练完成后无需用户进行额外操作、无需进行用户标定，提高了用户的体验性；无需传统的人脸检测、跟踪方法，减少了计算量。

Description

一种基于卷积神经网络的视频驱动人脸动画方法

技术领域

本发明涉及人脸重用技术，属于计算机图形学领域，具体的地说，本发明涉及一种基于卷积神经网络的视频驱动人脸动画方法。

背景技术

随着计算机视觉、图形学的发展，传统的实时控制虚拟动画人物的技术已经取得了很大的进步。这种技术可以用于影视制作、网络社交及游戏开发等。随着虚拟现实技术的发展，该技术有了更多的应用空间。

现有的技术大多通过混合表情模型方法(blendshape method)实现。每一个基表情模型都是有着显著特征的经典表情，如自然、生气、开心、难过等表情。通过计算一个表情中这些基表情所占的权重，可以混合经典表情的三维模型得到对应的表情模型。这项技术通常需要人脸检测与跟踪技术。现在，基于单目相机或深度相机的人脸检测跟踪技术可以准确地跟踪人脸的面部特征点，然后根据映射关系控制三维表情模型的顶点移动，从而让动画人物做出相应的表情。

相比于基于单目相机的人脸动画技术，基于深度相机的人脸动画技术目前更为成熟，可以获得较为精确的结果。Weise T、Bouaziz S、Li H等人在2011年的SIGGRAPH上发表了“Realtime Performance-based Facial Animation”，首次用Kinect实现了实时控制人脸动画，并取得了较为真实的结果，此后，基于深度相机的人脸动画技术便在一直发展。例如Bouaziz、Wang Y、Pauly M等人在2013的“Online Modeling for Realtime FacialAnimation”实现了无需对用户进行标定和训练就可实时控制人脸动画。尽管基于深度相机的人脸技术目前较为成熟，但是由于单目相机相较于深度相机更为普及，所以基于普通RGB相机的人脸动画技术有着更为广阔的应用前景。Changwei Luo、Jun Yu、Chen Jiang等人在2014年的“Real-time Control of 3D Facial Animation”论文中提出了基于普通RGB相机的实时控制人脸动画的技术，然而获得的结果还是缺乏真实感。Chen Cao、Hongzhi Wu、Yanlin Weng、Tianjia Shao、Kun Zhou在2016年的SIGGRAPH上发表了“Real-time FacialAnimation with Image-based Dynamic Avatars”一文中实现了实时控制精细的面向用户的三维模型，使得用户可以使用普通RGB相机便可实时控制由二维图片重建得到的高精度人脸三维动画。然而这些技术都需要人脸特征点的检测与追踪算法，需要对用户进行标定。

近年来，深度学习方法在计算机视觉领域取得了显著的成果，成功地解决了许多分类和回归问题。深度学习方法一个很大的优点是可以学习并优化高维函数。越来越多研究人员正尝试将深度学习与人脸动画技术结合以取得更好的效果。Yilong Liu、Feng Xu、Jingxiang Chai等人发表的“Video-Audio Driven Real-Time Facial Animation”论文中提出了用深度神经网络对齐语音信号和人脸动画的嘴部形状的方法，但是获得的嘴部的动作没有很强的真实感。Kyle Olszewski、Joseph J.Lim、Shunsuke Saito、Hao Li在论文“High-Fidelity Facial and Speech Animation for VR HMDs”中提出了可以使VR用户在带着头盔的情况下仍然可以控制人脸动画的方法，他们使用卷积神经网络分别得到眼睛与嘴巴的表情系数，从而实现整个表情的跟踪，但是获得训练数据的方式过于繁琐，应用领域受到了限制。

发明内容

本发明提出一种基于卷积神经网络的视频驱动人脸动画方法，可以实时从视频信号中提取每一帧图片表情系数，以达到无需传统的特征点检测追踪算法、无需对用户进行标定而实现实时控制人脸动画的目的。

为了实现上述发明目的，本发明方法采用的技术方案如下：

一种基于卷积神经网络的视频驱动人脸动画方法，包括如下步骤：

S1：基于随机生成的表情系数和构成表情基的参考模型，生成用户相应的三维表情模型；其中，生成的表情系数满足以下要求：满足先验分布，即不会产生由表情系数驱动的不真实的三维表情模型且应涵盖高频率出现的表情对应的表情系数；

S2：生成的多个用户的三维表情模型在不同光照和不同姿态下进行虚拟视点下的投影，投影得到的二维表情图片和对应的表情系数作为神经网络的训练数据；

S3：将二维表情图片作为输入数据训练卷积神经网络，对应的表情系数作为真值不断优化网络参数，以达到误差最小的目的；

S4：将视频流的每帧图片输入神经网络，实时输出每帧图片对应的表情系数；

S5：用神经网络输出的表情系数驱动人脸模型，做出相应的表情。

和传统的基于人脸检测跟踪驱动人脸模型的方法不同，本发明能够基于卷积神经网络产生表情系数驱动人脸动画，训练完成后无需用户进行额外操作、无需进行用户标定，提高了用户的体验性，减少了计算量，不仅能实现实时控制人脸动画，且解决了变光照、人脸多姿态等问题。

附图说明

图1示出了本发明方法的流程图；

图2示出了本发明一个实施例中卷积神经网络训练数据的获取方式；

图3示出了本发明一个实施例中由同一组表情系数驱动的三维人脸表情模型在不同光照、不同姿态下的投影图片；

图4示出了本发明一个实施例中卷积神经网络的框架结构；

图5示出了本发明一个实施例中(a)训练完成后卷积神经网络的输入视频图片和(b)由卷积神经网络输出的表情系数驱动的人脸动画；

图6示出了本发明一个实施例的系统流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明基于卷积神经网络的视频驱动人脸动画的方法包括：S1随机生成表情系数驱使三维模型做出相应的表情；S2将三维表情模型在不同光照、不同姿态下投影生成二维图片；S3用表情系数和得到的二维图片作为训练数据训练神经网络；S4输入视频信号，由神经网络得到每帧图片对应的表情系数；S5由表情系数驱动三维模型。具体包括如下步骤：

(1)训练数据生成：对于有N个表情基的系统，每一个表情F可以由一组N维表情系数(blendshape weights)对应表示。随机生成表情系数，按表情系数混合得到多个用户的三维表情模型。其中，训练样本中的表情系数应该尽量覆盖可能出现的真实表情。然后，将每个三维表情模型在不同光照、不同姿态下投影到一个固定的二维平面上，则可以得到同一视角下的多张二维表情图片。

(2)神经网络训练：将每组表情系数与对应的二维表情图片作为训练数据训练神经网络。图片作为神经网络的输入，对应的表情系数作为真值优化网络参数。

(3)数据预测：输入视频信号，由神经网络计算每一帧表情图片对应的表情系数。因为所设计的神经网络计算速度大于帧速，所以可以实时输出表情系数。最后由神经网络输出的表情系数实时控制三维模型作出相应的表情。

所述步骤(1)中，表情基是指具有显著特征的典型的面部表情，如自然、生气、开心、难过等。得到表情基的办法有很多：高精度的三维重建系统可用于生成表情基，这些系统一般都采用多相机阵列系统，用户在相机阵列中心做出需要的表情基表情，系统瞬时采集图片并通过算法重建人脸模型，这种方法获得的表情基精度最高，数据量最大。另一种方法是使用现有软件，如基于深度相机的软件Faceshift。Faceshift通过对一般三维人脸模型(generic blendshapes)进行形变可以得到面向用户的三维人脸模型。用户在深度相机前做出需要的表情基表情(如生气)，保持表情不变并旋转一定的角度，即可得到用户的三维表情基，这种方法获得的表情基精度良好。仅基于单个RGB相机生成表情基的方法精度一般，但操作最为简单，数据量最小。表情基的精度越高，由表情系数生成的表情模型的精度就越高，则步骤(1)中得到的二维表情图片精度更高，更加真实，但是计算时间也将会增加。这些表情基的网格模型具有完全相同的顶点个数和面片数。对于一个有N个表情基的系统，每组表情系数都有个N参数。对于任一三维表情网格F，都可以将其表示为表情基B＝[b₀,...,b_N]的线性组合，其中b₀是中性表情，对应的表情系数e＝[e₀,...,e_N]，即

基于特征点的人脸动画技术需要通过检测和跟踪特征点从而计算得到表情系数，进而驱动三维表情模型。本技术采用随机生成表情系数，驱动三维表情模型并进行投影以获得训练数据集的方法，完全不需要基于特征点的人脸动画技术便可获得训练数据。

获取表情基后，随机生成n组表情系数，得到对应的表情模型。生成的表情系数应保证不能出现过于夸张的表情，且应覆盖可能出现的真实表情。所述步骤(1)中，由三维模型得到二维图片的过程是投影过程。相机的标定矩阵表示为

其中f是焦距，(p₀,q₀)是相机中心。通过设置虚拟视点，可以设置Κ中的参数。在生成表情基和三维表情模型的过程中包含了相机的内外参，可以通过读取相机参数得到矩阵Κ。设置外参矩阵R，则可以得到投影矩阵P＝K[R|t]，通过投影矩阵即可得到三维模型在特定虚拟视点下的二维图片。本发明提出的方法技术不仅可以实现实时控制人脸动画，还可以解决变光照、人脸多姿态等问题。在神经网络训练完成后，无需对用户进行标定即可实现对三维模型的控制。具体实现原理及方法如下：

随机生成表情系数驱动三维模型得到相应的表情模型后，通过在虚拟视点下进行投影得到相应的二维表情图片。对于同一组表情系数，在不同的光照条件下渲染得到阴影信息不同的三维表情模型，则在同一虚拟视点下，可以得到不同光照下的同一表情的图片。同时，通过旋转三维表情模型或改变投影矩阵中的外参矩阵可以得到不同姿态的同一表情图片。另外，同一组表情系数可以用来生成不同用户的三维表情模型。这样，在同一组表情系数下，可以得到多张不同用户的人脸表情在不同光照、不同姿态下的图片，这种生成训练数据集的方法无需使用传统的基于特征点检测和跟踪的人脸动画技术得到的数据，易于实施，且可以利用一组表情系数最大化得到的训练数据的数量。在满足表情系数满足先验(即保证按表情系数生成的表情是真实表情)的前提下，这种方法保证了所有训练数据的真实性。系统采用图形处理单元(GPU)对训练和计算进行加速。只要完成了对卷积神经网络的训练，就不需要对用户进行标定和面部特征点的检测和跟踪，可以直接对每帧图片进行处理实时输出表情系数。如此，便解决了光照、姿态、标定和实时性问题。

所述步骤(2)中，神经网络的设计如下所示：

卷积神经网络作为深度学习技术中极具代表的网格结构之一，在图片处理领域取得了很大的成功。本发明采用卷积神经网络，原因在于该网格结构避免了对图片复杂的前期预处理过程(提取人工特征等)，可以直接输入原始图片。卷积神经网络是一种目前计算机视觉领域主流的提取图片高维特征的机器学习方法，它能够有效的获取图片局部特征，并通过多层网络的层次结构获得高维特征，通过局部感受野和权值共享，使得整个网络可以通过有限的参数，学习大量的特征。在图片分类、目标识别、压缩感知等领域都有广泛应用，也是本发明获得表情系数这一类高维特征的关键手段。

该网络需要经过充分训练使得其达到较高的准确率。首先训练数据包括若干组表情系数与对应的二维表情图片，其中生成的二维表情图片作为神经网络的输入，对应的表情系数作为真值(ground truth)与神经网络的输出计算损失，优化网络参数。

本发明采用多层的卷积神经网络网络，以卷积层为主，逐层卷积获得二维表情图片的高维特征，最后通过全连接层输出一维的表情基向量。经过充分训练，该网络能够对于任意输入的二维表情图片，输出对应的表情系数供驱动人脸模型使用。

所述步骤(3)中为了满足实时输出表情系数，需要对卷积神经网络进行加速。卷积神经网络由于结构的一致性，可以充分利用大规模GPU或者是FPGA集群进行并行计算加速。

下面给出一个具体的实例，实现步骤包括：

1)随机生成维度为51的表情系数(系统有51个表情基)，同一组表情系数驱动3组不同用户的三维表情模型。虚拟光照6种，用户姿态(旋转矩阵)6个。建立虚拟视点投影得到相应的二维图片。则由一组51维表情系数可以得到108张不同用户在不同光照、不同姿态下的图片。图片预处理后，以此方法生成更多图片作为训练集，构造卷积神经网络，建立机器模型，系统自学习处理图片信息。

2)输入训练图片，以相应的随机生成的表情系数作为真值与神经网络的输出计算损失，优化网络参数。实施例中输入图片的分辨率为183×152，网络训练的目的是通过调整卷积神经网络的参数以拟合输出的51维向量与183×152像素之间的函数关系。所述卷积神经网络包括：输入层、卷积核大小为4×4的特征提取层、2×2最大值池化层、全连接层、输出层。输入层用于接收训练图片；特征提取层包括多张尺寸相同的由不同卷积核得到的特征图；每个池化层包括多个相同尺寸的特征图，池化层的特征图片素对应于前一层相应特征图的采样区域。某一层节点与前一层节点和后一层节点之间通过边相互连接。为了使误差最小，优化方法为后向传播算法。输入层的信息随着卷积神经网络做前向传播，得到输出层的数据之后与训练集中的真值进行比较，得到一个误差。然后将误差逐层往回传，从而调整每一层的参数。如此重复修正误差的流程，直到误差满足要求。

用P表示训练样本对的总数，p表示样本计数器，E表示误差变量，E_m表示网络训练精度。构造与训练卷积神经网络包括前向传播与后向传播两个阶段：

前向传播阶段的步骤如下：

首先从训练集中取一个样本(I_P,N_P)，I_P表示由表情系数N_p得到的二维图片，将I_P输入卷积神经网络，N_p是卷积神经网络的理想输出。输入数据从输入层经过隐藏层的逐级变换，传送到输出层，最终得到实际输出向量Y_p。在这个过程中，网络逐层执行输入图片与权值矩阵的点乘运算。最后计算误差向量E＝||Y_p-N_p||₂。

后向传播阶段的步骤如下：

误差反传，调整各层权值参数；检查训练集的所有样本是否都参与了训练；检查网络总误差是否到达精度E_m，误差小于精度结束训练，误差大于精度继续训练工作，按极小化误差的方法反向传播调整权矩阵。

本发明的方法可以直接从视频信号得到混合表情模型的参数，无需对输入视频中的人脸进行特征点检测和跟踪。生成的数据集有“多用户”、“变光照”、“多姿态”的特点。

Claims

1.一种基于卷积神经网络的视频驱动人脸动画方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于卷积神经网络的视频驱动人脸动画方法，其特征在于，所述步骤S2中，对于同一个三维表情模型，在不同的光照条件下通过渲染得到阴影信息不同的三维表情模型，则在同一虚拟视点下，投影得到不同光照下的同一表情的二维图片；然后，通过改变投影矩阵中的外参数可以得到不同姿态条件下同一个表情模型的投影图片，其中，投影矩阵为：

P＝K[R|t]

K是内参矩阵，通过设置K中的焦距和光心，可以设置虚拟视点；(R|t)是外参矩阵，通过设置外参矩阵中的旋转参数可以得到不同姿态的投影图片。

3.根据权利要求2所述的一种基于卷积神经网络的视频驱动人脸动画方法，其特征在于，对于同一组表情系数，还用来生成不同用户的三维表情模型，以得到多张不同用户的人脸表情在不同光照和不同姿态下的图片。

4.根据权利要求1所述的一种基于卷积神经网络的视频驱动人脸动画方法，其特征在于，所述步骤S3中，训练卷积神经网络的方法为：

将二维表情图片输入卷积神经网络，每一幅表情图片都有一组表情系数与其对应，将表情系数作为卷积神经网络的输出真值，计算误差变量：

E = Σ | | Y_{p} - N_{p} | |_{2}^{2}

其中Y_p是网络实际输出的表情系数，N_p是训练数据中的真值表情系数；采用前向传播和后向传播不断减小误差变量，从而优化网络参数。

5.根据权利要求4所述的一种基于卷积神经网络的视频驱动人脸动画方法，其特征在于，使用图形处理单元加速步骤S3的训练过程和计算过程，实现实时输出表情系数。