CN105118023B

CN105118023B - 基于人脸特征点的实时视频人脸卡通化生成方法

Info

Publication number: CN105118023B
Application number: CN201510549372.4A
Authority: CN
Inventors: 李宏亮; 李君涵; 马金秀; 杨德培; 侯兴怀; 罗雯怡; 姚梦琳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2017-12-15
Anticipated expiration: 2035-08-31
Also published as: CN105118023A

Abstract

本发明公开了一种基于人脸特征点的实时视频人脸卡通化生成方法。本发明首先从输入视频选择一帧正面中性表情图像作为参考帧，对参考帧进行人脸卡通化处理并保存参考帧的卡通眼睛、卡通眉毛、卡通鼻子以及包含头发的面部轮廓的卡通面部轮廓；再基于视频帧的人脸特征点，提取参考帧与视频帧的人脸变化量并进行归一化处理，查找与参考帧的人脸变化量满足变化阈值的输入视频帧作为卡通视频的起始帧；基于参考帧的卡通图像对起始帧及起始帧的后续帧进行视频卡通生成。本发明用于实时视频的人脸卡通化生成，其有益效果是：生成的卡通视频效果较好，满足视频的实时要求，对操作环境要求简单。

Description

基于人脸特征点的实时视频人脸卡通化生成方法

技术领域

本发明属于图像处理和计算机视觉技术领域，具体地说，是对实时输入的摄像头视频信息进行处理，生成相应的卡通动画的方法。

背景技术

目前视频人脸卡通动画生成方法主要有基于视频流的方法，基于素材重用的方法，物理模型方法，行为驱动方法。

基于视频流的方法可分为：直接卡通绘制、视频信息提取绘制、表情驱动绘制。直接卡通绘制是依次将视频流的内容通过图像处理，得到某种特定艺术风格的卡通图片序列，这种方法未对视频帧与帧之间十分相关的信息进行利用，冗余度很大，对单幅图的处理时间有很高的要求，因此，对精细、复杂的处理不能达到较好的实时性要求。视频信息提取绘制对视频流中有用的信息进行了参考，其中，关键帧插值方法是获取所需要的最有代表性的关键帧，并对其进行处理得到对应的卡通图像，然后在关键帧之间进行插值，得到中间时刻的相应卡通图像，该算法的局限性很强，鲁棒性较差，只能针对同一个人的一类视频，对关键帧的得到也是一个难点。表情驱动绘制是利用一些绘画图片以及有限的参数来描述特定的人脸及表情，然后通过视频信息记录中人脸部表情的变化来驱动卡通图像，形成一个动画序列，因为脸部表情变化是比较细微的运动，因此，这种方法对人脸部表情变化的追综有很高的要求。

基于素材重用的方法是将以往积累的大量动画素材进行提取，得到运动信息、内容信息、纹理信息等，然后应用到新的卡通动画中，这种技术关键在于寻找有相似规律的动画素材，以便将素材里的规律运用到新的卡通中，有很大的局限性，另外，对于摄像头的输入有不可预测性，这个方法是不太合适的。

基于物理模型的动画是将人脸视为一个可变型的弹性体，由弹性矢量单元将人脸的皮肤层、软组织、肌肉层和骨骼层的各个节点链接起来，将这些弹性矢量单以不同的方式组合在一起，就形成可以发生形变的曲线和可以发生形变的曲面，然后利用物理模型的方法模拟肌肉的运动，通常是采用Newtonian运动方程来模拟人脸的肌肉运动。该方法使人脸表情动画更具有真实性，但是人脸模型很复杂，计算量相当的大，不适用于实时处理。

行为驱动方法是指通过运动捕捉设备，获取视频摄像头拍摄的人脸运动的数据，然后用这些运动数据控制计算机生成虚拟的人脸表情运动。为了更好的获取人脸表情变化的数据，可以在待跟踪的人脸上选取特征点，通过对特征点的跟踪来记录人脸的运动数据。根据数据的变化对卡通图像进行相应的处理形成卡通动画。现有的光流法对特征点的跟踪准确度不高，对光照十分敏感，尤其当特征点附近的纹理复杂时容易产生漂移，使人脸表情变化的数据产生错误，从而导致卡通人脸的变化与真实人脸的表情变化不一致。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于人脸特征点的实时视频人脸卡通化生成方法。

本发明的基于人脸特征点的实时视频人脸卡通化生成方法包括下列步骤：

步骤1：从输入视频选择一帧正面中性表情图像作为参考帧，对参考帧进行人脸卡通化处理并保存参考帧的卡通眼睛、卡通眉毛、卡通鼻子以及包含头发的面部轮廓的卡通面部轮廓；

步骤2：基于视频帧的人脸特征点，提取参考帧与视频帧的人脸变化量并进行归一化处理，查找与参考帧的人脸变化量满足变化阈值的输入视频帧作为卡通视频的起始帧；

步骤3：对起始帧及起始帧的后续帧进行视频卡通生成：

将参考帧的卡通面部轮廓作为当前帧的卡通面部轮廓；

将参考帧的卡通鼻子作为当前帧的卡通鼻子；

基于视频帧的人脸特征点，分别计算当前帧与起始帧的眼睛高度并进行归一化处理，基于当前帧的眼睛高度T与参考帧的眼睛高度V的比值a得到仿射变换矩阵基于仿射变换矩阵W对参考帧的卡通眼睛进行仿射变化得到当前帧的卡通眼睛；

将参考帧的卡通眉毛作为当前帧的卡通眉毛，取参考帧的卡通眉毛与卡通眼睛的竖直距离并记为L，当前帧的眼睛高度T与参考帧的眼睛高度V的差记为M，若M大于零，则当前帧的卡通眉毛与卡通眼睛的竖直距离设置为：L+K*M，其中预设值K大于或等于1；否则，当前帧的卡通眉毛与卡通眼睛的竖直距离设置为L；

基于当前帧的人脸特征点，对嘴巴特征点进行多边形拟合，得到当前帧的卡通嘴巴；

基于当前帧的人脸特征点的位置，以鼻子上的点为参考点，将当前帧的卡通面部轮廓、卡通鼻子、卡通眉毛、卡通眼睛、卡通嘴巴放到相应位置，得到当前帧的卡通帧。

综上所述，由于采用了上述技术方案，本发明的有益效果是：提供了一种视频人脸卡通化方法，此方法生成的卡通视频效果较好，满足视频的实时要求，对操作环境要求简单。附图说明

图1：具体实施方式的流程示意图；

图2：对参考帧的剪裁流程示意图；

图3：查找卡通视频的起始帧的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的基于人脸特征点的实时视频人脸卡通生成方法包括下列步骤：

步骤1：开启视频采集设备，如开启视频或摄像头；

步骤2：暂停视频帧，对输入的视频截取一帧正面中性表情图像，并将该视频帧定义为参考帧。为了更好的支持后续处理，所截取的正面中性表情图像的人脸最好无遮挡。

步骤3：对所截取的图像自动剪裁得到适合处理的人脸图像并进行卡通化，得到具有某种艺术风格的卡通人脸C，此过程可通过样本学习实现或其他惯用处理方式。同时保存参考帧包含头发的面部轮廓卡通面部轮廓、卡通眼睛、卡通眉毛、卡通鼻子。

结合本专利实时性的要求，在确定视频帧的人脸特征点时，可选择ERT(Ensembleof Regression Trees)方法得到各帧的人脸特征点，同时对视频进行下采样，以再次提高处理速度，减少此过程中的时间开销。如对参考帧进行卡通化处理时，参考图2，首先用ERT方法进行人脸特征点定位，然后再计算两眼坐标，基于眼睛坐标按一定比例裁剪出需要处理的人脸图像后，再基于预设尺寸进行上/下采样至所预设尺寸，如250*300大小。

步骤4：相似帧查找。由于完成步骤1所花费的时间是秒级别的，这个时候摄像头输入的图像与参考帧相比可能已经有了很大的差别，而卡通视频开始的图像依然是和参考帧相对应的卡通人脸C。为了保证人脸视频卡通化的连贯性和准确性，要求视频卡通化开始时的人的表情、姿态和位置要和步骤1中尽可能相似。在以人脸为研究对像时，判断两帧图像是否相似重点在于对变化较大的五官的分析，因此，可通过人脸特征点得到描述人脸变化的主要因素：头部偏移角度(描述头部正不正)、上下眼框高度(描述眼睛睁开程度)、嘴唇高度(描述嘴巴张开程度)等。考虑到头部和摄像头之间的距离会对这些绝对变化量有影响，因此可引入一个参考量对上述变化量进行归一化处理，该参考量选择的标准是脸部在做任何表情时都没有太大的改变，在本具体实施方式中，所引入的参考量为根据参考帧的人脸特征点所计算得到的人脸宽度。参考图3，首先基于视频帧的人脸特征点提取参考帧、当前视频帧的人脸变化量(头部偏移角度、上下眼框高度、嘴唇高度)，并基于所引入的参考量为标准，对参考帧、当前视频帧的人脸变化量进行归一化处理，然后基于变化阈值查找与参考帧的人脸图像最为相似的相似帧，该变化阈值为同时满足：头部偏移角度不超过参考帧的2-8°(优选为5°)、左右眼的上下眼眶高度不超过参考帧的2-8％(优选5％)和嘴唇高度不超过参考帧的2-8％(优选5％)。查找得到的相似帧即作为卡通视频的起始帧。

步骤5：对起始帧及起始帧的后续帧进行视频卡通生成。

将视频帧中人脸表情的变化分成两个部分的迭加：(1)由于头部在平面上的运动引起的线性位移；(2)各部分器官各自的运动。根据人脸特征点的坐标和不同器官的变化特点，用不同的方法进行变换。由于鼻子在整个过程中几乎没有发生形变，因此选取鼻子上的点作为参考点。其它各个卡通器官的位置根据鼻子的位置做相应的摆放。

第(1)步：非五官部分处理

这个过程认为头发和轮廓没有发生变化，因此用鼻子的位移进行驱动，使步骤1中得到参考帧的卡通面部轮廓仅做平面上的位置移动。

第(2)步：眼睛变换

眼睛变化可以简化为仅仅只有上眼皮运动的模型，从数学上可抽象为仅在y方向(竖直方向)进行拉伸和压缩。因此，根据检测到的眼睛特征点得到眼睛高度的变化，用这个变化量得到每一帧眼睛的仿射变换矩阵，从而得到仿射变化后的卡通眼睛，作为当前帧的卡通眼睛。首先基于视频帧的人脸特征点计算当前视频帧和参考帧的眼睛高度(眼睛高度包括左右眼睛各自的高度)，并基于参考帧的人脸特征点所计算得到的人脸宽度进行归一化处理，得到当前帧的眼睛高度V，参考帧的眼睛高度T，基于眼睛高度V与T比值a得到仿射变换矩阵为(左右眼分别对应一个仿射变换矩阵)，由对应的仿射变换矩阵对参考帧的卡通眼睛进行仿射变换得到当前帧的卡通眼睛，即当前帧的卡通眼睛为W.[x y1]^T，其中[x y 1]^T表示参考帧的卡通眼睛。在计算处理时，当前帧与参考帧的左右眼一一对应。

第(3)步：眉毛变换

通过实验分析发现眉毛的运动变化不大，多是相对于人脸竖直方向上的运动，形变也不明显，并且和眼睛的运动有很大的关联，如眼睛睁刻意睁大的时候眉毛上扬，因此，本申请用眼睛的运动驱动眉毛的运动，对眼睛特征点进行简单的计算得到眼睛高度。判断当前帧的眼睛高度V与参考帧的眼睛高度T的差M(M＝V-T)是否大于零，若是，则认为眉毛做上扬动作，用两者的差值M驱动参考帧的卡通眉毛移动从而达到运动的效果，即将参考帧的卡通眉毛作为当前帧的卡通眉毛，取参考帧的卡通眉毛与卡通眼睛的竖直距离并记为L，当前帧的眼睛高度T与参考帧的眼睛高度V的差记为M，若M大于零，则当前帧的卡通眉毛与卡通眼睛的竖直距离设置为：L+K*M(K≥1)；否则，当前帧的卡通眉毛与卡通眼睛的竖直距离设置为L。本具体实施方式中，K的取值设置为10。

第(4)步：嘴巴变换

首先基于视频帧的人脸特征点得到嘴巴特征点坐标，接着进行尺度变换到匹配卡通大小的坐标，最后根据嘴巴特征点进行多边形拟合，得到变化后的嘴唇形状，即得到当前帧的卡通嘴巴。如果直接对当前帧的嘴巴特征点进行多边形拟合，由于视频进行过下采样，嘴巴的大小及位置会与其他器官不匹配，因此，要对嘴巴进行坐标及尺度变换，才能得到合适的嘴巴。

将参考帧的卡通面部轮廓作为当前帧的卡通面部轮廓，将参考帧的卡通鼻子作为当前帧的卡通鼻子，以及基于步骤(2)-(4)得到的当前帧的卡通眼睛、卡通眉毛和卡通嘴巴从而得到了当前帧各个器官在人脸表情变化时对应的卡通器官，再根据特征点的位置及人脸五官的位置约束，以鼻尖点为参考点，将各个器官放回相应的位置，得到每一帧与真实视频中表情相对应的卡通帧(卡通图像)，从而得到了卡通视频。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.基于人脸特征点的实时视频人脸卡通化生成方法，其特征在于，包括下列步骤：

步骤3：对起始帧及起始帧的后续帧进行视频卡通生成：

将参考帧的卡通面部轮廓作为当前帧的卡通面部轮廓；

将参考帧的卡通鼻子作为当前帧的卡通鼻子；

基于视频帧的人脸特征点，分别计算当前帧与起始帧的眼睛高度并进行归一化处理，基于当前帧的眼睛高度T与参考帧的眼睛高度V的比值a得到仿射变换矩阵基于仿射变换矩阵W对参考帧的卡通眼睛进行仿射变换得到当前帧的卡通眼睛；

将参考帧的卡通眉毛作为当前帧的卡通眉毛，取参考帧的卡通眉毛与卡通眼睛的竖直距离并记为L，当前帧的眼睛高度T与参考帧的眼睛高度V的差记为M，若M大于零，则当前帧的卡通眉毛与卡通眼睛的竖直距离为：L+K*M，其中预设值K大于或等于1；否则，当前帧的卡通眉毛与卡通眼睛的竖直距离为L；

2.如权利要求1所述的方法，其特征在于，步骤2中，所述变化阈值为：头部偏移角度不超过参考帧的2-8°、左右眼的上下眼眶高度不超过参考帧的2-8％和嘴唇高度不超过参考帧的2-8％。

3.如权利要求1或2所述的方法，其特征在于，步骤3中，预设值K的取值为10。

4.如权利要求1或2所述的方法，其特征在于，对视频帧进行上/下采样处理后，再确定各视频帧的人脸特征点；

在嘴巴处理时，基于采样方式，对基于多边形拟合得到的卡通嘴巴进行对应的坐标和尺度变换处理。

5.如权利要求1或2所述的方法，其特征在于，基于ERT方法确定输入视频各帧的人脸特征点。