CN105718050A

CN105718050A - 一种实时的人脸交互方法及其系统

Info

Publication number: CN105718050A
Application number: CN201610027071.XA
Authority: CN
Inventors: 左冬冬; 郭玉京; 马堃; 王贵杰; 徐立
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2016-06-29
Anticipated expiration: 2036-01-14
Also published as: CN105718050B

Abstract

本公开涉及一种实时的人脸交互方法及其系统，所述方法通过获取电子哈哈镜前的实时视频，并对视频图像中的人脸进行识别，使用级联回归模型提取人脸特征，在进行人脸变形后，在电子哈哈镜上实时呈现当前用户的哈哈镜视觉画面。如果人脸有实时面部动作，就实时变化哈哈镜中的视觉画面。所述系统基于所述方法实现，方便方法的应用。所述方法及系统能够通过脸部动作状态智能控制视频中的输出对象，通过输出对象真实地反映操作者的喜怒哀乐等脸部动作变化。

Description

一种实时的人脸交互方法及其系统

技术领域

本公开涉及计算机图形图像处理领域，特别是一种实时的人脸交互方法及其系统。

背景技术

随着科技的发展，硬件设备的性能提升和图像处理技术的增强，使得很多摄像头设备可以自身进行图像处理，而其中一些图像处理可以产生卡通或文字渲染，但是当前这类处理都是基于静态图片，且是通过人工添加卡通或文字渲染，也不能对视频进行实时处理，更不能进行人机交互。目前大多人机交互的系统，都是基于语音或者肢体的动作，不能真实地反映操作者的喜怒哀乐。

发明内容

针对上述部分问题，本公开提供了一种实时的人脸交互方法及系统，所述方法及系统能够通过脸部动作状态智能控制视频中的输出对象，通过输出对象真实地反映操作者的喜怒哀乐等脸部动作变化。

一种实时的人脸交互方法，所述方法包括下述步骤：

S100、获取电子哈哈镜前的、当前用户的实时视频；

S200、基于所述实时视频获取视频帧图像，对所述视频帧图像进行人脸检测识别；

S300、在人脸检测识别之后，使用级联回归模型提取人脸特征，并进行人脸变形；

S400、在电子哈哈镜上实时呈现当前用户人脸变形后的哈哈镜视觉画面。

基于所述方法，实现了一种实时的人脸交互系统，所述系统包括下述模块：

M100、视频获取模块：获取电子哈哈镜前的、当前用户的实时视频；

M200、人脸检测识别模块：基于所述实时视频获取视频帧图像，对所述视频帧图像进行人脸检测识别；

M300、人脸变形模块：在人脸检测识别之后，使用级联回归模型提取人脸特征，并进行人脸变形；

M400、视觉呈现模块：在电子哈哈镜上实时呈现当前用户人脸变形后的哈哈镜视觉画面。

附图说明

图1本公开一个实施例中的方法流程示意图。

具体实施方式

在一个基础的实施例中，提供了一种实时的人脸交互方法，所述方法包括下述步骤，如图1所示：

S100、获取电子哈哈镜前的、当前用户的实时视频；

在这个实施例中，所述方法可以应用于手机、平板、带摄像头的广告机、带摄像头的电脑等场合，能够通过脸部动作状态智能控制视频中的输出对象，通过输出对象真实地反映操作者的喜怒哀乐等脸部动作变化。在通过摄像头拍摄获得脸部后，摄像机拍摄的同时，就完全实时地对屏幕上的视频做出同步脸部动作控制效果。比如在捕捉到摄像头前对象的眨眼动作，每捕捉到一次，将在视频输出时重新生成并实时显示另一对象同样的眨眼动作。摄像头前对象和重新生成的另一对象可以是人，也可以是动物，或者其他具有脸部的对象。当摄像头前对象是人，重新生成的另一对象是动物或卡通形象时，就相当于把摄像头前对象拟动物化或拟卡通化。

优选的，所述S300中所述使用级联回归模型提取人脸特征包括下述步骤：

S301、通过自动识别方式确定要提取的特征点的数量；

S302、获取包括眼球中心点、眼角、鼻尖、嘴角9个点在内的特征点，并根据该9个点的位置关系评估人脸角度；

S303、根据所述人脸角度选择适合该人脸角度范围的级联回归模型，将检测的图像作为输入，获取人脸特征点。

优选的，所述S300中所述人脸变形包括下述步骤：

S311、确定某个要变形五官的特征点，基于确定的特征点及其影响半径，计算受变形影响的每个像素点的新位置和新灰度值；

S312、利用步骤S311中计算得到的每个像素点的新位置和新灰度值更新图像上相关的像素点。

在通过摄像头拍摄获得人脸后，检测人脸，并对人脸进行跟踪，对体现五官、人脸轮廓的特征点进行提取，所述特征点的数量可以是21点，106点，或者是196点。在提取到特征点后，可以基于多个要变形的五官的特征点，按照不同影响半径，计算变形区域像素点的几何位置变化，制作出一些变形效果，比如五官的放大缩小，脸型正反三角，方形圆形，嘴角上扬下垂等等，类似哈哈镜，可以变成独眼龙、蛤蟆嘴，大方脸，大鼻子，等等搞笑的结果。摄像机拍摄的同时，就对屏幕上的视频作出效果，完全实时。

这里的变形是指在人脸图像的一小部分区域内做变形，只改变某些范围的特征，但是保持其它区域不发生变化。在现有技术中常用的变形方法有：基于网格的变形，即在图像上嵌入一张网格，通过改变网格的形状实现图像变形，包括后续发展出的自由变形(FFD)和建立网格的层次结构等；基于特征线的变形，如Beier和Neely等人提出的根据像素点相对于图像中一系列线段的位置而决定变形的方法；基于散乱点插值的变形，即在图像上指定一系列点后，用径向基函数方法完成指定点对的插值。对后一个问题，主要使用插值技术来解决，包括三次卷积、sinc函数、线性函数和三次B样条等。

优选的，所述步骤S311中新灰度值计算使用双线性插值进行求解，可使变形自然。设(x,y)的4个最邻近像素为A，B，C，D，它们的坐标分别为(i,j)，(i+1,j)，(i,j+1),(i+1,j+1)，它们的灰度值分别为g(A)，g(B)，g(C)，g(D)，则插值点(x,y)的灰度值为：

G(x,y)＝(x-i){(y-j)[g(D)-g(B)]+g(B)-(y-j)[g(C)-g(A)]-g(A)}+(y-j)[g(C)-g(A)]-g(A)

可选的，所述步骤S312中更新使用OpenGLGPU对视频帧图像进行渲染，加快图像更新。使用OpenGLGPU可以能够帮助得到更加流畅的界面体验，其处理过程为：像素和顶点数据可以选择存储在显示列表中，我们可以把显示列表看成是存储数据的媒介，用于加速渲染速度。顶点数据经过求值器，产生法向量、纹理坐标、点的空间坐标等，通过顶点操作和图元装配，生成相应的像素信息，进行光栅化处理，光栅化是把几何和像素数据转化成片段，每个片段块对应帧缓冲区中的一个像素。其中，顶点操作和图元装配中又可以细分出一条渲染管线，这里称为顶点处理管线。在光栅化完成后，还可以根据命令，对每个像素进行处理，最后写入帧缓冲区内。

优选的，所述自动识别方式根据检测到的人脸区域的清晰度来确定要采集的特征点的数量，以满足实时性的要求。更优地，所述人脸区域的清晰度通过采用图像模糊检测方法来度量。本申请不限制具体的方法，可以采用现有技术中的适当图像模糊检测方法。

可选的，所述自动识别方式考虑实施本公开方法的硬件性能确定，以满足实时性的要求。

进一步地，所述步骤S400之后，还包括：

S500、进行动作检测，用于捕捉当前用户的面部动作，如果捕捉到预设动作，实时将当前用户的哈哈镜视觉画面变化为当前同一用户的另一种不同的哈哈镜视觉画面。

优选的，所述S500中实时将当前用户的哈哈镜视觉画面变化为当前同一用户的另一种不同的哈哈镜视觉画面，包括下述步骤：

S501、基于前次确定的特征点，改变多个特征点的影响半径，在各个变形五官的影响半径不完全相同的情况下，计算受变形影响的每个像素点的新位置和新灰度值；

S502、利用步骤S501中计算得到的每个像素点的新位置和新灰度值更新图像上相关的像素点。

可选的，所述动作检测包括下述步骤：

S511、基于提取的特征点，利用神经网络来判断面部动作状态，并对人脸图像的连续性进行判断。

S512、在连续的若干视频帧图像中寻找所述面部动作状态的值连续增大的图像序列；

S513、通过所述图像序列的所述面部动作状态的值的变化来判断面部动作状态的完成情况。

优选的，在步骤S512之前，还包括对人脸图像的连续性进行判断。具体方法例如使用一个线性分类器来进行判断。将一帧图像分为3×3个区域，在每个区域上建立颜色直方图和灰度的均值和方差，把相邻两张人脸图像的直方图的距离灰度值的距离以及灰度方差的距离当作特征向量，来判断线性分类器

Σ_{i = 1}^{3} Σ_{j = 1}^{3} (W_{i j}^{H} d_{i j}^{H} + W_{i j}^{M} d_{i j}^{M} + W_{i j}^{V} d_{i j}^{V})

是否大于或等于0，其中为线性分类器的预设参数，可以通过标注的样本训练得到。如果线性分类器被判断为大于或等于零，则为上述的相邻的两张人脸图像在时间和空间上是连续的；否则为不连续的。

优选的，所述步骤S300在在人脸检测识别之后，还包括进行跟踪检测；所述跟踪检测，用于判断当前检测到的人脸是否与先前检测到的人脸相同。通过跟踪摄像头拍到的现实人脸，追踪人脸的位置变化，若是相同的人脸，再跟进一步跟踪五官的变化，比如微笑张嘴，可以通过上下唇的关键点，追踪关键点点间距离变化；睁大眼镜或者笑成眯眯眼，通过上下眼睑的关键点，追踪关键点点间距离变化等。

优选的，所述步骤S303在跟踪检测到相同人脸时，利用之前已提取的同一人脸的特征点结合当前人脸角度进行特征点匹配。

优选的，所述跟踪检测的步骤包括：

S3011、计算当前检测到人脸的人脸区域与先前检测到人脸的人脸区域的面积重合度；

S3012、若所述面积重合度大于指定阈值，则认为当前检测到人脸与先前检测到的人脸相同。

优选的，所述哈哈镜视觉画面还包括文字。在增加了文字输出的方式中，可以增加人机交互的趣味性和智能性。

优选的，在所述动作检测的同时还包括人脸属性检测。所述人脸属性包括年龄、颜值、表情等。所述人脸属性的检测也有利于增加文字时表达的准确性，选择合适的输出对象。

在一个实施例中，所述步骤S300中所述级联回归模型包括N个回归器，每个回归器上的参数矩阵W_i需满下列要求：

\arg \min_{W_{i}} Σ_{j = 1}^{K} | | X_{j} - X_{i j}^{*} - W_{i} Φ_{i} | |_{2}^{2} + λ | | W_{i} | |_{2}^{2}

其中：

K是输入的人脸图片样本数目；

X_j是标定第j张人脸图片样本中的人脸形状；

是第j张人脸图片样本经过第i个回归器后的人脸形状；

φ_i是在人脸形状下的SURF特征；

λ是正则化参数。

所述SURF特征采用SURF算子提取，具有速度快，稳定性好的特点。所述回归器能够防止人脸形状过渡拟合匹配；通过多个回归器级联使用可以减少匹配时的偏差。优选的，λ取值0.1。

优选的，所述级联回归模型通过下述步骤进行训练：

S3131、采集大量人脸图片样本数据，并对人脸图片进行人工特征点标记，所标记的特征点包括眼球中心点、眼角、鼻尖、嘴角9个特征点；

S3132、根据标记的眼球中心点、眼角、鼻尖、嘴角9个特征点评估图片中的人脸角度；

S3133、根据人脸角度范围判别正脸样本、左侧脸样本、右侧脸样本；

S3134、将属于同一类型的样本作为级联回归模型的输入进行训练，分别获得正脸级联回归模型、左侧脸级联回归模型以及右侧脸级联回归模型。

基于所述方法，在一个实施例中实现了一种实时的人脸交互系统，所述系统包括下述模块：

在这个实施例中，所述系统可以应用于手机、平板、带摄像头的广告机、带摄像头的电脑等场合，能够通过脸部动作状态智能控制视频中的输出对象，通过输出对象真实地反映操作者的喜怒哀乐等脸部动作变化。在通过摄像头拍摄获得脸部后，摄像机拍摄的同时，就完全实时地对屏幕上的视频做出同步脸部动作控制效果。比如在捕捉到摄像头前对象的眨眼动作，每捕捉到一次，将在视频输出时重新生成并实时显示另一对象同样的眨眼动作。摄像头前对象和重新生成的另一对象可以是人，也可以是动物，或者其他具有脸部的对象。当摄像头前对象是人，重新生成的另一对象是动物或卡通形象时，就相当于把摄像头前对象拟动物化或拟卡通化。

优选的，所述M300中所述使用级联回归模型提取人脸特征包括下述步骤：

S301、通过自动识别方式确定要提取的特征点的数量；

优选的，所述M300中所述人脸变形包括下述流程：

进一步地，所述系统还包括：

M500、动作检测模块，用于捕捉当前用户的面部动作，如果捕捉到预设动作，实时将当前用户的哈哈镜视觉画面变化为当前同一用户的另一种不同的哈哈镜视觉画面。

优选的，所述M500中实时将当前用户的哈哈镜视觉画面变化为当前同一用户的另一种不同的哈哈镜视觉画面，包括下述步骤：

可选的，所述动作检测单元工作流程如下：

Σ_{i = 1}^{3} Σ_{j = 1}^{3} (W_{i j}^{H} d_{i j}^{H} + W_{i j}^{M} d_{i j}^{M} + W_{i j}^{V} d_{i j}^{V})

优选的，所述M300还包括跟踪检测单元，用于在人脸检测识别之后，判断当前检测到的人脸是否与先前检测到的人脸相同。通过跟踪摄像头拍到的现实人脸，追踪人脸的位置变化，若是相同的人脸，再跟进一步跟踪五官的变化，比如微笑张嘴，可以通过上下唇的关键点，追踪关键点点间距离变化；睁大眼镜或者笑成眯眯眼，通过上下眼睑的关键点，追踪关键点点间距离变化等。

优选的，所述动作检测单元在跟踪检测到相同人脸时，利用之前已提取的同一人脸的特征点结合当前人脸角度进行特征点匹配。

优选的，所述跟踪检测单元工作流程包括：

在一个实施例中，所述M300中所述级联回归模型包括N个回归器，每个回归器上的参数矩阵W_i需满下列要求：

\arg \min_{W_{i}} Σ_{j = 1}^{K} | | X_{j} - X_{i j}^{*} - W_{i} Φ_{i} | |_{2}^{2} + λ | | W_{i} | |_{2}^{2}

其中：

K是输入的人脸图片样本数目；

X_j是标定第j张人脸图片样本中的人脸形状；

是第j张人脸图片样本经过第i个回归器后的人脸形状；

φ_i是在人脸形状下的SURF特征；

λ是正则化参数。

优选的，所述级联回归模型通过下述步骤进行训练：

以上对本公开进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

Claims

1.一种实时的人脸交互方法，其特征在于，所述方法包括下述步骤：

S100、获取电子哈哈镜前的、当前用户的实时视频；

2.根据权利要求1所述的方法，其特征在于，优选的，所述S300中所述使用级联回归模型提取人脸特征包括下述步骤：

S301、通过自动识别方式确定要提取的特征点的数量；

S302、获取眼球中心点、眼角、鼻尖、嘴角部位的多个点在内的特征点，并根据这些特征点的位置关系评估人脸角度；

3.根据权利要求1所述的方法，其特征在于，所述S300中所述人脸变形包括下述步骤：

S311、确定多个要变形五官的特征点，基于确定的特征点及其影响半径，在各个变形五官的影响半径不完全相同的情况下，计算受变形影响的每个像素点的新位置和新灰度值；

4.根据权利要求1所述的方法，其特征在于，所述步骤S400之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述S500中实时将当前用户的哈哈镜视觉画面变化为当前同一用户的另一种不同的哈哈镜视觉画面，包括下述步骤：

6.根据权利要求4所述的方法，其特征在于，所述动作检测包括下述步骤：

S511、基于提取的特征点，利用神经网络来判断面部动作状态，并对人脸图像的连续性进行判断；

7.根据权利要求2所述的方法，其特征在于，所述步骤S300在在人脸检测识别之后，还包括进行跟踪检测；所述跟踪检测，用于判断当前检测到的人脸是否与先前检测到的人脸相同。

8.根据权利要求7所述的方法，其特征在于，所述步骤S303在跟踪检测到相同人脸时，利用之前已提取的同一人脸的特征点结合当前人脸角度进行特征点匹配。

9.根据权利要求7所述的方法，其特征在于，所述跟踪检测的步骤包括：

10.根据权利要求1～9任一所述的方法，其特征在于，所述哈哈镜视觉画面还包括文字。

11.一种实时的人脸交互系统，其特征在于，所述系统包括下述模块：

12.根据权利要求11所述的系统，其特征在于，所述M300中所述使用级联回归模型提取人脸特征包括下述流程：

S301、通过自动识别方式确定要提取的特征点的数量；

13.根据权利要求11所述的系统，其特征在于，所述M300中所述人脸变形包括下述流程：

S312、利用S311中计算得到的每个像素点的新位置和新灰度值更新图像上相关的像素点。

14.根据权利要求11所述的系统，其特征在于，所述系统还包括：

15.根据权利要求14所述的系统，其特征在于，所述M500中实时将当前用户的哈哈镜视觉画面变化为当前同一用户的另一种不同的哈哈镜视觉画面，包括下述步骤：

16.根据权利要求14所述的系统，其特征在于，所述动作检测包括下述步骤：

17.根据权利要求12所述的系统，其特征在于，所述M300还包括跟踪检测单元，用于在人脸检测识别之后，判断当前检测到的人脸是否与先前检测到的人脸相同。

18.根据权利要求17所述的系统，其特征在于，所述动作检测单元在跟踪检测到相同人脸时，利用之前已提取的同一人脸的特征点结合当前人脸角度进行特征点匹配。

19.根据权利要求17所述的系统，其特征在于，所述跟踪检测单元工作流程包括：

20.根据权利要求11～19任一所述的系统，其特征在于，所述哈哈镜视觉画面还包括文字。