CN104992417A

CN104992417A - 基于Kinect的人脸视频目光修正方法及系统

Info

Publication number: CN104992417A
Application number: CN201510386743.1A
Authority: CN
Inventors: 盛斌; 张雨; 申瑞民
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2015-10-21
Anticipated expiration: 2035-06-30
Also published as: CN104992417B

Abstract

一种基于Kinect的人脸视频目光修正方法及系统，首先通过Kinect识别出视频流中的人脸部分，根据当前人脸的不同状态，通过椭圆拟合方法捕捉得到脸部轮廓，然后对人脸位姿进行调整，再对人脸细节进行微调处理，最后将调整后的人脸与背景融合，本发明能够解决视频会议中失去眼神交流的问题，并能解决调整目光后的眼镜变形、双下巴、背景混入人物图像、嘴部变形的问题。

Description

基于Kinect的人脸视频目光修正方法及系统

技术领域

本发明涉及的是一种视频图像处理领域的技术，具体是一种基于Kinect的人脸视频目光修正方法及系统。

背景技术

失去在视频会议目光接触是常见的问题，它使沟通不自然的和低效。其原因是摄像头和屏幕之间的差距：用户通常是看另一个在屏幕上的形象，然而，只有用户看摄像头时才会有眼神交互。目光校正的目的是用户自然地看着屏幕的同时与对方实现眼神接触。

有很多试图消除屏幕和相机之间的差距的尝试，后来的一些研究集中在如何获得场景的几何结构并从新的角度来生成的图像，一般是使用相机阵列和立体分析或深度相机或混合。一个常见的问题是，他们不能保证背景的完整。除此之外，它也不便宜，校准是复杂的。Kuster等人在"Gazecorrectionforhomevideoconferencing(家用视频会议视线校准方法)"ACMTransactionsonGraphics(TOG)31.6(2012)：174.中提出了一种矫正方法，只需要替换的场景图像的纠正，在2012年举行的SIGGRAPHAsia，此方法取得了巨大的成功。但该技术尚无法解决如：眼镜问题，遮挡问题等。

Kinect是微软公司研制的一款体感外设，实际上是一种3D体感摄影机。该设备共有3个摄像头，中间是RGB彩色摄像头，左右两边分别为红外投影机(红外线发射器)和红外摄像头(CMOS红外感应设备)，用于深度探测。Kinect搭配了追焦技术，底座马达会随着对焦物体移动而转动。同时Kinect还内置麦克风阵列，用于语音识别。另外，Kinect作为一款体感设备价格低廉，但目前暂无将上述两种技术有机结合的先例。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于Kinect的人脸视频目光修正方法及系统，针对用户不同的状态，用新的椭圆拟合方法捕捉用户的脸部轮廓，并有效解决针对眼睛重建、旋转、背景混合(前景过滤)、深度不连续区域的不真实等问题，并最终将处理后的脸部重新融合到原背景中，得到一个用户正视摄像头的视频流。

本发明是通过以下技术方案实现的：

本发明首先通过Kinect识别出视频流中的人脸部分，根据当前人脸的不同状态，通过椭圆拟合方法捕捉得到脸部轮廓，然后对人脸位姿进行调整，再对人脸细节进行微调处理，最后将调整后的人脸与背景融合，得到的视频流中的人的视线朝向摄像头，实现眼神交互的效果。

所述的视频流来自于Kinect在线视频，或者Kinect视频文件。

所述的当前人脸的不同状态是指除去用户的正常姿势，在用户向上或者向下看时也能够识别用户的整个脸部轮廓。

所述的椭圆拟合方法是指：根据脸部特征点估计自然空间椭圆的中心、长短轴，并将其映射回图片空间。

所述的微调处理包括：眼镜图像重建处理、前景过滤处理、旋转处理以及孔填充处理四种处理。

所述的眼镜图像重建处理是指：在大多数情况下，没有深度信息的眼镜就像被粘贴在脸上。缺乏深度信息，旋转后的眼镜变得扭曲。此外，旋转后，眼镜架的位置不再匹配原始：如果缝穿过眼镜架，眼镜架部分会折断；如果缝从眼镜架的一端到另一端，眼镜架部分闪烁。更糟糕的是，眼镜架周围的大洞也使眼镜架闪烁。为解决失真问题，提出了一个技术：改造的眼镜形状。为了解决眼镜架问题，额外的规则在缝优化和孔填充应用于避免眼镜腿的裂纹和闪烁。

所述的旋转处理是指：由于人脸朝下旋转，使下巴比实际看上去要小，特别是当用户向下看，随着项目的长度变短，到摄像头的距离变长，而且它将双下巴问题即新的下巴与原始下巴融合，但没有覆盖原来的一个。旋转处理通过提出修正角的处理，不需要固定在校准角度的方案，并在此基础上，解决了双下巴的问题。现在，调整角度成为当前角度的函数，在用户向下看时它将顺利减少修正角，并保持修正角几乎校准的角度，而用户看屏幕。用户向上看的情况扩展版的自适应修正角也会减少修正角，从而改善了当用户脸部过高的输出。

所述的前景过滤处理是指：只需要新图形的脸部部分，过滤背景会加快很多其他进程，例如，孔填充。根据背景技术中的记载，Kuster等人使用一个简单的阈值过滤背景，深度是不够精确的过滤所有的背景。使用脸平面作为参考来过滤背景，消除所有脸平面以外的点。它可以彻底地去除背景，同时，它还可以去除不可靠的深度点不连续区域，为孔填充提供方便。同样以此技术，避免对象遮挡旋转后的脸部，解决了最遮挡的问题。

所述的孔填充处理是指：当用户打开他们的嘴，它形成了一个深度不连续区域，因此，嘴周围的深度值变得不可靠，导致畸形的嘴。为了解决这个问题，删除和补充嘴部深度信息。去除的嘴被认为是深度值中正常的洞，总是如此，孔填充的结果就像自然的嘴的形状。

本发明涉及一种实现上述方法的系统，包括：KINECT模块、椭圆拟合模块、人脸位姿调整模块以及脸部背景融合模块，其中：KINECT模块与提供输入信息，椭圆拟合模块、人脸位姿调整模块、脸部背景融合模块进一步处理调整后视频的失真问题，并最终输出目光矫正后的视频流。

技术效果

与现有技术相比，本发明能够解决视频会议中失去眼神交流的问题，并能解决调整目光后的眼镜变形、双下巴、背景混入人物图像、嘴部变形的问题。

附图说明

图1为本发明流程图。

图2为实施例针对眼镜重建、前景过滤、双下巴、深度不连续区域的失真问题本发明与一般方法的对比图；

图中：第一列为原图，第二列为普通方法效果，第三列为本方法处理效果。

图3为实施例针对背景混合、椭圆拟合过小、椭圆拟合过大、旋转后头发问题本发明与一般方法的对比图；

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例包括以下步骤：

第一步、从Kinect中获得信息。

本实施例中信息是指在线Kinect输入或者Kinect的文件。

第二步、根据第一步获得的视频流捕获出用户的脸部区域。

所述的脸部区域的捕获采用改善的椭圆拟合方法，改善方法为：根据脸部特征点估计自然空间椭圆的中心、长短轴，并将其映射回图片空间。

第三步、调整脸部区域。

通过对比旋转的方法调整脸部。将旋转中心的概念引入到系统，使旋转更加直观。选择头中心为旋转中心，的系统不再需要匹配的旋转的脸以及原来的脸，因此，避免不稳定带来的闪烁的匹配。

第四步、针对细节进行的微调处理，包括：眼镜图像重建处理、前景过滤处理、旋转处理以及孔填充处理。

所述的微调处理具体包括以下步骤：

4.1)初始化轮廓接缝：

a)在第一帧在系统复位后，沿着椭圆生成缝点；

b)如果不是第一次复位后，使用椭圆来转移前一帧的接缝所为当前的初始，这样可以稳定接缝。

c)缝点的形式是相对椭圆的长度和相对椭圆的方向的。形成一个新的椭圆，新的相应的缝形成的。

d)这种方法确保缝点总是生成均匀；它适用于所有类型的变化：改变大小，旋转。

4.2)接缝最佳化：

a)底部一半缝点，直接用下巴点的新面孔。因此，新下巴将覆盖原来的，完全或大部分，随后的混合使其平滑。

b)上半部分使用传统的一个最优的优化算法。在每次迭代中，优化所有奇数点首先，然后优化甚至点，避免相互影响在一个迭代。

c)对于每一个点，不同椭圆中心的相对长度，并找到最优。错误定义的总误差(色差)沿着两个相邻边缘的宽度宽。总误差沿缝是混合的总误差。

4.3)眼镜重建处理：

脸上给定区域的某个点满足：(Point-FaceCenter)·FaceNormal＝PlaneDistance

FaceCenter是脸部中心，FaceNormal是脸上的任一点，PlaneDistance为平面距。

点计算的形式为：

P o int = (w x, w y, w z) = \frac{d e p t h}{f o c u s} (i m x, i m y, f o c u s)

其中：depth、focus分别为该点的深度和专注度，imx、imy为相对平面的直角坐标值。

转换自然空间点的坐标与图像空间的坐标。最后得到眼镜深度以重建眼镜：

depth′＝wz·(PlaneDistance+FaceCenter·FaceNormal)/(Point·FaceNormal)

4.4)针对旋转问题采用以下公式矫正角度：

ω = \{\begin{matrix} \frac{k}{e^{{(θ - θ_{0})}^{2}}} θ_{0} & θ < θ_{0} \\ θ_{0} & θ &GreaterEqual; θ_{0} \end{matrix}\},

其中：Θ为平面的脸部平面与x‐y平面的角θ₀是用户最近一次按下一键矫正键时脸部平面与x‐y平面间的矫正角度。Ω是要得到的矫正角度。

第五步、融合背景与脸部：赋予两幅图中每个像素质量等级，即接缝的法线方向，在新图像像素的重量从一个零，在原始图像和像素的重量从0到1。

每个像素质量等级为：

{weight}_{g r a d a t i o n a l} = \exp (- \sqrt{\frac{{distance}_{l o c a t i o n}}{{theta}_{l o c a t i o n}}}) * \exp (- \sqrt{\frac{{distance}_{c o l o r}}{{theta}_{c o l o r}}}),

其中：distance_color为每个图像像素的距离值，theta_location是每个像素的角度值。

Claims

1.一种基于Kinect的人脸视频目光修正方法，其特征在于，首先通过Kinect识别出视频流中的人脸部分，根据当前人脸的不同状态，通过椭圆拟合方法捕捉得到脸部轮廓，然后对人脸位姿进行调整，再对人脸细节进行微调处理，最后将调整后的人脸与背景融合。

2.根据权利要求1所述的方法，其特征是，所述的视频流来自于Kinect在线视频，或者Kinect视频文件。

3.根据权利要求1所述的方法，其特征是，所述的当前人脸的不同状态是指除去用户的正常姿势，在用户向上或者向下看时也能够识别用户的整个脸部轮廓。

4.根据权利要求1所述的方法，其特征是，所述的椭圆拟合方法是指：根据脸部特征点估计自然空间椭圆的中心、长短轴，并将其映射回图片空间。

5.根据权利要求1所述的方法，其特征是，所述的微调处理包括：眼镜图像重建处理、前景过滤处理、旋转处理以及孔填充处理。

6.根据权利要求1或5所述的方法，其特征是，所述的微调处理具体包括：

4.1)初始化轮廓接缝，具体包括：

4.1.1)在第一帧在系统复位后，沿着椭圆生成缝点；

4.1.2)如果不是第一次复位后，使用椭圆来转移前一帧的接缝所为当前的初始，这样可以稳定接缝；

4.1.3)缝点的形式是相对椭圆的长度和相对椭圆的方向的，形成一个新的椭圆，新的相应的缝形成的；

4.1.4)这种方法确保缝点总是生成均匀；它适用于所有类型的变化：改变大小，旋转；

4.2)接缝最佳化，具体包括：

4.2.1)底部一半缝点，直接用下巴点的新面孔，因此，新下巴将覆盖原来的，完全或大部分，随后的混合使其平滑；

4.2.2)上半部分使用传统的一个最优的优化算法，在每次迭代中，优化所有奇数点首先，然后优化甚至点，避免相互影响在一个迭代；

4.2.3)对于每一个点，不同椭圆中心的相对长度，并找到最优，错误定义的总误差，即色差，沿着两个相邻边缘的宽度宽，总误差沿缝是混合的总误差；

4.3)眼镜重建处理，具体包括：

4.3.1)脸上给定区域的某个点满足：

(Point-FaceCenter)·FaceNormal＝PlaneDistance

其中：FaceCenter是脸部中心，FaceNormal是脸上的任一点，PlaneDistance为平面距；

4.3.2)点计算的形式为：

P o int = (w x, w y, w z) = \frac{d e p t h}{f o c u s} (i m x, i m y, f o c u s)

其中：depth、focus分别为该点的深度和专注度，imx、imy为相对平面的直角坐标值；

4.3.3)转换自然空间点的坐标与图像空间的坐标，最后得到眼镜深度以重建眼镜：

{depth}^{'} = w z \cdot \frac{P l a n e D i s \tan c e + F a c e C e n t e r \cdot F a c e N o r m a l}{P o int \cdot F a c e N o r m a l}

4.4)针对旋转问题采用以下方式矫正角度：

ω = \{\begin{matrix} \frac{k}{e {(θ - θ_{0})}^{2}} θ_{0} & θ < θ_{0} \\ θ_{0} & θ &GreaterEqual; θ_{0} \end{matrix}\},

其中：Θ为平面的脸部平面与x-y平面的角θ₀是用户最近一次按下一键矫正键时脸部平面与x-y平面间的矫正角度，Ω是要得到的矫正角度。

7.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：KINECT模块、椭圆拟合模块、人脸位姿调整模块以及脸部背景融合模块，其中：KINECT模块与PC相连并提供图片来源，再经椭圆拟合模块、人脸位姿调整模块、脸部背景融合模块矫正输入在线视频或离线视频中人物的目光，得到目光矫正的输出流。