CN111465937A

CN111465937A - 采用光场相机系统的脸部检测和识别方法

Info

Publication number: CN111465937A
Application number: CN201880079398.9A
Authority: CN
Inventors: 石志儒; 吴旻烨; 马文广; 虞晶怡
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2017-12-08
Filing date: 2018-12-07
Publication date: 2020-07-28
Anticipated expiration: 2038-12-07
Also published as: US11410459B2; CN111465937B; US20200302155A1; WO2019110012A1

Abstract

一种采用光场相机阵列检测并识别脸部的方法，包括：采用所述光场相机阵列捕获多视角彩色图像；获得深度图；通过含深度分量和语义分量的权重函数进行光场渲染，其中，所述权重函数向光场内的光线分配权重；以及检测并识别脸部。

Description

采用光场相机系统的脸部检测和识别方法

光场可看作由沿所有方向流经空间中的所有点的光构成的场。通过记录场景的光场信息，可以对所有光进行后处理，以获得二维图像无法获得的新信息，如在人群中被遮挡的人的图像。根据光场的独有特征，提供一种新的遮挡脸部检测与识别系统，该系统可用于地铁站、火车站、飞机场等公共场所。

1.光场相机阵列系统

提供一种用于捕获场景光场信息的光场数据捕获系统。该光场数据捕获系统包括如图1所示的光场相机阵列。在该系统中，RGB相机用于捕获颜色信息，而深度传感器用于捕获实时深度信息。或者，也可利用基于彩色图像的计算等其他方式获得深度信息。在一种实施方式中，该系统中使用的RGB相机为FLIR公司制造的GS3-U3-51S5C相机，而且该系统共设有7台该相机。需要注意的是，所述RGB相机也可为其他类型的相机，而且该系统内也可设置其他数目的相机。此外，该系统中使用的深度传感器为微软公司制造的Kinect传感器。类似地，该深度传感器也可为其他类型的传感器，只要能够用于获取场景的深度信息即可。

在一种实施方式中，所述RGB相机和深度传感器很好地对准。各相机等距设置于静止的铝合金支架上，而所述深度传感器固定于该静止铝合金支架的中心。相邻两个RGB相机之间的距离在一种实施方式中为0.2米，但该距离在其他实施方式可有所不同。

在一种实施方式中，所使用的相机为FLIR公司GS3-U3-51S5C相机，该相机具有与信号发生器连接的同步GPIO线。在该相机捕获RGB数据后，该数据通过USB3.0线缆实时传输至计算机。本系统中使用的数据线和控制线取决于所述相机，并且可随相机的不同而不同。

所捕获的数据传递至数据处理系统，该系统包括计算机和USB3.0捕获卡。所述相机通过USB3.0线缆与所述捕获卡连接。由于所述相机产生大量的数据，因此需要实施光场数据压缩，该压缩考虑分视角之间的关联性。

在多视角彩色图像和深度图传递至数据处理中心后，该数据可由光场渲染系统解码和处理，其中，所述数据处理中心可以为具有强大处理能力的计算机或设有GPU的云服务器。其中，由基于语义分割的光场渲染系统提供高质量的透视效果。本发明包括：构建含深度分量和语义分量的权重函数，其中，该权重函数向光场内的光线分配权重；以及以所述权重函数进行光场渲染。语义分割技术的进一步公开内容见申请号为PCT/CN2017/111911，名称为“基于语义分割的光场渲染”，申请日期为2017年11月20日的PCT专利申请，该文全部内容通过引用并入本文。所述光场相机系统和渲染系统的脸部检测与识别流程图示于图2。

通过所述光场渲染系统，获得一组具有不同焦平面的清晰图像。从光场数据获得的重新聚焦图像具有如下倾向：当光场内的对象不位于焦平面上时，将会产生重影效应，即该对象的多幅图像存在重叠现象。这些伪影会降低脸部检测算法的有效性，甚至会使得此类算法无效。

传统的脸部检测算法不仅只有在当聚焦于脸部时才能实现脸部的清晰检测，而且在光场系统中，也无法保证脸部永远保持清晰。因此，传统的脸部检测算法无法在光场系统内实现良好工作性能。与传统脸部检测算法相比，根据本公开内容实施方式的脸部检测方法能够从重影图像中提取更多信息，其总体过程见图3。

1.1光场图像的重影脸部检测

我们的重影脸部检测工具使用Haar特征，并以Adaboost算法对重影脸部进行训练。因此，我们的检测工具能够识别传统方法无法识别的重影脸部。我们通过滑动窗口将每一图块馈入我们的重影脸部检测工具中，以判断其是否为重影脸部。此外，该算法还通过优化而能够获得更佳结果。

1.2基于脸部的追踪

各重影脸部依次追踪，并对重影效应的程度进行测量。其中，通过实时追踪算法对每一重影脸部实例进行追踪。

本实时追踪工具使用改进版的ECO追踪算法。其中，假设光场相机系统内有N个图像视角，每一视角表示为C_i，相应图像表示为I_i。当第一次检测到重影脸部时，边界框B_i＝(x_i，y_i，w_i，h_i)，其中，x_i，y_i为图像左上角的坐标，w_i，h_i为边界框的宽和高，i为视角编号。

追踪中的首项处理为特征提取。我们可以根据边界框剪取图块。其中，I′_i表示视角i的图块。随后，由特征提取工具F对I′_i进行特征提取：

x_i＝F(I′_i)

其中，x_i为所提取的特征图，具有D个通道。在实际当中，作为特征提取工具，F由多种算法构成，即可视为一种多种算法的组合形式。合适的特征提取算法例如为卷积网络和FHOG算法。在实际使用中，第六层的输出VGG-16(F₁)和FHOGF₂用于形成特征提取工具。

F(I′_i)＝F₁(I′_i)∪F₂(I′_i)

F₁和F₂的输出分辨率不同，因此需要通过特征插值处理将特征图调至相同大小。

我们定义用于处理特征图的插值函数

其中，x^d表示第d类特征图，b_d为双三次插值滤波器。该式可将空间域的信息转换至频域等其他域。

随后，利用这些特征对待追踪的脸部进行定位。其中，初始帧的边界框已知，所需获取的信息为对象在下一帧中的位置。但是，首先需要利用初始帧中的特征对有助于在下一帧中对相同对象进行定位的相关性滤波器进行训练。

相关性滤波器表示为f＝(f¹，f²，...，f^D)。通过边界框信息和特征提取工具，可获得视角i下的特征图

通过相关性滤波器，可计算如下得分图：

其中，*表示卷积运算符。频域中存在下式：

显然，

其中，

为傅立叶逆变换。

在该定义方式中，目标对象的位置为得分图中分数最高之处。所述滤波器还用于对不同视角的不同特征图进行滤波处理，从而提高该滤波器针对对象变形的稳健度。

完成脸部定位后，对用于训练相关性滤波器的一组训练样本进行更新。此类样本收集于某一个时间段，如果所述一组训练样本中的某个训练样本的收集时间较久(如5秒钟前的视频)，则将该样本清除。随后，将当前特征图添加至所述一组训练样本中。

为了实现相关性滤波器的训练，我们创建了如下目标函数：

其中，M为本光场相机系统中不同视角下的训练样本数，a_j为每一视角的权重，w为调整系数。我们的目的在于训练出能够在不同视角中找出所述对象的单个滤波器。这一训练策略可找出不同视角下特征图中的不变特性。

由此可见，脸部追踪的流程如下：

1.3脸部位置预测

在获得每一视角的脸部位置以后，便可通过光场渲染算法在目标视角中分配脸部位置。因此，在目标视角中，便有了不同视角下的多个脸部追踪轨迹。根据重影效应变化过程的程度，可以预测出所有焦点脸部图案的位置。所有此类轨迹均在同一位置处相交。此外，还进行近似焦平面的计算。根据每一实例的轨迹和运动，我们可以预测出其交点。

在交点预测中，我们使用速度估计法。首先，根据最近的三个轨迹点p₁，p₂，p₃计算当前速度，然后按照下式计算速度：

通过以当前速度叠加轨迹，可以预测接下来数帧的轨迹。当预测轨迹存在交点时，即实现我们的目的。

上述交点表示所有聚焦脸部的位置。在获得不同视角下的该位置后，通过将相应各点连成三角形而获得近似焦平面。

1.4新视角的渲染

在对新视角进行渲染时，先根据计算结果设置新的焦平面，然后预测相应时间上预测位置周围的脸部，最后根据预测时间点的新焦平面，进行光的渲染。

2.基于光场的脸部对齐

上述方法使用时的最大难点在于，脸部检测时脸部有时不正对相机，从而使得所检测到的脸部并非正面全脸。为了获得更佳结果，脸部识别算法在识别脸部图像时需要脸部处于较好的姿势。为了获得更佳的识别效果，我们提出一种新的光场相机脸部对齐方法，该方法能够将检测出的脸部调节至正脸。为了实现脸部对齐，我们使用来自光场相机阵列系统的原始图像数据和相应深度数据，并执行图5所示以下步骤：

1.将所有深度数据转换为点云。通过使用校正后的深度相机，并利用校正后深度相机的内参矩阵和外参矩阵，可将每一像素的深度值投影成三维空间坐标的点。

2.将点云投影至所有彩色相机和虚拟相机。首先，对所有相机进行校准并获得其内参矩阵和外参矩阵，然后使用这些相机进行投影。但是，与传统方法的区别在于，我们先利用双线性插值法对所有深度数据进行上采样，然后再进行投影。

3.在当前场景和当前时间运行光场相机脸部检测算法，并获得脸部朝向。通过光场脸部检测算法，获得脸部的位置和朝向。

4.点云着色。对于虚拟渲染相机中每一检测到的脸部，获取其像素的深度。根据相机校准数据，追踪所有彩色相机中的此类三维点，然后从彩色相机索取彩色像素值，并对通过深度测试的像素进行混色。

5.利用脸部检测获得的脸部朝向信息，将三维脸部点云旋转至正面姿势，然后对其进行渲染。如此，可获得三维空间的脸部彩色点云，然后只需根据其朝向进行渲染即可。随后，将渲染相机放置于相应位置。

附图说明

图1至图5为本发明示意图。

Claims

1.一种使用光场相机阵列检测并识别脸部的方法，其特征在于，包括：

使用所述光场相机阵列捕获多视角彩色图像；

获得深度图；

使用包含深度分量和语义分量的权重函数进行光场渲染，其中，所述权重函数向光场内的光线分配权重；以及

检测并识别脸部。

2.如权利要求1所述的方法，其特征在于，还包括：利用多个Haar特征和优化后的Adaboost算法，识别第一重影脸部。

3.如权利要求2所述的方法，其特征在于，还包括：追踪所述第一重影脸部和第二重影脸部；以及测量重影效应程度。

4.如权利要求3所述的方法，其特征在于，还包括：根据所述重影效应程度，对焦平面进行近似处理。

5.如权利要求4所述的方法，其特征在于，还包括：根据所述焦平面，进行光渲染。

6.如权利要求1所述的方法，其特征在于，所述深度图由深度传感器捕获。

7.如权利要求1所述的方法，其特征在于，所述深度图根据所述多视角彩色图像计算。

8.如权利要求1所述的方法，其特征在于，还包括：通过将深度图像转换为点云而将检测到的脸部调整为正脸。