CN1949247A

CN1949247A - 用于识别图像中的脸部的方法

Info

Publication number: CN1949247A
Application number: CN 200610136134
Authority: CN
Inventors: 李珍镐; 巴贝克·莫格达姆; 汉斯彼得·非斯特; 拉谷·马奇拉居
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-10-14
Filing date: 2006-10-13
Publication date: 2007-04-18
Anticipated expiration: 2026-10-13
Also published as: JP4849460B2; CN100412886C; JP2007109234A

Abstract

一种识别图像中的脸部的方法。将具有形状和姿态参数的形变模型适配到图像中的脸部，以构建脸部的三维模型。使用三维模型从图像中的脸部提取纹理。将形状和纹理投射到双线性照度模型，来生成对于图像中的脸部的照度基。比较对于图像中的脸部的照度基和已知脸部的多个双线性照度模型中的每一个模型的照度基，来识别图像中的脸部。

Description

用于识别图像中的脸部的方法

相关申请

本申请是Lee等人于2005年6月14日提交的美国专利申请号为11/152,528的“Method and System for Generating Bilinear Models forFaces”的部分延续。

技术领域

本发明一般地涉及计算机视觉，更具体地，涉及图像中脸部的识别。

背景技术

脸部识别系统的性能受到由于光照和姿态变化而引起的脸部外观的改变的不利影响。一种普遍的趋势是开发人脸的3D形状信息来克服传统2D图像的限制。3D形状信息可以直接从距离扫描仪获取或者从一个或多个图像中估计。尽管获取3D几何数据的成本正在降低，但是大部分现有的脸部数据库只包括简单的2D图像。因此，从单个2D图像中获取3D形状比从多个图像或者距离数据中获取更可行。

当前，有三种不同的技术使用3D形状信息用于脸部识别。第一种，直接使用3D形状作为独立于姿态/照度的特征。第二种，使用3D数据来产生在不同的视角和光照条件下的合成肖像，以便于产生2D图像空间中的姿态/照度恒定的表示。第三种，使用3D形状获得具有球形谐波的Lambertian对象的可分析的照度子空间

例如，第一个方法典型地为形变模型(Morphable Model)，V.Blanz and T.Vetter，“Face recognition based on fitting a 3Dmorphable model，”IEEE Transactions on Pattern Analysis andMachine Intelligence，25(9)：1063-1074，2003。他们从单个图像中获取脸部的3D形状和2D纹理，来构建模型。用于探测的模型和图库图像被基于它们各自的主元分析(PCA)系数而直接匹配。该技术处理可变的姿势和光照。然而，该技术需要对脸部标志物进行细致的手动初始化并且使用迭代非线性优化技术来进行适配，这无论如何也要花几分钟来完成，然后得到局部最小值。因此，脸部捕捉/建模方法是否可被用于实时的脸部识别是不确定的。

第二和第三种技术在质量上是不同的，并且都涉及了流行的“基于子空间的距离”的识别范型，这要回溯到2D的基于外观的建模的早期工作。尽管这两种方法也可以使用3D形变模型，但是与用于识别的表示的最终选择相反，该3D形变模型大部分是按照用于后续的恒定建模和子空间生成的工具的形式。

已知几种用于产生线性子空间来获取脸部照度变化的方法。一种方法是根据在不同照度下的七个正面图像，使用测光立体图像来重构3D脸部几何形状和反照率，A.S Georghiades，P.N.Belhumeur，andD.J.Kriegman，“From few to many：Illumination cone models forface recognition under variable lighting and pose，”IEEE Transactionson Pattern Analysis and Machine Intelligence，23(6)：643-660，2001。估计的3D脸部然后可以被用于渲染基于不同的姿态和光照条件的合成图像，来修整针对特定人的照度锥体(illumination cone)。

另一方法使用类似的“捷径”，R.Basri and D.Jacobs，“Lambertian reflectance and linear subspace，”IEEE Transaction onPattern Analysis and Machine Intelligence，25(2)：218-233，2003。他们陈述了凸起的Lambertian 3D对象的随机照度应该被“九个谐波图像”所跨的低维的线性子空间所近似。给定表面法线(normal)和反照率，九个谐波图像可以通过分析而确定。

K.Lee，J.Ho，and D.Kriegman，“Nine points of light：Acquiringsubspaces for face recognition under variable lighting，”Proc.ofComputer Vision & Pattern Recognition，volume 1，pages 519-526，2001描述了一个更加可行的变型。他们根据经验确定点源的九个方向，通过其来近似所述“九个谐波图像”的跨度。这九个图像足够用于脸部识别，并且不需要3D形状，例如，表面法线和反照率。然而，在实际的操作设置中获取每个脸部的九个图像并不总是可行的。

另一个方法是从单个图像估计所述“九个谐波图像”，L.Zhangand D.Samaras，“Face recognition under variable lighting usingharmonic image exemplars，”Proc.Computer Vision & PatternRecognition，pages I：19-25，2003。然而，脸部既不是确切地为Lambertian也不是完全凸起。因此，球形谐波具有内在的限制，尤其是当处理镜面反射(specularity)、投阴影、交互反射以及表面下漫射时。它们也需要一个“自举(bootstrap)”数据集。

发明内容

本发明基于很多的主体在可变光照情况下的测量照度统计数据，为任意3D脸部生成照度子空间。基于更高阶奇异值(SVD)的双线性模型被用于在给定了来自作为参数的3D脸部模型的任意形状参数的情况下产生小型的照度子空间。

使用基于使输入图像距离最小化的匹配处理，来动态地改变照度子空间，针对特定形状的照度子空间基于单个照片而被重构。重构的照度子空间用于脸部识别。

附图说明

图1是为脸部生成双线性模型的方法的流程图；

图2是用于获取脸部的形状和图像数据的系统的方框图；

图3是作为向量的经对准的形状点和纹理分量的方框图；

图4是从图3的向量产生双线性模型的流程图；

图5是比较对于不同数量的基(base)的重构误差的曲线图；

图6是比较对于不同数量的摄像机视点的重构误差的曲线图；以及

图7是使用双线性照度模型识别输入图像中的脸部的流程图。

具体实施方式

图1和图2示出了按照本发明的一个实施例的用于生成脸部的双线性照度模型的方法和系统。多个摄像机101获取110脸部105的大量2D反射率图像102。对于每一个脸部，通过改变姿态或视角并且改变方向照度，来获取脸部的多个图像。对于每一个脸部，扫描仪103获取120脸部的3D形状104。

如图2所示，人坐在网格球顶形式的管式框架(tubular frame)202内的椅子201上。数字摄像机101安装在框架上并且从不同视角瞄准脸部。球顶还包括方向光源203。使用在面向椅子201的球顶202上半球状地安装的16个摄像机和150个LED光源。摄像机101和扫描仪103的输出连接到处理图像和3D形状数据的处理器200。

操作的时候，系统顺序地打开每个灯，同时用摄像机101获取1102D图像102。也可以通过利用不同的曝光设置重复获取序列，来获取高动态范围(HDR)图像。

安装在球顶中的脸部扫描仪103包括两个结构化的投光器和四个摄像机。扫描仪的输出是包含大约40000个三角形的多边形网格。网格可分辨小到1毫米的特征。网格进行切割以去除非脸部区域并简并(degenerate)三角形。

然后，网格被使用循环分割：Loop而细化，“Smooth SubdivisionSurfaces based on Triangles，”Master’s thesis，Department ofMathematics，University of Utah，1987。这得到具有500,000到1百万向量的高分辨率网格。该分割显著地去除了噪声。

把高分辨率的网格转换为采样点的非结构化列表，即，无连接性的曲面元素(surfel)，在此通过引用并入于2002年1月29日授予Pfister等人的美国专利6,342,886“Method for interactively modelinggraphical objects with linked and unlinked surface elements”。每一个曲面元素存储对于使用EWA Splatting(Zwicker等人2002年)对图像进行重构所必要的信息。

所有摄像机的内部和外部参数都可以被校准，并且脸部的3D点通过3D-2D登记处理被投射到每一个图像102中的对应的2D点。

双线性照度模型

首先使用图像和3D形状获取130所有脸部105的3D点到点的对应131。来自每个反射率图像102的照度采样，也就是像素亮度，被从3D采样点投射到脸部上，这产生由此与3D形状104对准的所登记2D采样。

还从脸部的所有图像中确定140每个脸部的漫射纹理141。假设脸部纹理没有与形状和反射率关联，按照如下等式从照度采样中计算出漫射纹理：

w_{k} = {\hat{t}}_{k} / t_{k},

for k＝1，...N

此处向量

是照度采样，t_k是在具有N个点的网格中的3D点p_k处的漫射纹理。w是无纹理的照度分量，其区别于反射率，因为该分量还包括投阴影。在本文的符号中，变量上面的向量符号‘^’和估计符号‘～’有时被省略。粗体变量通常是向量和矩阵。

作为每个脸部的结果，有脸部105的3D形状点(x，y，z)以及基于特定的视角或者姿态的针对每个光照条件(j)的无纹理分量(w)。

如图3所示，沿着亮度轴301、照度轴302和形状轴303，把所有脸部的3D点到点对应(x，y，z)与纹理分量w对准150为向量151：

a_ij＝(x₁，...，x_N，y₁，...，y_N，z₁，...，z_N，w₁，...，w_N)。

如图4所示，然后把三模式的更高阶奇异值分解(SVD)应用410到向量151，来确定形状和照度两者的连变分(joint variation)。所得数据数组是以如下乘积所表示的张量D411：

D＝Cx₁U₁x₂U₂x₃U₃，

此处模式矩阵U₁，U₂，U₃分别表示沿着形状轴、照度轴和数据轴的变化。核心的张量C调整模式矩阵间的交互。关于模式k的乘积算符x_k的细节，请参考L.D.Lathauwer，B.D.Moor，and J.Vandewalle，“A Multilinear Singular Value Decomposition，”SIAMJournal of Matrix Analysis and Applications，vol.21，no.4，2000。

使用模式k乘积的关联属性，模式矩阵U₃可以被并入Z＝Cx₃U₃中，生成了简化的2模式等式：

D＝Zx₁U₁x₂U₂。

接下来，如下所述确定430形状和照度基向量431。为了获得更简洁的表示，删除或者截去最高阶奇异向量并且保留减小后的低维子空间。

为了开发形状数据的冗余，即，沿着照度轴302的(x，y，z)元组(tuples)，把估计核心张量

分为两部分。这样，具有第i个形状和第j个光照条件的数据向量

421通过下式来估计420：

{\tilde{d}}_{i, j} = ({\tilde{Z}}_{xyz} x_{1} {\tilde{u}}_{1}^{i} x_{2} {\tilde{u}}_{2}^{j}, {\tilde{Z}}_{w} x_{1} {\tilde{u}}_{1}^{i} x_{2} {\tilde{u}}_{2}^{j}) - - - (1)

因为基本的形状104独立于光照条件(j)，所以预先确定对于任何j的估计

删除单个维(singleton dimension)，并且获得形状基行向量Z_s。同样，针对特定形状的照度基R_i通过估计

并且删除单个维而获得。这样，等式1就变为：

{\tilde{d}}_{i, j} = ({\tilde{u}}_{1}^{i} Z_{s}, {\tilde{u}}_{2}^{j} R_{i}), - - - (2)

此处估计和

分别是

的形状系数和照度系数。

使用形状和照度基向量Z_s和

431，以及形状参数α442的线性组合，可以如下重构440对应的形状和照度基441：

s＝αZ_s； (3)

R = {\tilde{Z}}_{w} x_{1} α; - - - (4)

α = \underset{i}{Σ} α_{i} {\hat{u}}_{1}^{i}, - - - (5)

此处s是形状向量(x，y，z)，并且R的行是针对特定形状参数α442的照度基向量。

尽管形状参数α可以由等式5描述，但是存在可以从外部源而不是3D形状104提供任意形状s的情况。在这种情况下，可以适配(fit)形状s，从而通过解下面的线性系统来找到最接近所述形状的形状参数α：

\hat{S} = \hat{α} Z_{s} . - - - (6)

如下所述，使用该技术，从一个通有的外部形状，如形变模型，估计照度子空间。

与九个球形谐波的比较

利用从一个近前的摄像机视点获得的数据生成所述双线性照度模型441，确定用于此双线性照度模型的子空间可以重构原始数据的程度。也将所述准确度与那些使用九个球形谐波作为基本图像得到的准确度进行比较，参考上述的Basri等人的文献。

因为用于很多脸部的基于多个光照条件和视点的3D形状和照度采样的基本原理，所以可以测量根据对于每种方法的不同数目的基的重构误差。

对于每个脸部i，存在对于所有的光照条件j和摄像机视点k的3D形状s_i，漫射纹理t_i，和照度采样

由于少许遮掩(occlusion)，对于每个视点，某些照度采样是不可用的。因此，对于任何只包含有效采样的向量使用符号

给定向量s和

并省略下标，首先使用所述方法，然后使用九个球形谐波图像，来确定照度基R。接下来，以基于元素(element wise)的方式将漫射纹理t乘以矩阵R^T的每一列。这就构成了纹理加权的的照度基B，以及对于

的重构误差：

error = | | \tilde{t} - \hat{B} {\hat{B}}^{T} \tilde{t} | |, - - - (7)

此处是只包含与

对应的B的有效行的、的QR分解。确定对于用于针对每个方法进行重构的主体、光照条件、摄像机视点以及基的数目的所有组合而言的重构误差，以生成照度空间。

图5比较了对于不同数目的基的重构误差，并且图6比较了对于不同数目的摄像机视点的重构误差。

基于单个图像的估计

现在描述在给定脸部的单个输入图像的情况下如何获得针对特定脸部的照度子空间，即照度基。照度基是在把形变模型适配到输入图像后从所述双线性照度模型中导出的。这是通过把从输入图像提取的三维形状的适配模型和纹理投射为双线性照度模型来生成针对特定脸部的照度基而实现的。

针对特定形状的照度子空间

构建对于每个脸部形状的向量s，和用于每个对应纹理的向量t。对形状向量S和纹理向量T分离地实施主元分析(PCA)。然后，任意的形状和纹理可以使用前M个特征向量和模型参数α和β按照下式被重构：

s = \overset{&OverBar;}{S} + Σ_{i = 1}^{M} α_{i} e_{i}^{s}, t = \overset{&OverBar;}{T} + Σ_{i = 1}^{M} α_{i} e_{i}^{t}, - - - (8)

此处 S是平均形状， T是平均纹理，e_i ^s是形状的第i个特征向量，e_i ^t是纹理的特征向量。

优化参数包括α、β和γ。参数γ是6维姿态参数，三个用于平移，三个用于旋转。在每个迭代中，根据参数α和β，和γ，产生形状(s)和漫射纹理(t)。也可以对于将s投射到给定姿态γ的输入图像，来提取纹理通过使类似于等式7的误差函数最小化，来找出最优参数。

代替纹理向量使用只包含所提取的纹理中的可视点的估计纹理

使用下降单纯形法(downhill simplex method)解出下面的优化：

\arg \min_{α, β, γ} | | \tilde{t} \hat{B} {\hat{B}}^{T} \tilde{t} | |, - - - (9)

公知的下降单纯形法是无需确定斜率即可估计代价函数的非线性优化处理。

因为所述模型在优化过程中使用了自适应照度子空间，所以最终重构的形状和纹理不需要对于两种方法都是相同的。虽然通过这种优化结构估计的形状、纹理、姿态参数在重构时是重要的，但是主要关心的是照度基B_opt的最优特性。这些基利用以形状s(α_opt)和漫射纹理t(β_opt)来跨越人的照度子空间。

然而，合成的纹理不能捕获原始输入图像中的脸部的全部细节。为了脸部识别的目的，获得以实际纹理加权的照度基是重要的。

在后续的讨论中使用下面的符号：

t_s：合成的漫射纹理(已知)

合成的照度纹理(已知)

t_r：实际的漫射纹理(未知)

实际的照度纹理(已知)

定义Ab，作为向量b与A的所有列向量的基于元素的乘(除)。

在每一迭代中，照度基首先如下被确定：

B＝Rt_s， (10)

新的基通过用t_r替换t_s而获得，如：

假定所述估计照度近似于原始的照度，得到：

最终，把等式12代入等式11中得出：

用于脸部识别的照度基

图7示出了根据本发明的用于识别输入探测图像701中的脸部的方法700。将探测图像与形变模型712匹配710来构建探测图像701中的脸部的三维模型711，该三维模型具有形状和姿态参数。利用该三维模型，通过将三维形状s投射到对于给定的姿态γ的输入图像，从探测图像701中提取720纹理。三维形状和提取的纹理721被投射730到双线性照度模型(BIM)725中，来生成对于探测图像中脸部的以实际纹理加权的照度基731。将照度基731与已知脸部的双线性照度模型库735中的每一个模型的照度基相比，来识别与输入图像中脸部的匹配741。匹配741是与库中的具有如下照度基的双线性照度模型对应的已知脸部，该照度基具有与探测图像中的脸部的照度基731的最小距离。可选地，投射的三维形状也可以与库中的已知脸部的双线性照度模型中的每一个模型的重构形状相比，来识别探测图像中的脸部。

尽管共同向量空间中的照度基对于姿态恒定的脸部识别是有用的，但是它们有一个缺点。因为所有的提取的纹理都被登记在无形状的向量空间中，所以丢失了所有的用于匹配的形状信息。一般可接受的是纹理是重要的识别线索，但是在极限的光照条件下3D形状日益重要。

在大多数的脸部识别系统中，通常只使用眼睛的位置，将探测图像和库图像与据此转换的其它脸部区域对准。形状信息要么明显地要么隐含地被开发出。因此，与在无形状的3D空间中相比，具有在2D图像空间中的照度基更实际。

首先，通过对应的经重构的照度采样划分以3D形状登记的基，并且将其投射到进行了图像适配的图像平面。在图像平面中使用推挽式的内插来稠密地计算投射的图像数据，并且将其与原始图像相乘。对于每一个重构的基进行该处理。

发明的效果

提出了一种用于从单个图像中提取3D形状来构建照度子空间的新颖方法。为了处理人脸的复杂的反射率性质，开发了一种小型照度模型，其是在变化的光照条件下基于3D表面点和精确登记的照度采样的联合统计数据而导出的。实验的结果表明这个模型比相关的分析模型具有更好的重构和识别性能。此外，其具有良好的跨越姿态的外推(extrapolation)。利用Yale脸部数据库B，所述方法(至少)比得上现有技术，尽管用于从单个图像中获得照度恒定的脸部表示的计算要简单得多。最终，所述方法利用与恢复的3D形状一起登记的重构的照度基，实现了姿态恒定的识别。

应当理解，在本发明的实质与范围内可以进行各种其他的调整和修改。因此，所附权利要求的目的是覆盖落入本发明的实际的实质和范围内的所有的变型和修改。

Claims

1.一种用于识别图像中的脸部的方法，包括：

将具有形状和姿态参数的形变模型适配到图像中的脸部，以构建脸部的三维模型；

使用三维模型从图像中的脸部提取纹理；

将形状和纹理投射到双线性照度模型中，以生成对于图像中的脸部的照度基；并且

比较对于所述图像中的脸部的照度基和已知脸部的多个双线性照度模型中的每一个模型的照度基，来识别所述图像中的脸部。