CN103150546B

CN103150546B - 视频人脸识别方法和装置

Info

Publication number: CN103150546B
Application number: CN201210575126.2A
Authority: CN
Inventors: 冉阳
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-12-26
Filing date: 2012-12-26
Publication date: 2016-03-16
Anticipated expiration: 2032-12-26
Also published as: CN103150546A

Abstract

本发明涉及人脸识别，公开了一种视频人脸识别方法和装置，包括：检测视频的一帧图像中的人脸；判断在所述视频的当前帧所检测到的各个人脸是否与在所述视频的前一帧所检测到的任一人脸关联为同一人；如果在当前帧所检测到的一个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人，则基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，其中所述人脸轨迹持续帧数表示这个人的人脸连续出现的帧数；以及基于修正后的似然向量对所检测到的人脸进行识别。由于直接基于前后帧的人脸图像块之间的关联性来修正人脸与数据库中的模板人脸之间的似然，根据本发明实施例的视频人脸识别方法和装置能够在大量降低计算结果的复杂度的同时大幅提高识别的准确率。

Description

视频人脸识别方法和装置

技术领域

本发明涉及人脸识别，尤其涉及视频人脸识别方法和装置。

背景技术

人脸识别经过近40年的发展，取得了很大的成就，涌现出大量的识别算法。这些算法的涉及面非常广泛，包括模式识别、图像处理、计算机视觉、人工智能、统计学习、神经网络、小波分析、子空间理论和流形学习等。根据输入数据形式的不同，可分为基于静态图像的人脸识别(以下称为“静态图像人脸识别”)和基于视频的人脸识别(以下称为“视频人脸识别”)。

一般认为，视频人脸识别是静态图像人脸识别的直接扩展，也即适用于静态图像人脸识别的算法同样适用于视频人脸识别。然而，由于视频的时间连续性以及由此产生的人脸信息的不确定性，除了空间信息之外，视频人脸识别还需要用到时间信息。目前典型的视频人脸识别系统一般都自动检测人脸区域，从视频中提取特征以分割出人脸，并然后用基于静态图像的识别方法进行人脸识别。

与静态图像相比，视频存在人脸图像的尺寸较小、经常会有较大的光照和姿态变化、甚至还可能会有遮挡和伪装等的特性。这些不但会影响识别算法的性能，而且还会影响人脸检测、人脸分割和关键点定位的精度，从而导致整体识别性能下降。

已知用于提高视频人脸识别的整体识别性能的一种方法是加入人脸跟踪，即如图1所示：通过利用姿态和从视频中估计到的深度信息合成一个虚拟的正面人脸，以和数据库中的模板人脸进行比对。其中，人脸跟踪的加入方式大致有两种，其一为跟踪后识别，另一为跟踪且识别。

在跟踪后识别的方式中，首先检测出人脸，然后跟踪人脸特征随时间的变化，并当捕捉到一帧符合一定标准(大小、姿势)的图像时，利用基于静态图像的人脸识别算法进行识别。换言之，跟踪和识别是单独进行的，时间信息只在跟踪阶段用到，识别还是采用基于静态图像的方法而没用到时间信息。这种方法的缺点是运算复杂度高，精确度低。特别是当人脸的姿态不是标准的正面照的时候，错误率非常高。

另一方面，在跟踪且识别的方式中，人脸跟踪和识别是同时进行的，时间信息在跟踪阶段和识别阶段都用到。目前普遍的做法是,首先利用视频中充裕的每一帧图像单独识别,然后计算一定时间窗口内次数最多的结果作为最后输出结果。换言之,基于每帧图像的识别结果，使用简单的”投票”机制来确定识别结果。其中，投票方法可以是确定的，但一般优选使用概率投票方法。这种方法的缺点是计算结果复杂度依然很高。

发明内容

有鉴于此，本发明的目的在于提供一种视频人脸识别方法和装置，以能够在大量降低计算结果的复杂度的同时大幅提高识别的准确率。

为了实现上述目的，根据本发明的实施例，提供了一种视频人脸识别方法，其包括：检测视频的一帧图像中的人脸；判断在所述视频的当前帧所检测到的各个人脸是否与在所述视频的前一帧所检测到的任一人脸关联为同一人；如果在当前帧所检测到的一个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人，则基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，其中所述人脸轨迹持续帧数表示这个人的人脸连续出现的帧数；以及基于修正后的似然向量对所检测到的人脸进行识别。

为了实现上述目的，根据本发明的实施例，还提供了一种视频人脸识别装置，其包括：人脸检测单元，用于检测视频的一帧图像中的人脸；关联性判断单元，与所述人脸检测单元连接，用于判断在所述视频的当前帧检测到的各个人脸是否与在所述视频的前一帧所检测到的任一人脸关联为同一人；似然修正单元，与所述人脸检测单元以及所述关联性判断单元连接，用于如果在当前帧所检测到的一个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人，则基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，其中所述人脸轨迹持续帧数表示这个人的人脸连续出现的帧数；以及人脸识别单元，与所述人脸检测单元以及所述似然修正单元连接，用于基于通过所述似然修正单元修正后的似然向量对通过所述人脸检测单元检测到的人脸进行识别。

由于直接基于前后帧的人脸图像块之间的关联性来修正人脸与数据库中的模板人脸之间的似然，根据本发明实施例的视频人脸识别方法和装置有效利用了视频中的时空信息，突破了传统的基于投票的多帧单独识别的局限，能够在大量降低计算结果的复杂度的同时大幅提高识别的准确率。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面，并且用于解释本发明的原理。

图1示出加入了人脸跟踪的视频人脸识别方法的流程示意图；

图2示出传统的人脸检测所使用的Haar滤波器；

图3示出传统的人脸检测所使用的分类器级联结构；

图4示出人脸检测所优选使用的前两个Haar特征；

图5示出根据本发明第一实施例的视频人脸视频方法的流程图；

图6示出根据本发明第一实施例的视频人脸识别方法的示意图；

图7示出根据本发明第二实施例的视频人脸识别方法的流程图；

图8示出根据本发明第二实施例的视频人脸识别方法的示意图；

图9示出根据本发明第三实施例的视频人脸识别方法的流程图；

图10示出根据本发明第四实施例的视频人脸识别装置的框图；

图11示出根据本发明第五实施例的视频人脸识别装置的框图；

图12示出根据本发明第六实施例的视频人脸识别装置的框图。

具体实施方式

在目前的人脸检测中，通常首先采用Haar特征[1]来描述人脸，其中用以提取Haar特征的Haar滤波器如图2所示。此外，为了快速检测人脸，采用了一种如图3所示的级联结构。该结构中的每个节点都是一个AdaBoost强分类器，只有当一个候选图像窗口通过了所有节点AdaBoost分类器才判定为人脸，只要有一个节点判定为非人脸，该图像窗口即分类为非人脸，其后的节点分类器亦不用计算，从而节约了计算资源，加快了计算速度。

然而，即便通过AdaBoost机器学习方法学习到有效的人脸Haar特征(选择出的前两个Haar特征如图4所示)，并将所学习到的Haar特征组织成一个强分类器以区分人脸和非人脸，上述人脸检测方法应用于视频人脸识别仍然非常耗时，而且误报率高。本发明人认为这主要是因为没有很好地利用视频内充足的时空上下文(SpatialTemporalContext)信息。

换言之，本发明人注意到人类的视觉系统擅长联合利用诸如时间连续性和空间连续性等多种信息来识别人的身份，并认为如果在机器视频人脸识别中仿人类视觉地同时采用(例如在每帧中的)空间信息和(比如人脸特征的运动轨迹等的)时间信息，也即联合利用与时间、空间和物体(object)有关的多模态信息来描述人脸并进行人脸识别，应该能有效提高识别效果。

有鉴于此，针对大规模视频人脸识别的需要，本发明人从时空域信息融合的角度出发，提出了基于时空上下文信息的视频人脸识别方法，以下详细说明本发明的具体实施方式。

第一实施例

在根据本发明第一实施例的视频人脸识别方法中，首先，基于在当前帧所检测到的人脸与在前一帧所检测到的人脸之间在尺度、空间距离等方面的关系，判断在前后两帧所检测到的人脸之间的关联性；然后，对于前后两帧中被判断为相互关联的人脸，基于该人脸连续出现的帧数来修正该人脸与数据库中的模板人脸之间的似然向量。

具言之，如示出了根据本发明第一实施例的视频人脸识别方法的流程图的图5所示，根据本发明第一实施例的视频人脸识别方法包括：

步骤S1，检测视频的一帧图像中的人脸，并随后进入步骤S2；

步骤S2，判断在当前帧所检测到的某个人脸是否与在前一帧所检测到的任一人脸关联为同一人，如果判断为是，则在执行后述步骤S3、S4后再进入步骤后述S5，如果判断为否，则直接进入步骤S5；

步骤S3，在当前帧所检测到的某个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人的情况下，基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，并随后进入步骤S4，其中，所述人脸轨迹持续帧数表示这个人的人脸连续出现的帧数；

步骤S4，基于修正后的似然向量对所检测到的人脸进行识别，并随后进入步骤S5；以及

步骤S5，判断在当前帧所检测到的所有人脸是否均已进行了关联性判断处理，如果判断为是，则返回步骤S1以检测视频的下一帧图像中的人脸，如果判断为否，则返回步骤S2以判断在当前帧所检测到的下一个人脸是否与在前一帧所检测到的任一人脸关联为同一人。

对于上述步骤S2，在一种可能的实现方式中，如图6所示，假设在第t-1帧检测到的第n个人脸F_t-1,n的中心点为(x_t-1,n,y_t-1,n)、大小为(w_t-1,n,h_t-1,n),在第t帧检测到的第m个人脸F_t,m的中心点为(x_t,m,y_t,m)、大小为(w_t,m,h_t,m)，并且人脸F_t-1,n与人脸F_t,m的图像块距离为H，则：

如下式1计算人脸F_t-1,n与人脸F_t,m的尺度比R,

R = \frac{| w_{t, m} - w_{t - 1, n} |}{\min (w_{t, m}, w_{t - 1, n})}

式1

如下式2计算人脸F_t-1,n与人脸F_t,m的尺度似然ρ_s，

ρ_s＝exp(λ_s·R)式2

如下式3计算人脸F_t-1,n与人脸F_t,m的空间距离D，

D = \sqrt{{(x_{t, m} - x_{t - 1, n})}^{2} + {(y_{t, m} - y_{t - 1, n})}^{2}}

式3

如下式4计算人脸F_t-1,n与人脸F_t,m的空间距离似然ρ_d,

ρ_d＝exp(λ_d·D)式4

如下式5计算人脸F_t-1,n与人脸F_t,m的图像块距离似然ρ_h,

ρ_h＝exp(λ_l·H)式5

如下式6计算人脸F_t-1,n与人脸F_t,m关联为同一人的似然ρ，

ρ＝ρ_s·ρ_d·ρ_h式6

λ_s表示似然度归一化权重因子，可设定为0.5；λ_d表示距离归一化权重因子，可设定为2.0；λ_l表示块距离似然权重因子，可设定为1.0。

在一种可能的实现方式中，在ρ大于0.5的情况下，认定人脸F_t-1,n与人脸F_t,m关联为同一人。

对于上述步骤S3，在一种可能的实现方式中，如果这个人的人脸轨迹持续了Q帧，并且人脸F_t-1,n、人脸F_t,m与数据库中的模板人脸的似然向量分别为k₁和k₂的情况下，则这个人的人脸与数据库中的模板人脸的似然向量可修正为如下式7，并可基于此修正后的似然向量对人脸进行识别：

\frac{Q}{Q + 1} k_{1} + \frac{1}{Q + 1} k_{2}

式7

通过上述介绍可知，由于直接基于前后帧的人脸图像块之间的关联性来修正人脸与数据库中的模板人脸之间的似然，根据本发明第一实施例的视频人脸识别方法有效利用了视频中的时空信息，突破了传统的基于投票的多帧单独识别的局限，能够在大量降低计算结果的复杂度的同时大幅提高识别的准确率。

第二实施例

根据本发明第二实施例，在上述第一实施例的基础上，还进一步维护一个所检测到的人脸的候选集(candidateset)C，以能够处理人脸检测中出现的例如误检等的错误。

具言之，如示出根据本发明第二实施例的视频人脸识别方法的流程图的图7所示，根据本发明第二实施例的视频人脸识别方法包括：

步骤S1，检测视频的一帧图像中的人脸，并随后进入步骤S11；

步骤S11，基于在当前帧所检测到的人脸生成当前帧的候选集，候选集中的各个人脸对应的人脸轨迹持续帧数被设置为初始值1，并随后进入步骤S2；

步骤S2，判断在当前帧所检测到的某个人脸是否与在前一帧所检测到的任一人脸关联为同一人，如果判断为是，则在执行后述步骤S21、S3、S4后再进入步骤后述S5，如果判断为否，则直接进入步骤S5；

步骤S21,在当前帧所检测到的某个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人的情况下，将候选集中的这个人脸的人脸轨迹持续帧数改写为等于1加上相关联的另一个人脸在前一帧的候选集中的人脸轨迹持续帧数，并随后进入步骤S3；

步骤S3，基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，并随后进入步骤S4，其中，所述人脸轨迹持续帧数表示这个人的人脸连续出现的帧数；

步骤S5，判断在当前帧所检测到的所有人脸是否均已进行了关联性判断处理，如果判断为是，则返回步骤S1以检测视频的下一帧图像中的人脸，如果判断为否，则返回步骤S2以判断在当前帧所检测到的下一个人脸是否与在前一帧所检测到的任一人脸关联为同一人。，

通过将图7与图5进行比较明显可见，根据本发明第二实施例的视频人脸识别方法与根据本发明第一实施例的相比，主要区别在于还包括候选集维护步骤S11和S21，以基于步骤S1中检测到的人脸以及步骤S2中的关联性判断结果维护针对当前帧的一个候选集。其中，所述候选集用于记录在当前帧所检测到的各个人脸以及所述各个人脸对应的人脸轨迹持续帧数，以能够处理人脸检测中出现的例如误检等的错误。优选地，所述候选集还可记录当前帧所检测到的各个人脸与前面帧所检测到的人脸关联为同一人的似然度。此外，所述候选集还可记录当前帧所检测到的各个人脸与数据库中的模板人脸之间、基于对应的人脸轨迹持续帧数修正后的似然向量，和/或记录针对当前帧所检测到的各个人脸基于修正后的似然向量的识别结果。

例如，如图8所示，假设在第t-1帧检测到了N个人脸F_t-1{F_t-1,1,F_t-1,2,…F_t-1,N}，针对第t-1帧的候选集为C_t-1{F_t-1,1(C1),F_t-1,2(C2),…F_t-1,n(CN)}，其中C1、C2、…CN分别表示人脸F_t-1,1,F_t-1,2,…F_t-1,N的人脸轨迹持续帧数。例如，假设在第t-1帧检测到的第n个人脸F_t-1,n与在第t-2帧检测到的第j个人脸F_t-2,j关联为同一人，并且这个人的人脸连续出现了R帧、即这个人的人脸轨迹持续帧数为R，则人脸F_t-1,n在候选集C_t-1中的记录为F_t-1,n(R)。另一方面，如果在第t-1帧检测到的第i个人脸F_t-1,i不与在第t-2帧检测到的任一人脸关联、即人脸F_t-1,i的轨迹仅持续了1帧，则人脸F_t-1,i在候选集C_t-1中的记录为F_t-1,i(1)。

这样，候选集C_t-1{F_t-1,1(C1),F_t-1,2(C2),…F_t-1,n(CN)}不仅记录了人脸轨迹持续的帧数，而且还能够反映在下一帧有可能被关联上的人脸集合。

在新的一帧、即第t帧到来时，在针对第t帧完成了人脸检测之后，假设在第t帧检测到了M个人脸F_t{F_t,1,F_t,2,…F_t,M}，则候选集维护步骤可具体为：

首先在步骤S11中，基于F_t{F_t,1,F_t,2,…F_t,M}生成候选集C_t{F_t,1(1),F_t,2(1),…F_t,M(1)}，其中候选集C_t中的F_t,i(1)表示在第t帧所检测到的第i个人脸F_t,i并且人脸F_t,i的人脸轨迹持续帧数为1。

然后在步骤S21中，基于针对F_t{F_t,1,F_t,2,…F_t,M}进行所述关联性判断步骤的判断结果，在第t帧所检测到的第i个人脸F_t,i被判断为与在前一帧、即第t-1帧所检测到的第j个人脸F_t-1,j关联为同一人的情况下，将候选集C_t中的人脸F_t,i的人脸轨迹持续帧数改写为等于1加上人脸F_t-1,j在针对第t-1帧的候选集C_t-1中的人脸轨迹持续帧数。

以此类推，针对每一帧均维护一个候选集C。

第三实施例

在上述第一或第二实施例的基础上，在一种可能的实现方式中，只有当人脸轨迹持续了b帧以上，才将该人脸作为真正的人脸显示出来并进行识别。其中，b为大于或等于2的整数，以减少人脸检测中可能出现的误检对识别结果的影响。

另一方面，考虑到计算结果的复杂度，可将b设置为小于5。例如，如示出根据本发明再一实施例的视频人脸识别方法的流程图的图9所示，仅在人脸轨迹持续帧数为3以上时(步骤S22判断为是)，才针对与该人脸轨迹持续帧数对应的人脸执行步骤S3、S4。

第四实施例

图10示出了根据本发明第四实施例的视频人脸识别装置的框图。如图10所示，视频人脸识别装置100包括人脸检测单元110、关联性判断单元120、似然修正单元130以及人脸识别单元140。

人脸检测单元110与关联性判断单元120、似然修正单元130以及人脸识别单元140连接，用于检测视频的一帧图像中的人脸。

关联性判断单元120与人脸检测单元110以及似然修正单元130连接，用于判断在视频的当前帧检测到的各个人脸是否与在视频的前一帧所检测到的任一人脸关联为同一人。

似然修正单元130与人脸检测单元110、关联性判断单元120以及人脸识别单元140连接，用于如果在当前帧所检测到的一个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人，则基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，其中人脸轨迹持续帧数表示这个人的人脸连续出现的帧数。

在一种可能的实现方式中，假设在第t-1帧检测到的第n个人脸F_t-1,n与在第t帧检测到的第m个人脸F_t,m关联为同一人，这个人的人脸轨迹持续了Q帧，并且人脸F_t-1,n、人脸F_t,m与数据库中的模板人脸之间的似然向量分别为k₁和k₂，则所述似然修正单元将这个人的人脸与数据库中的模板人脸之间的似然向量修正为如下式7：

\frac{Q}{Q + 1} k_{1} + \frac{1}{Q + 1} k_{2}

式7

人脸识别单元140与人脸检测单元110以及似然修正单元130连接，用于基于通过似然修正单元130修正后的似然向量对通过人脸检测单元110检测到的人脸进行识别。

由于关联性判断单元120直接根据前后帧图像中的人脸图像块之间的空间关系所确定的关联性并且似然修正单元130基于该关联性来修正人脸与数据库中的模板人脸之间的似然，根据本发明第四实施例的视频人脸识别装置有效利用了视频中的时空信息，突破了传统的基于投票的多帧单独识别的局限，能够在大量降低计算结果的复杂度的同时大幅提高识别的准确率。

在一种可能的实现方式中，仅在人脸轨迹持续帧数为b以上时，似然修正单元130和人脸识别单元140才针对与该人脸轨迹持续帧数对应的人脸进行处理，其中b可为大于或等于2的整数，以尽量降低人脸检测中可能出现的例如误检等的错误对识别率的影响。另一方面，考虑到计算结果的复杂度，可将b设置为小于5,例如b＝3。

第五实施例

图11示出了根据本发明第五实施例的视频人脸识别装置的框图。如图11所示，根据本发明第五实施例的视频人脸识别装置200与第四实施例相比的区别主要在于，关联性判断单元120可包括尺度比计算模块121、尺度似然计算模块122、空间距离计算模块123、空间距离似然计算模块124、图像块距离似然计算模块125、关联似然计算模块126以及判定模块127。

假设在第t-1帧检测到的第n个人脸F_t-1,n的中心点为(x_t-1,n,y_t-1,n)、大小为(w_t-1,n,h_t-1,n),在第t帧检测到的第m个人脸F_t,m的中心点为(x_t,m,y_t,m)、大小为(w_t,m,h_t,m)，以及人脸F_t-1,n与人脸F_t,m的图像块距离为H，则：

尺度比计算模块121如下式1计算人脸F_t-1,n与人脸F_t,m的尺度比R,

R = \frac{| w_{t, m} - w_{t - 1, n} |}{m i n (w_{t, m}, w_{t - 1, n})}

式1

尺度似然计算模块122如下式2计算人脸F_t-1,n与人脸F_t,m的尺度似然ρ_s，

ρ_s＝exp(λ_s·R)式2

空间距离计算模块123如下式3计算人脸F_t-1,n与人脸F_t,m的空间距离D，

D = \sqrt{{(x_{t, m} - x_{t - 1, n})}^{2} + {(y_{t, m} - y_{t - 1, n})}^{2}}

式3

空间距离似然计算模块124如下式4计算人脸F_t-1,n与人脸F_t,m的空间距离似然ρ_d,

ρ_d＝exp(λ_d·D)式4

图像块距离似然计算模块125如下式5计算人脸F_t-1,n与人脸F_t,m的图像块距离似然ρ_h,

ρ_h＝exp(λ_l·H)式5

关联似然计算模块126如下式6计算人脸F_t-1,n与人脸F_t,m关联为同一人的似然ρ，

ρ＝ρ_s·ρ_d·ρ_h式6

其中，λ_s表示似然度归一化权重因子，可设定为0.5；λ_d表示距离归一化权重因子，可设定为2.0；λ_l表示块距离似然权重因子，可设定为1.0。

在一种可能的实现方式中，判定模块127在ρ大于等于0.5的情况下，判定人脸F_t-1,n与人脸F_t,m关联为同一人。

第六实施例

图12示出了根据本发明第六实施例的视频人脸识别装置的框图。如图12所示，根据本发明第六实施例的视频人脸识别装置与第四实施例相比的区别主要在于还包括候选集维护单元150，候选集维护单元150用于基于人脸检测单元110所检测到的人脸以及关联性判断单元120的判断结果维护针对当前帧的一个候选集。其中，所述候选集用于记录在当前帧所检测到的各个人脸以及所述各个人脸对应的人脸轨迹持续帧数。优选地，所述候选集还可记录当前帧所检测到的各个人脸与前面帧所检测到的人脸关联为同一人的似然度。此外，所述候选集还可记录当前帧所检测到的各个人脸与数据库中的模板人脸之间、基于对应的人脸轨迹持续帧数修正后的似然向量，和/或记录针对当前帧所检测到的各个人脸基于修正后的似然向量的识别结果。

在一种可能的实现方式中，候选集维护单元150如图12所示包括初始生成模块151和维护更新模块152。其中，初始生成模块151与人脸检测单元110以及维护更新模块152连接，用于在当前帧、假设第t帧检测到了M个人脸F_t{F_t,1,F_t,2,…F_t,M}的情况下，基于F_t{F_t,1,F_t,2,…F_t,M}生成针对第t帧的候选集C_t{F_t,1(1),F_t,2(1),…F_t,M(1)}，其中F_t,i(1)表示在第t帧所检测到的第i个人脸F_t,i并且人脸F_t,i的人脸轨迹持续帧数为1。维护更新模块152与初始生成模块151以及关联性判断单元120连接，用于在第t帧所检测到的第i个人脸F_t,i被判断为与在前一帧、即第t-1帧所检测到的第j个人脸F_t-1,j关联为同一人的情况下，将候选集C_t中的人脸F_t,i的人脸轨迹持续帧数改写为等于1加上人脸F_t-1,j在针对第t-1帧的候选集C_t-1中的人脸轨迹持续帧数。

第七实施例

人脸检测可能会出现漏检，为此需要人脸跟踪来定位待检的目标。然而，传统上基于帧图像的所有像素进行人脸跟踪，存在计算速度慢的问题，特别在分辨率高或者人脸数目多的场景下，根本无法达到实时跟踪。对此，本发明人在上述第一、第二或第三实施例的基础上，进一步提出了采用压缩感知(CompressedSensing)的方法来进行人脸跟踪，以准确、快速地定位待检目标，从而大量降低计算复杂度。其中，所谓的压缩感知包括：将前一帧已检测到的人脸区域作为当前帧中待检测的人脸区域(以下称为目标候选区域)的初始值，并利用粒子滤波算法搜索当前帧中重构误差最小的区域作为目标候选区域，以准确定位待检目标；以及，对于目标候选区域，采用引入了平凡模板(trivialtemplate)的线性子空间方法来表示，以大量降低计算复杂度。

具体而言，对于目标候选区域y，可如下式8所示采用线性子空间方法来表示:

y≈Ta＝a₁t₁+a₂t₂+…+a_nt_n式8

其中，T表示目标子空间的基，a表示子空间展开系数、即坐标。

考虑到图像中的噪声，在上述线性子空间表示中，可如下式9所示引入平凡模板I:

\begin{matrix} y = [\begin{matrix} T, & I, & - I \end{matrix}] [\begin{matrix} a \\ e^{+} \\ e^{-} \end{matrix}] \hat{=} B c, & s . t . & c &GreaterEqual; 0 \end{matrix}

式9

其中，e表示正向/负向平凡因子系数，B和c均为非负系数矢量。考虑到系数c的稀疏性，人脸跟踪的目标函数就是去求解Bc和y之间的最小差，可写成如下式10所示：

m i n | | B c - y | |_{2}^{2} + λ | | c | |_{1}

式10

其中，λ表示一个非负的权重因子。并且，由上式10的最优解可得到目标候选区域的重构误差如下式11所示：

ϵ (y) = | | y - T a | |_{2}^{2}

式11

在当前帧搜索重构误差最小的区域，以得到目标候选区域的位置。为此，提出了基于粒子滤波算法来进行搜索。

在粒子滤波中，x_t表示目标的状态，如目标的空间位置；y_t表示目标的观测；y_1:t表示直到t时刻的所有观测。跟踪的任务就是基于观测来预测目标的状态。换言之，粒子滤波主要包含如下式12所示的预测过程和如下式13所示的更新过程：

p(x_t|y_1：t-1)＝∫p(x_t|x_t-1)p(x_t-1|y_1：t-1)dx_t-1式12

p (x_{t} | y_{1 : t}) = \frac{p (y_{t} | x_{t}) p (x_{t} | y_{1 : t - 1})}{p (y_{t} | y_{1 : t - 1})}

式13

其中，粒子滤波中的后验概率p(x_t|y_1：t)由加权的粒子表示，粒子的权重可表示为下式14：

w_{t}^{i} = w_{t - 1}^{i} \frac{p (y_{t} | x_{t}^{i}) p (x_{t}^{i} | x_{t - 1}^{i})}{q (x_{t} | x_{1 : t - 1}, y_{1 : t})}

式14

若重要性采样概率密度函数q(x_t|x_1：t-1，y_1：t)＝p(x_t|x_t-1)，则粒子的权重可表示为下式15：

w_{t}^{i} &Proportional; p (y_{t} | x_{t}^{i})

式15

并且，粒子的似然函数可如下式16所示表示为目标候选区域的重构误差的指数函数：

p(y_t|x_t)∝exp(-γε(y_t))式16

通过在人脸跟踪阶段结合粒子滤波和稀疏表达来准确定位待检目标，由于采用系数矩阵，目标的分解坐标大部分为0，只有很小一部分为非0。因此，根据本发明第七实施例的视频人脸识别方法能够大规模的降低计算复杂度，由此使得即使对于数据海量的多媒体数据库也能够快速实现对视频中人脸信息的检索。

发明试验结果

人脸识别性能的最重要衡量标准是在一定规模数据库上的识别率：高准确率/低错误率。在世界首个大规模的人脸数据库(NRC-IITFacialVideoDatabase[2])上，根据本发明第七实施例所提供的视频人脸识别方法的(识别率均值和方差)为0.8031±0.0053，这远远超过其他三种主流识别算法。

需要声明的是，上述发明内容及具体实施方式仅旨在证明本发明所提供技术方案的实际应用，不应解释为对本发明保护范围的限定。本领域技术人员在本发明的精神和原理内，当可作各种修改、等同替换或改进。本发明的保护范围以所附权利要求书为准。

参考文献列表

[1]PaulViola,MichaelJones,“RobustReal-TimeFaceDetection”,IJCV2004.

[2]Invitedcontribution:DmitryO.Gorodnichy,“Facedatabaseandevaluation”chapterinEncyclopediaofBiometrics(Editor:StanLi),Plannedforpublicationin2009,ElsevierPublisher.

[3]M.A.Turk,A.P.Pentland,“FacerecognitionusingEigenfaces”,IEEEConferenceonComputerVisionandPatternRecognition(CVPR),pp586-591,1991.

[4]L.Wolf,T.Hassner,andY.Taigman,“DescriptorBasedMethodsintheWild”,FacesinReal-LifeImagesWorkshopConferenceonComputerVision(ECCV)2008.

[5]ConradSandersonandBrianC.Lovell,“Multi-RegionProbabilisticHistogramsforRobustandScalableIdentityInference”,InternationalConferenceonBiometrics(ICB),2009.

Claims

1.一种视频人脸识别方法，其特征在于，包括：

人脸检测步骤，检测视频的一帧图像中的人脸；

关联性判断步骤，判断在所述视频的当前帧所检测到的各个人脸是否与在所述视频的前一帧所检测到的任一人脸关联为同一人；

似然修正步骤，如果在当前帧所检测到的一个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人，则基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，其中所述人脸轨迹持续帧数表示这个人的人脸连续出现的帧数；以及

人脸识别步骤，基于修正后的似然向量对所检测到的人脸进行识别，

其中，假设在第t-1帧检测到的第n个人脸F_t-1,n的中心点为(x_t-1,n,y_t-1,n)、大小为(w_t-1,n,h_t-1,n),在第t帧检测到的第m个人脸F_t,m的中心点为(x_t,m,y_t,m)、大小为(w_t,m,h_t,m)，并且人脸F_t-1,n与人脸F_t,m的图像块距离为H，则在所述关联性判断步骤中：

如下式1计算人脸F_t-1,n与人脸F_t,m的尺度比R,

R = \frac{| w_{t, m} - w_{t - 1, n} |}{\min (w_{t, m}, w_{t - 1, n})}

式1

如下式2计算人脸F_t-1,n与人脸F_t,m的尺度似然ρ_s，

ρ_s＝exp(λ_s·R)式2

如下式3计算人脸F_t-1,n与人脸F_t,m的空间距离D，

D = \sqrt{{(x_{t, m} - x_{t - 1, n})}^{2} + {(y_{t, m} - y_{t - 1, n})}^{2}}

式3

如下式4计算人脸F_t-1,n与人脸F_t,m的空间距离似然ρ_d,

ρ_d＝exp(λ_d·D)式4

如下式5计算人脸F_t-1,n与人脸F_t,m的图像块距离似然ρ_h,

ρ_h＝exp(λ_l·H)式5

如下式6计算人脸F_t-1,n与人脸F_t,m关联为同一人的似然ρ，

ρ＝ρ_s·ρ_d·ρ_h式6

其中，λ_s表示似然度归一化权重因子，λ_d表示距离归一化权重因子，λ_l表示块距离似然权重因子；

并且，在ρ大于等于0.5的情况下，判定人脸F_t-1,n与人脸F_t,m关联为同一人。

2.根据权利要求1所述的视频人脸识别方法，其特征在于，假设在第t-1帧检测到的第n个人脸F_t-1,n与在第t帧检测到的第m个人脸F_t,m关联为同一人，这个人的人脸轨迹持续帧数为Q，并且人脸F_t-1,n、人脸F_t,m与数据库中的模板人脸之间的似然向量分别为k₁和k₂，则在所述似然修正步骤中，将这个人的人脸与数据库中的模板人脸之间的似然向量修正为下式7：

\frac{Q}{Q + 1} k_{1} + \frac{1}{Q + 1} k_{2}

式7。

3.根据权利要求1或2所述的视频人脸识别方法，其特征在于，还包括候选集维护步骤，以基于所述人脸检测步骤所检测到的人脸以及所述关联性判断步骤中的判断结果维护针对当前帧的一个候选集，其中，所述候选集用于记录在当前帧所检测到的各个人脸以及所述各个人脸对应的人脸轨迹持续帧数。

4.根据权利要求3所述的视频人脸识别方法，其特征在于，所述候选集维护步骤包括：

初始生成步骤，在当前帧、假设第t帧检测到了M个人脸F_t{F_t,1,F_t,2,…F_t,M}的情况下，基于F_t{F_t,1,F_t,2,…F_t,M}生成针对第t帧的候选集C_t{F_t,1(1),F_t,2(1),…F_t,M(1)}，其中F_t,i(1)表示在第t帧所检测到的第i个人脸F_t,i并且人脸F_t,i的人脸轨迹持续帧数为1；以及

维护更新步骤，在第t帧所检测到的第i个人脸F_t,i被判断为与在前一帧、即第t-1帧所检测到的第j个人脸F_t-1,j关联为同一人的情况下，将候选集C_t中的人脸F_t,i的人脸轨迹持续帧数改写为等于1加上人脸F_t-1,j在针对第t-1帧的候选集C_t-1中的人脸轨迹持续帧数。

5.根据权利要求1或2所述的视频人脸识别方法，其特征在于，仅在所述人脸轨迹持续帧数为b以上时，才针对与该人脸轨迹持续帧数对应的人脸进行所述似然修正步骤和所述人脸识别步骤，其中所述b为大于或等于2的整数。

6.根据权利要求1或2所述的视频人脸识别方法，其特征在于，在所述人脸检测步骤之前，还包括人脸跟踪步骤，

在所述人脸跟踪步骤中，将前一帧所检测到的人脸区域作为目标候选区域的初始值，并利用粒子滤波算法搜索当前帧中重构误差最小的区域作为所述目标候选区域，其中所述目标候选区域表示当前帧中待检测的人脸区域。

7.根据权利要求6所述的视频人脸识别方法，其特征在于，在所述人脸跟踪步骤中，采用加入了平凡模板的线性子空间来表示所述目标候选区域。

8.一种视频人脸识别装置，其特征在于，包括：

人脸检测单元，用于检测视频的一帧图像中的人脸；

关联性判断单元，与所述人脸检测单元连接，用于判断在所述视频的当前帧检测到的各个人脸是否与在所述视频的前一帧所检测到的任一人脸关联为同一人；

似然修正单元，与所述人脸检测单元以及所述关联性判断单元连接，用于如果在当前帧所检测到的一个人脸被判断为与在前一帧所检测到的另一个人脸关联为同一人，则基于这个人的人脸轨迹持续帧数来修正这个人的人脸与数据库中的模板人脸之间的似然向量，其中所述人脸轨迹持续帧数表示这个人的人脸连续出现的帧数；以及

人脸识别单元，与所述人脸检测单元以及所述似然修正单元连接，用于基于通过所述似然修正单元修正后的似然向量对通过所述人脸检测单元检测到的人脸进行识别，

其中，所述关联性判断单元包括尺度比计算模块、尺度似然计算模块、空间距离计算模块、空间距离似然计算模块、图像块距离似然计算模块、关联似然计算模块、判定模块；并且，假设在第t-1帧检测到的第n个人脸F_t-1,n的中心点为(x_t-1,n,y_t-1,n)、大小为(w_t-1,n,h_t-1,n),在第t帧检测到的第m个人脸F_t,m的中心点为(x_t,m,y_t,m)、大小为(w_t,m,h_t,m)，以及人脸F_t-1,n与人脸F_t,m的图像块距离为H，则：

所述尺度比计算模块如下式1计算人脸F_t-1,n与人脸F_t,m的尺度比R,

R = \frac{| w_{t, m} - w_{t - 1, n} |}{\min (w_{t, m}, w_{t - 1, n})}

式1

所述尺度似然计算模块如下式2计算人脸F_t-1,n与人脸F_t,m的尺度似然ρ_s，

ρ_s＝exp(λ_s·R)式2

所述空间距离计算模块如下式3计算人脸F_t-1,n与人脸F_t,m的空间距离D，

D = \sqrt{{(x_{t, m} - x_{t - 1, n})}^{2} + {(y_{t, m} - y_{t - 1, n})}^{2}}

式3

所述空间距离似然计算模块如下式4计算人脸F_t-1,n与人脸F_t,m的空间距离似然ρ_d,

ρ_d＝exp(λ_d·D)式4

所述图像块距离似然计算模块如下式5计算人脸F_t-1,n与人脸F_t,m的图像块距离似然ρ_h,

ρ_h＝exp(λ_l·H)式5

所述关联似然计算模块如下式6计算人脸F_t-1,n与人脸F_t,m关联为同一人的似然ρ，

ρ＝ρ_s·ρ_d·ρ_h式6

并且,所述判定模块在ρ大于等于0.5的情况下，判定人脸F_t-1,n与人脸F_t,m关联为同一人。

9.根据权利要求8所述的视频人脸识别装置，其特征在于，假设在第t-1帧检测到的第n个人脸F_t-1,n与在第t帧检测到的第m个人脸F_t,m关联为同一人，这个人的人脸轨迹持续了Q帧，并且人脸F_t-1,n、人脸F_t,m与数据库中的模板人脸之间的似然向量分别为k₁和k₂，则所述似然修正单元将这个人的人脸与数据库中的模板人脸之间的似然向量修正为如下式7：

\frac{Q}{Q + 1} k_{1} + \frac{1}{Q + 1} k_{2}

式7。

10.根据权利要求8或9所述的视频人脸识别装置，其特征在于，还包括与所述人脸检测单元以及所述关联性判断单元连接的候选集维护单元，用于基于所述人脸检测单元所检测到的人脸以及所述关联性判断单元的判断结果维护针对当前帧的一个候选集，其中，所述候选集用于记录在当前帧所检测到的各个人脸以及所述各个人脸对应的人脸轨迹持续帧数。

11.根据权利要求10所述的视频人脸识别装置，其特征在于，所述候选集维护单元：

初始生成模块，与所述人脸检测单元连接，在当前帧、假设第t帧检测到了M个人脸F_t{F_t,1,F_t,2,…F_t,M}的情况下，基于F_t{F_t,1,F_t,2,…F_t,M}生成针对第t帧的候选集C_t{F_t,1(1),F_t,2(1),…F_t,M(1)}，其中F_t,i(1)表示在第t帧所检测到的第i个人脸F_t,i并且人脸F_t,i的人脸轨迹持续帧数为1；以及

维护更新模块，与所述初始生成模块以及所述关联性判断单元连接，在第t帧所检测到的第i个人脸F_t,i被判断为与在前一帧、即第t-1帧所检测到的第j个人脸F_t-1,j关联为同一人的情况下，将候选集C_t中的人脸F_t,i的人脸轨迹持续帧数改写为等于1加上人脸F_t-1,j在针对第t-1帧的候选集C_t-1中的人脸轨迹持续帧数。

12.根据权利要求8或9所述的视频人脸识别装置，其特征在于，仅在所述人脸轨迹持续帧数为b以上时，所述似然修正单元和所述人脸识别单元才针对与该人脸轨迹持续帧数对应的人脸进行处理，其中所述b为大于或等于2的整数。