CN111027476A

CN111027476A - 基于增量学习算法的人脸识别跟踪器

Info

Publication number: CN111027476A
Application number: CN201911255483.9A
Authority: CN
Inventors: 漆进; 李阅鹏; 陈日欣
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-17

Abstract

本发明公开了一种基于Haar‑like特征和增量学习算法的人脸识别跟踪器，主要涉及计算机视觉和图像处理领域。本发明使用积分图对Haar‑like特征求值进行加速，使用AdaBoost算法训练区分人脸和非人脸的强分类器，用筛选式级联把强分类器级联到一起，从而提高准确率。人脸追踪部分根据上一帧图像追踪框的中心点的位置，预测本时刻框中心点的位置。利用PCA算法提取框中图像的主要特征，根据本时刻框中心点的位置预测相应的降维后的图形。引入遗忘因子，每五帧一次更新图像数据。这种增量算法无需训练模型，从而提高了效率。理论和实践表明，我们的方法能够自动识别人脸，在人脸的方向产生巨大变化时如正脸变成侧脸时可以继续识别跟踪，并保持连续性的识别，避免了中断。

Description

基于增量学习算法的人脸识别跟踪器

技术领域

本发明属于一种基于Haar-like特征和增量学习算法的人脸识别跟踪器。

背景技术

随着计算机成本的降低和计算机视觉技术的发展，计算机视觉领域呈现出了越来越多的应用。其中，人脸识别与追踪是一个关键的应用，在许多领域都起着重要的作用。

人脸识别技术的研究如今已成为一个热门的研究领域，并被广泛应用。例如在公共安全领域，该技术被应用于视频监控、海关身份验证、公安布控等；在金融领域，该技术被应用于银行交易、互联网支付、银行卡办理的身份验证；在日常生活方面，该技术也有一些有趣的应用，例如智能家政机器人，具有人脸识别功能的虚拟游戏等。据相关市场调查，人脸识别技术在产业中占据一定份额，其主动、直接、便捷、可信度高等特点，必定会促进其在接下来的社会发展中持续进步，所以说人脸识别技术前景将十分可观。

人脸识别技术的研究可以追溯至19世纪Galton的工作。一百多年过去了，人脸识别技术在飞速进步中。从研究面部的剪影曲线的结构特征，到检测特征脸，再到基于光照锥模型的多姿态、多光照条件人脸识别方法，人脸识别的检测率如今已有了很高的准确率。本文中，我们通过检测人脸的Haar-like特征，并使用Adaboost机器学习算法，级联多个分类器对机器进行训练，从而更高效、更准确的达到人脸识别目的。

人脸跟踪的传统算法的计算方法是利用奇异值分解来简化运算，但是因为跟踪物体的外形，环境光线会随着时间而变化，所以需要一个更新特征基向量的方法。传统的实现为：

若要根据新增的m张图片改变模型，我们可以通过将[(I_1-I^-^‘)…(I_(n+m)-I^-^')]矩阵进行奇异值分解U^'Σ^'〖V^'〗^T此种方法存在的弊端是每次更新都需要重新计算所有数据的特征基向量。伴随着跟踪时间的增长，每次更新特征基向量的计算量会线性增长，故使用此方法无法实现长时间的人脸跟踪，并且对计算能力的消耗较多。

发明内容

本发明结合Haar-like级联分类器与增量学习算法，提供一种识别率高的人脸识别跟踪器。

为了实现上述目的，本发明实例提供的技术方案如下：

步骤1)对于摄像头所拍摄到的每一帧图像进行归一化处理；

步骤2)使用Haar-like级联分类器进行归一化图像的人脸检测，并框出所检测到的人脸，记录框内数据；

步骤3)将方框数据(中点位置，大小)传入追踪器作为第一帧的追踪目标；

步骤4)追踪算法自动识别出人脸作为第一帧；

步骤5)计算方框内的像素点的特征基向量(寻找方框内像素点互相的关系)；

步骤6)进入循环，计算物体在初始点为中心的周围点的概率分布；

步骤7)追踪器根据观测模型计算得出的权重，预测下一帧的位置；

步骤8)记录所预测的方框内像素点的特征基向量；

步骤9)每5帧更新一次。使用新的数据更新特征基向量(使其能够持续追踪)，进行新的循环。

作为本发明的进一步改进，所述步骤(1)具体包括：通过公式

对图像进行光照修正，其中

表示归一化之后的图像，而i(x,y)表示原始图像。μ表示图像的均值，一张图像的均值即为该图像中所有像素值的总和除以像素总个数。σ表示图像的标准差，c为常数；

作为本发明的进一步改进，所述步骤(2)中的Haar-like级联器在训练过程中提取图像特征值的原理主要包括：

提取图像的Haar-like特征。Haar-like特征有很多种分类，例如边缘特征，线特征，中心环绕特征等。一张图片由多个像素点组成，不同颜色的像素点具有不同的值。在归一化处理后，图片中的像素分为黑色和白色。将图片中某一区域黑色部分所包含所有像素的值之和减去白色部分所有像素的值之和，所得到的值即为该区域图像的特征值；

为了更加高效的计算图像的特征值，我们使用积分图来加快像素值的计算。积分图的定义如下：

其中(x,y)为图像上的一点的坐标，公式所表示的含义是：在位置(x,y)上，对应的积分图中的像素为该位置的左上角所有的像素之和；(x,y),(x′,y′)均表示像素坐标；我们使用以下两个递归公式计算积分图：

s(x,y)＝s(x,y-1)+i(x,y)

ii(x,y)＝ii(x-1,y)+s(x,y)

其中初始值s(x,-1)＝0,ii(-1,y)＝0。s(x,y)表示每行像素值的总和。计算的流程为：先计算每行的像素值总和，再计算所有列的总和。至此我们就可以使用积分图来加速计算某标定区域内像素之和，高效提取图片的特征值；

作为本发明的进一步改进，所述步骤(2)中的Haar-like级联器的训练过程原理主要包括：

使用多个弱分类器组合形成一个强分类器进而提高分类的准确率。其中弱分类器的定义如下：

公式中p_i表示控制不等式方向的参数，f_j(x)表示输入的像素窗口，该窗口是被训练图像的一部分，称为窗口。例如18*18像素的窗口，通过f_j提取特征，并通过阈值θ_j判定该窗口是否为所要检测的目标。本专利中索要检测的目标为人脸；

假设训练样本图像为(x₁,y₁),…,(x_n,y_n),其中y_i＝0或1,1表示正样本，0表示负样本。假设有l个正样本，m个负样本，首先初始化权重

初始化y_i为

对于t＝1,…,T,权重可归一化为

对于每一个特征，我们都需要一个弱分类器进行训练，记为h_t，每个分类器只对应训练一个特征。假设训练单个特征j的误差为∈_j，则∈_j＝∑ω_i|h_j(x_i)-y_i|，其中i表示所有窗口。在比较每一个∈_j后找出拥有最低误差的分类器h_t0，并更新权重

β_t为在更新权重时所得到的系数，在这里t的值为t₀；其中分类正确时e_i＝1，错误时e_i＝0。由此得到由多个弱分类器组合而成的一个强分类器，其表达式为：

其中

将多个强分类器级联在一起，第一个强分类器的输入为所有子窗口，该强分类器进行分类，去除掉部分子窗口，将剩余子窗口传递给下一个分类器。当任何一个强分类器拒绝某一个子窗口时，后续分类器便可无需再次处理该窗口。这样能有效降低每个分类器需要处理的子窗口数量，从而提高识别精度。

跟踪算法基于的数据是上一帧图像的均值和特征向量，并且根据预测出的新数据的均值和特征向量，对模型进行更新。

首先，算法需要将特征基向量U初始化为空白向量，然后计算第一帧窗口内人脸的均值为μ，此时模型所包含的数据数量n＝1.

运用动态模型来预测下一帧中人脸的位置。到t时刻，如已有被观测的图像{I₁,…,I_t}，则需要预测隐状态变量x_t的值。

用贝叶斯定理可以得到

p(X_t|I_t-1)∝p(I_t|X_t)∫p(X_t|X_t-1)p(X_t-1|I_t-1)dX_t-1

整个追踪的过程由观测模型p(I_t|X_t-1)主导，我们用一种粒子滤波算法的变体来模拟物体位置的分布。

在t时刻仿射变换的六个参数：X_t＝(x_t,y_t,θ_t,s_t,α_t,φ_t)分别代表了x,y方向的位移，旋转角度，比例，纵横比以及偏斜分布。

X_t中的每个参数都独立地以它前一时刻，即X_t-1时刻相应的高斯分布模拟。因此，物体在不同帧之间的运动可以看作仿射变换。我们可以得到：p(X_t|X_t-1)＝N(X_t；X_t-1,Ψ)。Ψ是包含了每个仿射变换参数的方差的对角协方差矩阵(假设每个放射参数的方差不随时间变化)。为了更有效的进行追踪，我们将平衡粒子滤波器的复杂度，比如Ψ所含元素的大小以及粒子数量的选取。

接下来，我们根据PCA算法的概率特性模拟观测图像：

假设图像I_t由X_t预测得到，是由目标图像以μ为中心扩展到空间U的子空间，一个样本从这个子空间产生的概率与它到子空间参考点的位置的距离成反比，并且这个距离可以被分解为样本到子空间的距离d_t和投射的样本到子空间中心的距离d_w。

则样本能从子空间产生的概率：

I是一个单位矩阵，μ是均值，εI表示观察过程中附加的高斯噪音，和投射样本能够被从中心点的马氏距离模拟的概率为

其中μ是均值,∑是U的列对应的奇异值矩阵。

由此我们可以得到样本由子空间产生的概率为：

为了减少噪声，我们使用了一个鲁棒的误差范数：

定义高斯噪声的潜在模型：x＝Wz+μ+∈,其中

是一个正交矩阵，并且有WW^T＝I_q。z服从均值为0，方差为L的高斯分布。L是一个对角矩阵。

由1.可得p(x|z)～N(Wz+μ,σ²I_d)

并且，可以计算出由模型正确预测观察样本x的概率p(x):

p(x)＝∫p(x|z)p(z)dz～N(μ,WLW^T+σ²I_d),

根据Sherman-Morrison-Woodbury公式，得到：

在概率PCA模型中，W和D对应特征向量和样本协方差矩阵特征值的对角矩阵。将5的表达式可知，当观测噪声σ²增加时，d_t的分布减少，并且我们同时使用d_t和d_w来计算p(x)。

运用所预测窗口中图像的数据来更新模型，具体方法如下。

如已有数据模型为一个d×n的矩阵A＝{I₁,…,I_n},其中每列I_n代表一帧的数据。我们已经对A进行了奇异值分解，算式为A＝U∑V^T.算法已预测的新数据B为一个d×m的矩阵。此时我们要用一种高效的增量算法将B中的数据添加到A和B的联合特征基向量中，也就是他们的奇异值分解[A B]＝U′Σ′V′^T中的U′.我们可以通过以下公式：

其中，

是B与U正交的部分。

我们使一个大小为k+m的方阵

其中k是在Σ中奇异值的数量,R的奇异值分解可以写为

现在，AB的奇异值分解可以被表示为

最后，特征基向量U得以更新：

在更新的过程中设置遗忘因子，更新新的向量并且将之前的信息的权重降低，已达到有效的学习新的信息，改变模型，适应物体光线，角度的变化。具体实现如下：

设置参数f∈[0,1],更新特征基向量后将之前的特征值与f相乘，计算

的QR分解，具体公式为：

经过以上步骤，算法可以持续运行，而且有较强的鲁棒性，不易受物体外形，角度，光线的变化而影响跟踪的效果。

本发明巧妙地利用了图像的Haar-like特征以及Adaboost算法，利用多个分类器级联所带来的识别速度与识别准确率上的优势，通过使用合适的训练集训练，获得高精确度的人脸识别效果。同时，通过利用增量学习算法，可以在消耗较少计算资源的情况下，获得高准确度，高鲁棒性的人脸跟踪表现。

附图说明

图1是人脸识别跟踪器工作原理流程图

具体实施方式

以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

本发明公开了一种一种基于Haar-like特征和增量学习算法的人脸识别跟踪器。具体实施步骤包括：

步骤1)对于摄像头所拍摄到的每一帧图像进行归一化处理；

步骤4)追踪算法自动识别出人脸作为第一帧；

步骤8)记录所预测的方框内像素点的特征基向量；

所述步骤(1)具体包括：通过公式

对图像进行光照修正，其中

表示归一化之后的图像，而i(x,y)表示原始图像。μ表示图像的均值，一张图像的均值即为该图像中所有像素值的总和除以像素总个数。σ表示图像的标准差。

所述步骤(2)中的Haar-like级联器在训练过程中提取图像特征值的原理主要包括：

其中(x,y)为图像上的一点的坐标，公式所表示的含义是：在位置(x,y)上，对应的积分图中的像素为该位置的左上角所有的像素之和；我们使用以下两个递归公式计算积分图：

s(x,y)＝s(x,y-1)+i(x,y)

ii(x,y)＝ii(x-1,y)+s(x,y)

所述步骤2中的Haar-like级联器的训练过程原理主要包括：

初始化y_i为

对于t＝1,…,T,权重可归一化为

其中分类正确时e_i＝1，错误时e_i＝0。由此得到由多个弱分类器组合而成的一个强分类器，其表达式为：

其中

所述步骤(6)具体包括：

用贝叶斯定理可以得到

p(X_t|I_t-1)∝p(I_t|X_t)∫p(X_t|X_t-1)p(X_t-1|I_t-1)dX_t-1

X_t中的每个参数都独立地以X_t-1时刻相应的高斯分布模拟。因此，物体在不同帧之间的运动可以看作仿射变换。我们可以得到：p(X_t|X_t-1)＝N(X_t；X_t-1,Ψ)。Ψ是包含了每个仿射变换参数的方差的对角协方差矩阵(假设每个放射参数的方差不随时间变化)。为了更有效的进行追踪，我们将平衡粒子滤波器的复杂度，比如Ψ所含元素的大小以及粒子数量的选取。

接下来，我们根据PCA算法的概率特性模拟观测图像：

假设I_t由X_t预测得到，是由目标图像以μ为中心扩展到U的子空间，一个样本从这个子空间产生的概率与它到子空间参考点的位置的距离成反比，并且这个距离可以被分解为样本到子空间的距离d_t和投射的样本到子空间中心的距离d_w。

则样本能从子空间产生的概率：

其中μ是均值,∑是U的列对应的奇异值矩阵。

由此我们可以得到样本由子空间产生的概率为：

为了减少噪声，我们使用了一个鲁棒的误差范数：

定义高斯噪声的潜在模型：x＝Wz+μ+∈,其中

由1.可得p(x|z)～N(Wz+μ,σ²I_d)

并且，可以计算出由模型正确预测观察样本x的概率p(x):

p(x)＝∫p(x|z)p(z)dz～N(μ,WLE^T+σ²I_d),

根据Sherman-Morrison-Woodbury公式，得到：

在概率PCA模型中，W和D对应特征向量和样本协方差矩阵特征值的对角矩阵。将5的表达式可知，当观测噪声σ²增加时，d_t的分布减少，并且我们使用d_t和d_w来计算p(x)。

所述步骤(9)具体包括：

运用所预测窗口中图像的数据来更新模型，具体方法如下。

其中，

是B与U正交的部分。

我们使一个大小为k+m的方阵

其中k是在Σ中奇异值的数量,R的奇异值分解可以写为

现在，AB的奇异值分解可以被表示为

最后，特征基向量U得以更新：

同时，通过设置遗忘因子，更新新的向量并且将之前的信息的权重降低，已达到有效的学习新的信息，改变模型，适应物体光线，角度的变化。具体实现如下：

的QR分解，具体公式为：

经过以上步骤，算法可以持续运行，而且有较强的鲁棒性，不易受物体外形，角度，光线的变化而影响跟踪的效果

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.本发明结合Haar-like级联分类器与增量学习算法，提供一种识别率高的人脸识别跟踪器，为了实现上述目的，本发明实例提供的技术方案如下：

步骤1)对于摄像头所拍摄到的每一帧图像进行归一化处理；

步骤4)追踪算法自动识别出人脸作为第一帧；

步骤8)记录所预测的方框内像素点的特征基向量；

步骤9)每5帧更新一次，使用新的数据更新特征基向量(使其能够持续追踪)，进行新的循环。

2.根据权利要求1所述的方法，其特征在于,所述步骤(1)具体包括：通过公式

对图像进行光照修正，其中

表示归一化之后的图像，而i(x,y)表示原始图像；μ表示图像的均值，一张图像的均值即为该图像中所有像素值的总和除以像素总个数；σ表示图像的标准差，c为常数；

提取图像的Haar-like特征；Haar-like特征有很多种分类，例如边缘特征，线特征，中心环绕特征等；一张图片由多个像素点组成，不同颜色的像素点具有不同的值；在归一化处理后，图片中的像素分为黑色和白色；将图片中某一区域黑色部分所包含所有像素的值之和减去白色部分所有像素的值之和，所得到的值即为该区域图像的特征值；

为了更加高效的计算图像的特征值，我们使用积分图来加快像素值的计算；积分图的定义如下：

其中(x,y)为图像上的一点的坐标，公式所表示的含义是：在位置(x,y)上，对应的积分图中的像素为该位置的左上角所有的像素之和；(x,y),(x′,y′)均表示像素坐标；ii(x,y)表示积分图值；我们使用以下两个递归公式计算积分图：

s(x,y)＝s(x,y-1)+i(x,y)

ii(x,y)＝ii(x-1,y)+s(x,y)

其中初始值s(x,-1)＝0,ii(-1,y)＝0；s(x,y)表示每行像素值的总和；计算的流程为：先计算每行的像素值总和，再计算所有列的总和；至此我们就可以使用积分图来加速计算某标定区域内像素之和，高效提取图片的特征值。

3.根据权利要求1所述的方法，其特征在于,所述步骤(2)中的Haar-like级联器的训练过程原理主要包括：

使用多个弱分类器组合形成一个强分类器进而提高分类的准确率；其中弱分类器的定义如下：

公式中p_i表示控制不等式方向的参数，f_j(x)表示输入的像素窗口，该窗口是被训练图像的一部分，称为窗口；例如18*18像素的窗口，通过f_j提取特征，并通过阈值θ_j判定该窗口是否为所要检测的目标；本专利中索要检测的目标为人脸；

假设训练样本图像为(x₁,y₁),…,(x_n,y_n),其中y_i＝0或1,1表示正样本，0表示负样本；假设有l个正样本，m个负样本，首先初始化权重

初始化y_i为

对于t＝1,…,T,权重可归一化为

对于每一个特征，我们都需要一个弱分类器进行训练，记为h_t，每个分类器只对应训练一个特征；假设训练单个特征j的误差为∈_j，则∈_j＝∑ω_i|h_j(x_i)-y_i|，其中i表示所有窗口；在比较每一个∈_j后找出拥有最低误差的分类器h_t0，并更新权重

β_t为在更新权重时所得到的系数，在这里t的值为t₀；其中分类正确时e_i＝1，错误时e_i＝0；由此得到由多个弱分类器组合而成的一个强分类器，其表达式为：

其中

将多个强分类器级联在一起，第一个强分类器的输入为所有子窗口，该强分类器进行分类，去除掉部分子窗口，将剩余子窗口传递给下一个分类器；当任何一个强分类器拒绝某一个子窗口时，后续分类器便可无需再次处理该窗口；这样能有效降低每个分类器需要处理的子窗口数量，从而提高识别精度。

4.根据权利要求1所述的方法，其特征在于,所述步骤(6)具体包括：

将特征基向量U初始化为空白向量，然后计算第一帧窗口内人脸的均值为μ，此时模型所包含的数据数量n＝1，并且运用动态模型来预测下一帧中人脸的位置；到t时刻，根据观测的图像{I₁,…,I_t}，预测隐状态变量X_t的值；用贝叶斯定理可以得到t-1时刻的观测图像正确预测t时刻图像的位置的概率为：p(X_t|I_t-1)∝p(I_t|X_t)∫p(X_t|X_t-1)p(X_t-1|I_t-1)dX_t-1；

整个追踪的过程由观测模型p(I_t|X_t-1)主导，用一种粒子滤波算法的变体来模拟物体位置的分布：在t时刻仿射变换的六个参数：X_t＝(x_t,y_t,θ_t,s_t,α_t,φ_t)分别代表了x,y方向的位移，旋转角度，比例，纵横比以及偏斜分布；X_t中的每个参数都独立地以X_t-1时刻相应的高斯分布模拟，因此，物体在不同帧之间的运动可以看作仿射变换，得到概率p(X_t|X_t-1)＝N(X_t；X_t-1,Ψ)；其中，Ψ是包含了每个仿射变换参数的方差的对角协方差矩阵(假设每个放射参数的方差不随时间变化)；为了更有效的进行追踪，我们将平衡粒子滤波器的复杂度，比如Ψ所含元素的大小以及粒子数量的选取。

5.根据权利要求1所述的方法，其特征在于,所述步骤(7)具体包括：

根据PCA算法的概率特性模拟观测图像：假设图像I_t由X_t预测得到，是由目标图像以μ为中心扩展到U的子空间，一个样本从这个子空间产生的概率与它到子空间参考点的位置的距离成反比，并且这个距离可以被分解为样本到子空间的距离d_t和投射的样本到子空间中心的距离d_w；则样本能从子空间产生的概率：

其中μ是均值,∑是U的列对应的奇异值矩阵；由此我们可以得到样本由子空间产生的概率为：

为了减少噪声，我们使用了一个鲁棒的误差范数：

其中高斯噪声的潜在模型x＝Wz+μ+∈,

是一个正交矩阵，并且有WW^T＝I_q；z服从均值为0，方差为L的高斯分布，L是一个对角矩阵；由1.可得p(x|z)～N(Wz+μ,σ²I_d)，并且，可以计算出由模型正确预测观察样本x的概率p(x):

p(x)＝∫p(x|z)p(z)dz～N(μ,WLW^T+σ²I_d),

根据Sherman-Morrison-Woodbury公式，得到：

在概率PCA模型中，W和D对应特征向量和样本协方差矩阵特征值的对角矩阵；将5的表达式可知，当观测噪声σ²增加时，d_t的分布减少，并且我们使用d_t和d_w来计算p(x)。

6.根据权利要求1所述的方法，其特征在于,所述步骤(8)具体包括：

如已有数据模型为一个d×n的矩阵A＝{I₁,…,I_n},其中每列I_n代表一帧的数据，我们已经对A进行了奇异值分解，算式为A＝U∑V^T，算法已预测的新数据B为一个d×m的矩阵；此时我们要用一种高效的增量算法将B中的数据添加到A和B的联合特征基向量中，也就是他们的奇异值分解[A B]＝U′Σ′V′^T中的U′.我们可以通过以下公式：

其中，

是B与U正交的部分；

我们使一个大小为k+m的方阵

其中k是在Σ中奇异值的数量,R的奇异值分解可以写为

现在，AB的奇异值分解可以被表示为：

最后，特征基向量U得以更新：

设置遗忘因子，更新新的向量并且将之前的信息的权重降低，已达到有效的学习新的信息，改变模型，适应物体光线，角度的变化。具体实现如下：

的QR分解，具体公式为：