CN103279768B

CN103279768B - 一种基于增量学习人脸分块视觉表征的视频人脸识别方法

Info

Publication number: CN103279768B
Application number: CN201310214506.8A
Authority: CN
Inventors: 张兆翔; 王超; 王蕴红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2018-02-06
Anticipated expiration: 2033-05-31
Also published as: CN103279768A

Abstract

本发明提供了一种基于增量学习人脸分块视觉表征的视频人脸识别方法，属于模式识别领域。本方法使用Adaboost算法在人脸视频第一帧的正面人脸图像进行检测，使用Camshift算法进行跟踪，得到所有人脸图像，在读入视频过程中，对人脸图像进行增量聚类，并从每类人脸图像中选取代表；对代表图像进行处理，学习基于块视觉表征的视觉词典；使用视觉词典对人脸图像进行表征；最后根据相似矩阵对人脸图像构成的视频进行识别。本发明方法能够提高视频人脸在光照、姿态，以及跟踪结果不理想状态下的识别率和鲁棒性，能够有效、便捷、自动地检测、跟踪和识别视频中的人脸。

Description

一种基于增量学习人脸分块视觉表征的视频人脸识别方法

技术领域

本发明属于模式识别领域，涉及图像处理和计算机视觉等技术，特别是基于增量学习人脸分块视觉表征的人脸识别方法。

背景技术

视频中的人脸识别主要是针对包含人的运动图像序列进行分析处理，人脸识别问题可以定义成：输入（查询）场景中的静止图像或者视频，使用人脸数据库识别或验证场景中的一个人或者多个人。基于静止图像的人脸识别通常是指输入（查询）一幅静止的图像，使用人脸数据库进行识别或验证图像中的人脸。而基于视频的人脸识别是指输入（查询）一段视频，使用人脸数据库进行识别或验证视频中的人脸。

类别是世间万物的一个基本属性，同一类别的事物在形状，行为等方面具有相似的特性，而不同类别的物体则往往具有较大的差异。对于计算机而言，如何自动地从监控视频中判断出运动目标的类别是一个很具挑战性的问题。

国内外众多的大学和研究机构，如美国的MIT、CMU、UIUC、Maryland大学、英国的剑桥大学、日本的Toshiba公司和国内的中国科学院自动化所都对基于视频的人脸识别进行了广泛而深入的研究。

视频中的人脸的图像特征一般使用矢量或者矩阵作为描述方式。利用矢量作为视频人脸的描述方式的基本思想是利用视频得到一个反映输入人脸视频特性（如均值人脸图像、最好的正面图像等）的特征（矢量表示），和数据库中的人脸视频描述方式进行匹配。数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等。目前已经有很多算法对视频场景内的人脸识别（分类）进行了研究，但是往往都存在着一定的缺点，例如，需要进行数据库的采集标注，需要重新训练训练样本，不能增量更新。另外，由于视频中的人脸姿态变化程度大，而且受到光照等外界因素的影响，一些识别（分类）算法在某些特定的条件下可以取得很好的性能，却往往在环境复杂的条件下无法取得很好的识别结果，检测跟踪结果不理想。

发明内容

现有技术在进行视频中人脸识别问题上往往在光照、姿态变化的情况下，以及在检测、跟踪效果不理想的情况下不能取得良好的实验结果，本发明的目的是能够有效、便捷、自动地判断制品中人脸的身份，利用已有的检测、跟踪技术，在收到各种因素影响，即使检测、跟踪结果不理想的情况下，也能高鲁棒的对视频中的人脸进行身份的识别，为此，提供一种基于增量学习人脸分块视觉表征的视频人脸识别方法。

本发明提供的一种基于增量学习人脸分块视觉表征的视频人脸识别方法，包括如下步骤：

步骤S1：对读入的一段时间的人脸图像序列，使用Adaboost算法对第一帧的正面人脸图像进行检测，得到目标人脸，使用Camshift算法对人脸图像序列进行处理，跟踪得到所有人脸图像；

步骤S2：在读入人脸图像序列的过程中，对通过人脸目标检测和人脸运动跟踪获得的人脸图像进行增量聚类；

步骤S3：对增量聚类得到的每一类人脸图像中，选取该类的代表；

步骤S4：将选出的人脸图像都进行矩形块分割；

步骤S5：对人脸图像分割的每个矩形块提取特征向量；

步骤S6：对提取出来的所有特征向量，使用vector quantization算法进行分类，学习人脸视觉词汇，将学习到的所有视觉词汇统计起来，形成人脸视觉词汇词典；

步骤S7：通过空间金字塔匹配方法，使用人脸视觉词汇对人脸图像进行表征，人脸图像表示为由人脸视觉词汇表示的直方图；在训练阶段，将训练视频集中选取的作为代表的人脸图像都使用人脸视觉词汇表征；在识别阶段，将测试视频中的每帧测试图像都经过步骤S4到步骤S7的处理，用人脸视觉词汇表征；

步骤S8：通过时序相似矩阵对测试视频的每帧人脸图像进行识别。

本发明的方法不需要进行数据库的采集标注，通过增量学习的方法实现运动人脸的自动检测、跟踪和识别。本发明的方法对光照和姿态鲁棒，算法高效，实时，解决了现有技术需要手工对人脸进行标注，对离线数据库人脸光照和姿态影响，需要从新训练训练样本，不能增量更新等因素影响的问题。本发明方法在视频中环境复杂，检测跟踪结果不理想的情况下，仍然能有鲁棒的进行视频中的人脸识别。本发明方法能够有效、便捷、自动地检测、跟踪和识别视频中的人脸，可以应用在如下方面：

（1）用于智能监控系统中的视频人脸识别，帮助监控系统判断运动人脸的身份信息，通过制定相应类别的规则，为人脸的身份提供候选身份信息；

（2）用于计算机视觉领域的人脸识别，首先对目标人脸进行粗分类，缩小搜索空间，提高识别效率和准确率；

（3）用于智能监控系统中的语义化理解，提供其语义化中的主体类别，帮助系统理解场景中发生的事件。

附图说明

图1为本发明基于增量学习人脸分块视觉表征的视频人脸识别方法的流程图；

图2为UCSD/Honda数据库中某人视频图像；

图3为检测跟踪后得到的视频中的人脸帧图像；

图4为使用空间金字塔匹配使用视觉词汇表达人脸示意图。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明提高的基于增量学习人脸分块视觉表征的视频人脸识别方法，对于提高识别方法对环境的鲁棒性，提高人脸识别的识别性能具有重要意义。利用增量学习和分块视觉表征的方法，本发明实现了一个视频场景下的运动人脸自动识别方法，识别出人脸视频中的人脸的身份信息。

本发明的方法需要的硬件最低配置为：P43.0G CPU，512M内存的计算机；最低分辨率为320×240的监控摄像头；帧率为25帧每秒的视频采集卡。在此配置水平的硬件上，采用C++语言编程实现本发明方法，可以达到实时识别的效果。

结合图1，下面详细说明本发明的基于增量学习人脸分块视觉表征的视频人脸识别方法的具体实施步骤。

步骤S1：读入训练视频集的一段人脸视频，在人脸图像序列中进行人脸目标检测和人脸运动跟踪。

首先，使用Adaboost算法对第一帧的正面人脸图像进行检测，得到目标人脸，然后使用Camshift算法对人脸图像序列进行跟踪，得到目标人脸的所有图像，当跟踪失败时重新使用Adaboost算法检测人脸图像。对运动目标进行跟踪，通过对不同帧，同一运动目标的检测跟踪结果进行融合，用于准确分类。

步骤S2：在读入人脸图像序列的过程中，对通过人脸目标检测和人脸运动跟踪获得的人脸图像进行增量聚类。

现有参考文献（A.Mian,“Unsupervised learning from local features forvideo-based face recognition,”in Automatic Face&Gesture Recognition,2008.pp.1–6）提出了一种非监督的视频人脸识别方法，采用一种基于局部人脸特征相似度比较和投票的特征选择方法来实现对人脸的自动聚类。本发明方法的步骤S2基于该思想，采用增量聚类实现人脸图像的分类，具体如下说明。

初始化增量聚类所使用的分类器，使用K均值算法和前10帧人脸图像初始化完成分类器。根据人脸的表情和头部动作，将类的总数设定为10，将每个类中含有类成员的最大个数设定为20。在增量聚类的过程中，随着视频的播出，如果一张人脸图像距离类中心超过设定阈值A，那么该人脸图像将成为一个新的类，于此同时，已有各个类中，含有类成员个数最少的那个类将被剔除；如果小于等于阈值A，那么该人脸图像将并入其距离最近的一个类，并且如果这个类中的成员超过类成员最大个数，那么将距离该类中心最远的类成员剔除。在读入人脸帧视频的过程中，不断增量更新每个类，直到人脸帧图像读入结束。

步骤S3：增量聚类过程中，对增量聚类得到的每一类人脸图像中，选取该类的代表。

增量聚类的过程中，选择各个人脸图像类的类代表，各个类的类代表的选取是通过每个类成员距离类中心的距离判断的，直到所有人脸图像读入结束。在增量聚类的过程中，所有的类和所有类中的成员是不断变化的，在变化过程中，对每类人脸图像，当前距离该类的类中心最近的类成员（人脸图像）将被选为该类的类代表，且每帧人脸图像只能作为类代表一次，即如果该类成员曾经被选为一次作为类代表，它将不会被第二次选为类代表。

步骤S4：将所有选出的人脸图像进行矩形块分割。

对选出的类代表的人脸图像进行分块，本发明实施例中，横向均分四块，纵向均分四块，共分为16个矩形块。

步骤S5：对人脸图像分割的每个矩形块提取特征向量。

步骤S6：对提取出来的所有特征向量，使用vector quantization算法进行分类，学习人脸视觉词汇。将学习到的所有人脸视觉词汇统计起来，形成人脸视觉词汇词典。

步骤S7：使用人脸视觉词汇词典对人脸帧图像进行表征。

将训练集和测试集中的所有人脸图像，通过空间金字塔匹配（spatial pyramidmatching）方法使用人脸视觉词汇词典中的人脸视觉词汇进行表达。使用在通过学习得到的人脸视觉词汇表征所有人脸图像，所有人脸图像表示为由人脸视觉词汇表示的直方图。图4为使用空间金字塔匹配使用视觉词汇表达人脸的示意图，从左到右分别是0，1，2级金字塔式分割，这样，图像空间被分为1，4，16个子块。图4中的三种标记：十字，圆圈和方块表示三种视觉词汇。第二排图像表示三个金字塔级别下得到的不同空间子块中的视觉词汇出现直方图。

在训练阶段，将训练视频集的所有人脸图像经过步骤S1到步骤S7的处理，将训练视频集中选取作为代表的所有人脸图像，都表示为用人脸视觉词汇表示的直方图。在识别阶段，将测试视频中每帧人脸图像经过步骤S4到步骤S7的处理，得到用人脸视觉词汇表示的直方图。通过时序相似矩阵对测试视频的每帧人脸图像进行识别。

步骤S8：根据时序相似矩阵对测试视频的人脸图像进行识别。具体包括步骤8.1～步骤8.3。

步骤8.1：对测试视频中每帧测试图像，计算该测试图像用人脸视觉词汇表示的特征，到训练视频集中各代表人脸图像用人脸视觉词汇表示的特征的余弦相似距离，得到相似距离矩阵。

在识别阶段，对测试视频中的每帧待识别的测试图像，计算该测试图像用人脸视觉词汇表示的特征，到训练视频集中各代表人脸图像用人脸视觉词汇表示的特征的余弦相似距离：

d_kj＝ρ(f_t,f_kj),k＝1,...,C_j

其中，f_t代表第t帧测试图像特征，f_kj代表训练视频集中第j个人第k个类代表人脸图像特征，本步骤所述图像特征是指图像用人脸视觉词汇表示的特征；d_kj表示测试图像特征f_t到f_kj的余弦相似距离；ρ表示余弦相似距离计算，C_j为第j个人的类代表的个数。

之后，形成一个G×C_j的相似距离矩阵，其中G为训练数据库中人的个数。

步骤8.2：确定测试图像与训练视频集中每个人的相似距离，对相似距离赋予权重，得到测试图像与训练视频集中第j个人的身份得分。

根据相似距离矩阵，待识别的测试图像与训练集中第j个人的相似距离s_j可以通过下面的公式计算得到：

表示测试图像特征到训练视频集中第j个人所有类代表人脸图像特征的余弦相似距离的最大值，表示测试图像特征距离训练视频集中第j个人所有类代表人脸图像特征的余弦相似距离的最小值。

对得到的相似距离s_j赋予权重W_j，从而得到测试图像的身份得分score_j：

score_j＝α(W_js_j-β)

其中，j＝1,2,…,G；α和β为对得分进行归一化的参数：

表示测试图像与训练集中G个人的相似距离的最大值，表示测试图像与训练集中G个人的相似距离的最小值。

权重W_j通过下面的公式进行计算得到：

其中，j＝1,2,…,G；NbC_j表示测试图像与训练视频集中第j个人的相似距离的有效个数，通过下面的公式进行计算得到：

ω_kj为参数，当余弦相似距离大于Confidence，取1，小于则取零。Confidence为预先设定的值，用于取舍相似余弦距离，在实验中证实，取0.7的时候能够取得最高识别率。表示中的最大值，表示中的最小值。

步骤8.3：当测试图像与所有训练视频集中的人身份得分都计算完成之后，那么该测试图像中待识别人脸的身份c就是：

arg表示c取score_j最大所对应的j值，取最大的身份得分对应的人作为该测试图像中待识别人脸的身份。当得到待识别视频中待识别人脸的一个身份得分之后，比如该人脸是第c个人，那么这段视频是第c个人就会得到一票，当一段测试视频中所有测试图像都经过步骤8.1～8.3处理投票之后，这段测试视频的身份就是得票最多的那个人。

在UCSD/Honda数据库上对本发明方法进行实验。UCSD/Honda数据库包含20个人的共52段视频。图2为UCSD/Honda数据库中某人的视频图像帧，图3为数据库中跟踪图2所示某人所截取的人脸结果。数据库中的人脸视频包含了大规模的2D（平面内）和3D（平面外）的头部旋转。试验结果证明，在UCSD/Honda数据库的场景应用中，采用本发明方法进行人脸识别的正确率为100%。本发明易于实现、性能稳定，能够提高智能监控系统对监控场景的理解能力，是下一代智能人脸识别系统里的关键技术。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于增量学习人脸分块视觉表征的视频人脸识别方法，其特征在于，包括如下步骤：

步骤S3：增量聚类过程中，对增量聚类得到的每一类人脸图像中，选取该类的代表；

步骤S4：将所有选出的人脸图像都进行矩形块分割；

步骤S5：对人脸图像分割的每个矩形块提取特征向量；

步骤S7：通过空间金字塔匹配方法，使用人脸视觉词汇对人脸图像进行表征，人脸图像表示为由人脸视觉词汇表示的直方图；

在训练阶段，将训练视频集中选取的作为代表的人脸图像都使用人脸视觉词汇表征；在识别阶段，将测试视频中的每帧测试图像都经过步骤S4到步骤S7的处理，用人脸视觉词汇表征；

步骤S8：通过时序相似矩阵对测试视频的每帧人脸图像进行识别，实现方法为：

步骤8.1：对测试视频中每帧测试图像，计算该测试图像用人脸视觉词汇表示的特征，到训练视频集中各代表人脸图像用人脸视觉词汇表示的特征的余弦相似距离，得到相似距离矩阵；

测试图像特征f_t到训练视频集中第j个人第k个类代表人脸图像特征f_kj的余弦相似距离d_kj为：d_kj＝ρ(f_t,f_kj),k＝1,...,C_j，其中，C_j为第j个人的类代表的个数，ρ表示余弦相似距离计算，步骤S8中所述的图像特征是指图像用人脸视觉词汇表示的特征；

步骤8.2：通过相似距离矩阵，确定测试图像与训练视频集中每个人的相似距离，对相似距离赋予权重，得到测试图像与第j个人的身份得分；

测试图像与训练视频集中第j个人的相似距离s_j为：

<mrow> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>C</mi> <mi>j</mi> </msub> </munderover> <msub> <mi>d</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>k</mi> </munder> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> <mo>-</mo> <munder> <mi>min</mi> <mi>k</mi> </munder> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，表示测试图像特征到训练视频集中第j个人所有类代表人脸图像特征的余弦相似距离的最大值，表示测试图像特征距离训练视频集中第j个人所有类代表人脸图像特征的余弦相似距离的最小值；

对相似距离s_j赋予权重W_j，得到测试图像与第j个人的身份得分score_j：

score_j＝α(W_js_j-β)，j＝1,2,…,G；

其中，G为训练数据库中人的个数；α和β为对得分进行归一化的参数，表示为：

<mrow> <mi>&alpha;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mi>&beta;</mi> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，表示测试图像与训练集中G个人的相似距离的最大值，表示测试图像与训练集中G个人的相似距离的最小值；

权重W_j为：

其中，NbC_j表示测试图像与训练视频集中第j个人的相似距离的有效个数，表示中的最大值，表示中的最小值；NbC_j通过下面公式计算得到：

<mrow> <msub> <mi>NbC</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>C</mi> <mi>j</mi> </msub> </munderover> <msub> <mi>&omega;</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&omega;</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>d</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>></mo> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mi>i</mi> <mi>d</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>d</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>&le;</mo> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mi>i</mi> <mi>d</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

ω_kj为参数，当余弦相似距离大于Confidence时，取1，否则取零；Confidence为预先设定的值，用于取舍相似余弦距离；

步骤8.3：得到测试图像与所有训练视频集中的人的身份得分后，取最大的身份得分对应的人作为该测试图像中待识别人脸的身份；

当一张测试图像确定为第c个人时，对第c个人投一票，当一段测试视频中的每张测试图像都进行步骤8.1～8.3后，将得票最多的那个人作为该段测试视频中待识别人脸的身份。

2.根据权利要求1所述的视频人脸识别方法，其特征在于，所述的步骤S2中，使用K均值算法初始化增量聚类所使用的分类器，将类的总数设定为10，将每个类中含有类成员的最大个数设定为20。

3.根据权利要求1或2所述的视频人脸识别方法，其特征在于，所述的步骤S2中，增量聚类的过程中，设定阈值A，如果人脸图像距离类中心超过阈值A，那么该人脸图像成为一个新的类，同时，将已有类中含有类成员个数最少的类剔除；如果人脸图像距离类中心小于等于阈值A，那么该人脸图像并入与其距离最近的类，并且如果距离最近的类中的成员超过类成员最大个数，那么将距离该类中心最远的类成员剔除。

4.根据权利要求1所述的视频人脸识别方法，其特征在于，所述的步骤S3，选取类代表的方法是：对各类人脸图像，选取当前距离该类的类中心最近的人脸图像，且每帧人脸图像只能被选取一次。

5.根据权利要求1所述的视频人脸识别方法，其特征在于，所述的步骤S4，将人脸图像横向均分四块，纵向均分四块，共分为16个矩形块。

6.根据权利要求1所述的视频人脸识别方法，其特征在于，步骤8.2中所述的Confidence设置为0.7。