CN104504365A

CN104504365A - 视频序列中的笑脸识别系统及方法

Info

Publication number: CN104504365A
Application number: CN201410679227.3A
Authority: CN
Inventors: 李保印
Original assignee: Wingtech Communication Co Ltd
Current assignee: Wingtech Communication Co Ltd
Priority date: 2014-11-24
Filing date: 2014-11-24
Publication date: 2015-04-08

Abstract

本发明揭示了一种视频序列中的笑脸识别系统及方法，所述系统包括预处理模块、特征提取模块、分类识别模块。预处理模块通过视频采集、人脸检测、嘴巴检测，从而获得能够直接提取光流特征或PHOG特征的人脸图像区域；特征提取模块采用Optical_PHOG算法进行笑脸特征的提取，得到最有利于笑脸识别的信息；分类识别模块采用随机森林算法根据特征提取模块中得到的大量训练样本的特征向量，通过机器学习的方法，得到笑脸和非笑脸两种类别的分类标准。将待识别图像的特征向量与这个分类器进行对比或匹配等操作，识别出该待识别图像属于笑脸和非笑脸的哪个类别，达到对其进行分类识别的目的。本发明提出的视频序列中的笑脸识别系统及方法，可提高笑脸识别的精确度。

Description

视频序列中的笑脸识别系统及方法

技术领域

本发明属于人脸识别技术领域，涉及一种笑脸系统，尤其涉及一种视频序列中的笑脸识别系统；同时，本发明还涉及一种视频序列中的笑脸识别方法。

背景技术

目前，针对笑脸识别的研究主要集中在特定环境、特定数据库中单张图像的笑脸分类识别，其应用于视频序列中的识别研究并不多，相应的技术也不完善。根据一些使用数码产品的用户反馈，所体验到的笑脸功能并不理想，在实际应用中存在着很多不足之处。

首先，笑脸识别功能的准确性不高。由于人类表情的表现方式有细微和强烈之分、缓和和激动之分、轻松和紧张之分等诸多形式，所以同一种表情往往表现出不同的面部形变和强度。

其次，笑脸识别功能的敏感度不高。目前有很多产品中的笑脸识别功能只有当被拍摄者的笑容达到一定程度或者符合一定规范时，甚至是必须露出牙齿，笑脸快门才能起到作用。

此外，笑脸识别功能的实时性也不好。用户面对摄像头，露出微笑，希望在自己的笑容最为自然的情况下进行捕捉和拍摄，而目前的相机捕捉笑容都有一定的延时，甚至是很迟缓，结果导致拍出的照片中面部表情反而比人工拍摄的更加僵硬。

有鉴于此，如今迫切需要设计一种新的笑脸识别方式，以便克服现有识别方法的上述缺陷。

发明内容

本发明所要解决的技术问题是：提供一种视频序列中的笑脸识别系统，可提高笑脸识别的精确度。

此外，本发明还提供一种视频序列中的笑脸识别方法，可提高笑脸识别的精确度。

为解决上述技术问题，本发明采用如下技术方案：

本发明主要针对人脸图像中笑脸特征的提取方法进行研究，旨在特征提取过程中，取得更加有效的信息，从而提高笑脸识别的准确性，并将其应用于视频序列环境下的笑脸识别系统当中。本发明的工作主要分为两个方面：一是结合人脸检测、五官定位等相关技术，采用有效的特征提取方法对视频序列中的人脸图像进行笑脸特征提取；二是在视频采集、分类识别等技术的辅助下，结合本发明的特征提取算法，实现视频序列的环境中，完整的笑脸识别系统。

本发明在光流法与PHOG(分层梯度方向直方图，Pyramid Histogram of OrientedGradients)算法的基础上，提出了对光流特征与PHOG特征进行特征融合，即Optical_PHOG特征提取技术。在Optical_PHOG特征提取中，光流特征采用Horn-Schunck算法对人脸区域进行提取，得到的特征向量能够表示视频序列中每帧图像之间的相关性信息；PHOG特征采用sobel算子计算梯度，角度划分为无方向9通道，在对人脸图像的嘴部进行两层金字塔分割之后，对每个分割区域进行HOG提取，得到的特征向量能够很好地携带图像本身的纹理细节。将两种信息结合之后，所提取的Optical_PHOG特征向量携带了光流特征的同时，还携带了PHOG特征，使得从笑脸图像中提取出的特征信息更加饱满。得到了笑脸特征的特征向量之后，下一步就是利用这些特征进行训练和分类识别。特征的训练是指通过某种方法(这里主要是机器学习的方法)，将得到的这些特征向量按照所属类别进行划分，找到一种分类规则，能够使这两种类别之间的区别最大。分类识别是指将待识别的特征向量与训练得到的分类规则进行比较，得出待识别的特征向量所属类别的过程。

本发明设计了一个基于视频序列的笑脸识别系统。系统首先对Jaffe人脸表情数据库中的样本图像，提取特征送入随机森林中进行训练，得出笑脸分类器；然后通过摄像头进行图像采集，对采集到的人脸图像，提取特征，送入随机森林，结合分类器，进行分类识别，得出识别结果并输出。在这个系统中，特征提取采用光流法、PHOG算法和Optical_PHOG算法分别实现。

一种视频序列中的笑脸识别系统，所述系统包括：

预处理模块，通过视频采集、人脸检测、嘴巴检测，从而获得能够直接提取光流特征或PHOG特征的人脸图像区域；

特征提取模块，采用Optical_PHOG算法进行笑脸特征的提取，得到最有利于笑脸识别的信息；

分类识别模块，采用随机森林算法根据特征提取模块中得到的大量训练样本的特征向量，通过机器学习的方法，得到笑脸和非笑脸两种类别的分类标准。将待识别图像的特征向量与这个分类器进行对比或匹配等操作，识别出该待识别图像属于笑脸和非笑脸的哪个类别，达到对其进行分类识别的目的。

作为本发明的一种优选方案，所述特征提取模块包括Optical_PHOG特征提取单元，分类识别模块包括随机森林分类识别单元。

作为本发明的一种优选方案，所述预处理模块整理数据库，将所用的人脸图像进行筛选，得到符合实验条件的样本图像；

所述特征提取模块完成的功能是根据Optical_PHOG算法从样本集图像或者待识别图像中提取可以代表其特征的信息，组成特征向量，送入分类识别模块中进行后续识别工作；该系统采用的样本图像为JAFFE人脸表情数据库。

一种视频序列中的笑脸识别方法，所述方法包括如下步骤：

(1)预处理步骤；

预处理步骤中，得到能够直接提取光流特征或PHOG特征的感兴趣区域图像；对于训练流程来说，其处理对象为Jaffe表情库，所做工作为人脸检测与嘴部区域检测，对于识别流程来说，其处理对象为通过摄像头直接采集到的人脸图像，需要在人脸检测和嘴巴检测之前，首先进行简单的灰度化处理；

其中，人脸检测步骤中，通过类Haar特征对人脸特征进行描述，同时采用积分图方法实现类Haar特征的快速计算，采用Adaboost级联分类器实现对图像中人脸的检测，得到人脸区域的位置，并将人脸提取出来；

嘴部区域检测基于人脸检测的基础之上，在得到了人脸图像之后，利用先验知识和图像处理技术，其中包括灰度化、图像增强、二值化等方法，定位到人眼位置，然后根据竖直方向，两眼之间的位置为嘴部区域在竖直方向的中心点等先验知识，进行嘴部区域检测，得到嘴巴的位置，并将其提取出来；

(2)特征提取步骤；

从人脸图像上，众多特征中提取出能够表达其表情的形变的特征，这里的表情特征指能够区分其为笑脸还是非笑脸的形变特征，得到最有利于笑脸识别的信息；这些提取出来的特征的准确性和有效性直接影响到最后的笑脸识别率；由于形变特征能够由像素点的运动方向、图像纹理等很好地表示；

其中，光流特征的提取通过Horn-Schunck的全局平滑约束，结合光流基本约束方程计算得到，PHOG特征通过对嘴巴区域进行两层金字塔分割，提取HOG而得到，Optical_PHOG特征通过分别提取人脸区域的光流特征和嘴巴区域的PHOG特征，并进行串接而得到；

(3)分类识别步骤；

采用随机森林算法进行训练和分类识别，这里，随机森林是由装袋法和输入变量进行随机分组构建而成的Forests-RI；

在训练流程中完成的功能是，根据特征提取模块中得到的大量训练样本的特征向量，通过机器学习的方法，得到笑脸和非笑脸两种类别的分类标准，即，训练得到笑脸分类器；

在识别流程中完成的功能是，将待识别图像的特征向量与这个分类器进行对比或匹配等操作，识别出该待识别图像属于笑脸和非笑脸的哪个类别，对其进行分类识别。

作为本发明的一种优选方案，训练分类的流程是：

Step11：输入Jaffe人脸表情数据库中共10人的样本，对每一个样本图像进行人脸检测，得到人脸区域；

Step 12：选取每个人的一幅中性表情图作为基准图像，将其余样本图像(这里称为表情图像)与同一个人的基准图像成对进行光流特征的提取；

Step 13：对表情图像进行嘴巴检测，在嘴巴区域做金字塔分割，提取PHOG特征；

Step 14：将光流特征与PHOG特征串接，得到每个表情图像的Optical_PHOG特征向量；

Step15：将所有表情图像的特征向量送入随机森林RF模块中，进行分类器的训练。

笑脸识别的流程是：

Step21：通过摄像头采集一段视频序列，对这段视频序列中的每一帧图像进行人脸检测；

Step22：选取视频序列中的第一帧作为基准图像，随机选取视频序列后面的任意一帧作为待识别的表情图像，将该基准图像和表情图像分别进行灰度化处理之后，成对进行光流特征的提取；

Step23：对待识别的表情图像的灰度图像进行嘴巴检测，在嘴巴区域做金字塔分割，提取PHOG特征；

Step24：串接提取到的光流特征与PHOG特征，得到待识别表情图像的Optical_PHOG特征向量；

Step25：利用训练流程中得到的笑脸分类器，对待识别表情图像的特征向量进行分类识别，得出识别结果。

本发明的有益效果在于：本发明提出的视频序列中的笑脸识别系统及方法，可提高笑脸识别的精确度。

本发明结合笑脸的特征，提出Optical_PHOG算法，将光流特征与PHOG特征串接，形成一种新的特征，进行笑脸识别实验，提高了识别率。同时引入随机森林进行笑脸特征的分类识别。利用随机森林算法的特点，通过从整体的数据库中进行多次的随机选取样本，可以在训练出分类效果非常好的分类器的同时，解决了目前笑脸识别数据库资源少的问题，同时使用袋外估计代替识别率，使得实验得到的识别率更加具有说服力。

附图说明

图1为本发明笑脸识别系统的框架图。

图2为基于Optical_PHOG特征提取的笑脸识别的流程图。

图3为Optical_PHOG特征提取流程图。

图4为光流特征提取流程图。

图5为4种矩形特征示意图。

图6为矩阵和计算示意图。

图7为矩阵特征值计算示意图。

图8为级联分类器结构示意图。

图9为Adaboost分类器的训练过程示意图。

图10为PHOG特征提取流程图。

图11为嘴巴定位流程图图。

图12为HOG特征提取流程图。

图13为单元直方图的通道划分示意图。

图14为R-HOG矩形图。

图15为RF示意图。

图16为二分类的决策树结构图。

图17为笑脸识别系统框图。

图18为各功能模块的技术设计方案示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例一

请参阅图1，本发明揭示了一种视频序列中的笑脸识别系统，所述系统主要包括：预处理模块、特征提取模块、分类识别模块。所述特征提取模块包括Optical_PHOG特征提取单元，分类识别模块包括随机森林分类识别单元。

预处理模块通过视频采集、人脸检测、嘴巴检测，从而获得能够直接提取光流特征或PHOG特征的人脸图像区域。

特征提取模块采用Optical_PHOG算法进行笑脸特征的提取，得到最有利于笑脸识别的信息。

分类识别模块采用随机森林算法根据特征提取模块中得到的大量训练样本的特征向量，通过机器学习的方法，得到笑脸和非笑脸两种类别的分类标准。将待识别图像的特征向量与这个分类器进行对比或匹配等操作，识别出该待识别图像属于笑脸和非笑脸的哪个类别，达到对其进行分类识别的目的。

笑脸识别系统的框架如图1所示。首先选取数据库，一个好的数据库，能够更好的用于训练。在通过预处理获取图像中的人脸图像，通过特征提取，获取笑脸特征值，通过特征值，通过分类器进行识别，最终输出是不是笑脸。

首先是数据库的整理，将所用的人脸图像进行筛选，得到符合实验条件的样本图像。特征提取模块完成的功能是根据一定的特征提取算法，从样本集图像或者待识别图像中提取可以代表其特征的信息，组成特征向量，送入分类识别模块中进行后续识别工作。本实施例中，该系统采用的样本图像为JAFFE(The Japanese Female Facial Expression Database)人脸表情数据库。

【预处理模块】

人脸图像由于实际拍摄条件的不同，由于光照以及受到拍摄设备的性能优劣等诸多因素的影响，往往存在很多缺陷，如图像色彩、亮度、大小的不同和噪声等，图像预处理就是要尽量多的去除这些缺陷，预处理模块包括图像平滑单元、尺寸归一化单元、灰度均衡单元等。

——图像平滑单元

图像的平滑是一种实用的数字图像处理技术，主要目的是为了减少噪声，本发明采用邻域平均法来减少噪声。

邻域平均法是简单的空域处理方法。图像平滑单元用几个像素灰度的平均值来代替每个像素的灰度。假定有一幅N×N个像素的图像f(x,y)，平滑处理后得到一幅图像为g(x,y)。g(x,y)由下式决定：

g (x, y) = \frac{1}{M} \underset{(m, n) &Element; S}{Σ} f (m, n) - - - (1)

式中x,y＝0,1,2,……,N－1，S是(x，y)点邻域中点的坐标的集合，但其中不包括(x，y)点，M是集合内坐标点的总数。式(1)说明，平滑化的图像g(x，y)中的每个像素的灰度值均由包含在(x，y)的预定邻域中的f(x，y)几个像素的灰度值的平均值来决定。例如，可以以(x，y)点为中心，取单位距离构成一个邻域，其中点的坐标集合为

S＝{(x，y+1)，(x，y－1)，(x+1，y)，(x－1，y)} (2)

随着邻域的增大，图像的模糊程度也愈加严重。为克服这一缺点，可以采用阈值法减少由于邻域平均所产生的模糊效应。其基本方法由下式决定

式中T就是规定的非负阈值。这个表达式的物理概念是：当一些点和它的邻域内的点的灰度平均值的差不超过规定的阈值T时，就仍然保留其原灰度值不变，如果大于阈值T时就用它们的平均值来代替该点的灰度值。这样就可以大大减少模糊的程度。

——尺寸归一化单元

图像采集过程中由于受到距离、焦距的影响等，使得人脸在整幅图像中的位置和大小不确定，从而导致检测出来的人脸尺寸不一致。尺寸归一化单元通过尺度校正、平移、旋转等方法，去除图像中的结构变形，使人脸图像标准化。

——灰度均衡单元

为减少光照对人脸图像灰度分布的影响，直方图均衡化模块对人脸样本图像进行直方图均衡化。灰度均衡单元把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。

【特征提取模块】

特征提取模块在识别问题中居于核心地位，同一识别算法如果选择的特征不同将造成识别效果很大的差异。本发明所采用的特征提取模块是利用特征融合的方法将光流特征与分层梯度方向直方图(Pyramid Histogram of Oriented Gradients,PHOG)特征有效地结合起来，形成一种新的特征向量，这里称为Optical_PHOG特征，同时，结合随机森林分类方法，将该特征送入随机森林模块中进行训练和分类的笑脸识别技术。

基于Optical_PHOG特征提取的笑脸识别系统流程如图2所示。

本系统包含了三个主要的模块，样本(或样本集)整理、Optical_PHOG特征提取和随机森林分类识别。

样本整理，是为了在训练的过程中，有较好的训练对象，从而获取良好的识别系统。本发明中的样本是国际通用的数据库，对应的样本只是正面的人脸图像。但现实生活中的图像中，人脸只是图像的一部分，所以为了从一副途中，提取出人脸的正面图像，就必须进行预处理。

所谓的Optical_PHOG特征指的是，结合光流特征和PHOG特征，通过串接，得到一组新的特征向量，这组新的特征向量中，既包含了光流的特征信息，又包含了PHOG的特征信息，这里，将其称为Optical_PHOG特征。

串接的过程如下：

设X＝[x₁,x₂,…,x_n]^T(x_i＝1...n为第i个样本的特征向量)为光流(OpticalFlow)特征向量，其中，x_i＝[x_i1,x_i2,…,x_ip]为第i个样本的p维特征向量值，x_ij第i个样本中第j维特征的值；Y＝[y₁,y₂,…,y_n]^T(y_i＝1...n为第i个样本的特征向量)为PHOG特征向量，其中，y_i＝[y_i1,y_i2,...,y_iq]为第i个样本的q维特征向量值，y_ij为第i个样本中第j维特征的值；n为样本数。则串接后的特征向量∑为：

∑＝[x₁∪H×y₁,x₂∪H×y₂,…,x_n∪H×y_n]^T (4)

其中H称为串接系数，如下：

H＝max(x_ij)/max(y_ij) (5)

在式5中，max(x_ij)为n个样本中，最大的光流特征值，max(y_ij)为最大的PHOG特征值。其中，i＝1,2,…,n，j＝1,2,...,m。

Optical_PHOG特征提取流程如图3所示。

所述特征提取模块包括Optical_PHOG特征提取单元，Optical_PHOG特征提取单元包括光流特征提取单元，提取光流特征。光流特征提取流程如图4所示。

提取光流特征就是对两幅图像做以下操作：

1)输入图像。输入图像为两幅图像，本发明中进行笑脸识别，意图是测试某一幅表情图像是否是笑脸图像；

2)人脸检测。光流特征提取严格针对人脸区域，采用的Jaffe数据库中的图像需要进行人脸检测，剔除周围不相关的区域，得到准确的人脸区域，将人脸区域从图像中提取出来，并进行归一化，本识别系统中设定人脸图像归一化后的大小为100×100；

人脸检测是指在输入的图像中如果存在人脸区域，则检测出人脸，确定所有人脸的大小、位置和位姿。本发明采用Haar-Like特征与级联的Adaboost学习算法相结合的方法。具体步骤如下：

第一步、对人脸进行Haar-Like特征计算，运用“积分图”算法快速提取特征。

Haar特征，由两个或多个形状相同的黑白矩形按一定规则排列构成，每一个类Haar特征都会量化成一个矩形特征值进行描述。矩形特征值指的是矩形内所有像素点的像素灰度值按照黑白区域加减后的值，一般是用白色矩形区域中所有像素的灰度值之和，减去黑色矩形区域中所有像素的灰度值之和。图5列出了上述的4种矩形特征。

图5中的A类矩形特征、B类矩形特征和D类矩形特征，计算矩形特征表示的数值可以利用下式完成v＝Sum白-Sum黑，而对于C来说，计算公式如下：v＝Sum白-2*Sum黑。之所以将黑色区域像素和乘以2，是为了使两种矩形区域中像素数目一致。

如果变换特征模版在图像子窗口中的中心与规模，事实上能够给的图像特征数量是十分庞大的。为了方便描述，上图中列举出的4种矩形特征往往被叫做“特征原型”，将此特征原型经过不断的延展之后可以得到新的特征，我们常常将此新特征叫做“矩形特征”；表示矩形特征的值通常被人们叫做“特征值”。

将训练窗口的规模初始化为W*H个像素点；W代表特征原型长度具有的像素个数，h代表特征原型宽度具有的像素个数，图5中给出的4种特征原型的长和宽的像素的比分别为：1：2、3：1、2：2。

令：X＝(～W)/w，."～"表示对数值取整。一个大小为w*h的特征原型在一个大小为W*H的搜索窗中可以得到的矩形特征的个数常常用下面的公式的计算结果来表不。

XY * (W + 1 - w * \frac{X + 1}{2}) (H + 1 - h * \frac{Y + 1}{2}) - - - (6)

矩形特征的数量非常庞大，如果每次计算特征值都要统计矩形内所以像素之和，将会大大降低训练和检测的速度。因此引入了一种新的图像表示方法——积分图像，矩形特征的特征值计算，只与此特征矩形的端点的积分图有关，所以不管此特征矩形的尺度变换如何，特征值的计算所消耗的时间都是常量。这样只要遍历图像一次，就可以求得所有子窗口的特征值。

积分图的定义为：

ii (x, y) = \underset{x^{,} \leq x}{Σ} \underset{y^{,} \leq y}{Σ} I (x^{,}, y^{,}) - - - (7)

其中I(x'，y')为图像在点(x'，y')处的像素值。

为了节约时间，减少重复计算，则图像I的积分图可按如下递推公式计算：

\{\begin{matrix} s (x, y) = s (x, y - 1) + i (x, y) \\ ii (x, y) = ii (x - 1, y) + s (x, y) \end{matrix} - - - (8)

这样就可以进行2种运算：

(1)任意矩形区域内像素积分。由图像的积分图可方便快速地计算图像中任意矩形内所有像素灰度积分。如图6所示，点1的积分图像ii1的值为(其中Sum为求和)：ii1＝Sum(A)同理，点2、点3、点4的积分图像分别为：ii2＝Sum(A)+Sum(B)；ii3＝Sum(A)+Sum(C)；ii4＝Sum(A)+Sum(B)+Sum(C)+Sum(D)；

矩形区域D内的所有像素灰度积分可由矩形端点的积分图像值得到：

Sum(D)＝ii1+ii4-(ii2+ii3) (9)

(2)特征值计算

矩形特征的特征值是两个不同的矩形区域像素和之差，由(9)式可以计算任意矩形特征的特征值，下面以图5中特征原型A为例说明特征值的计算。

如图7所示，该特征原型的特征值定义为：Sum(A)-Sum(B)根据(9)式则有：Sum(A)＝ii4+ii1-(ii2+ii3)；Sum(B)＝ii6+ii3-(ii4+ii5)；所以此类特征原型的特征值为：(ii4-ii3)-(ii2-ii1)+(ii4-ii3)-(ii6-ii5)

另示：运用积分图可以快速计算给定的矩形之所有象素值之和Sum(r)。假设r＝(x，y，w，h)，那么此矩形内部所有元素之和等价于下面积分图中下面这个式子：

Sum(r)＝ii(x+w，y+h)+ii(x-1，y-1)-ii(x+w，y-1)-ii(x-1，y+h) (10)

第二步、根据AdaBoost算法提取最有效的Haar-Like特征，经过多次迭代确定各个弱分类器的权值。

AdaBoost算法可以同时进行训练分类器和特征选择的工作，这是它的一个非常重要的特点。AdaBoost算法中的每个弱分类器都与某个特征对应，弱分类器的个数等于矩形特征数。训练过程中从大量的弱分类器中选出一个在当前样本权重分布情况下具有最小分类错误率的弱分类器作为本轮的最优弱分类器，进行T轮训练以后，最终得出T个最具代表性的特征(对应了T个弱分类器)，最后根据每个特征的不同权值加权后连接得到一个非常强大的分类器。

令X为训练样本空间，Y＝{0，1}中包含了训练样本可能来自的类别的记号.1代表正的样本点(即人脸样本)，0代表负的样本点(即非人脸样本)；假设一共有K个矩形特征；w_t,j代表第t轮迭代过程中的第j个样本点所具有的权重；算法的具体实现通常包含下面的4个重要环节：

(1)已知训练样本集X＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}。式中x_i∈X；。假定训练集中共包含l个人脸样本点，m个非人类样本点，l+m＝n。

(2)给每个样本点一个起始权重。

(3)对于t＝l，…，T(T为循环次数)。

①对样本所具有的权重执行归一化操作；

②针对每一个特征j，在已知的样本权重分布情况下训练得到弱分类器h_t,j(x)，通过计算得到每个弱分类器对样本集的分类错误率，

ϵ_{t, j} = Σ_{t = 1}^{n} w_{t, j} * | h_{t, j (x)} - y_{i} |

其中j＝1,2，...，n (12)

③确定第t轮迭代的最优弱分类器h_t(x)，令k＝arg min ε_t,j，并将样本集的分类错误率取为ε_t＝ε_t,k。

④根据获得的最优弱分类器修改样本的权重：其中β_t＝ε_t/(1-ε_t)；ei＝0，表示x_i被正确分类，ei＝1表示x_i被错误分类

(4)最后得到的强分类器为：

式中：

a_{t} = \ln \frac{1}{ϵ_{t}} - - - (13)

第三步、将训练得到的弱分类器进行级联，组成完整的人脸检测系统。

为了能够改善人脸检测的时间性能，Viola在研究过程中给出了一种新的分类器结构：分层，通过这样的一种分类器组织方式可以使得人脸检测过程随着层数的递增得到更高的精度。

上图给出了分层的AdaBoost分类器的简单结构描述。事实上上述的级联分类器的判决过程与经过退化的决策树的判定过程是非常相似的，若第i层将搜索子窗判定为“是”，那么这个可能会包含人脸图像的搜索子窗便会被继续派发到第i+1层分类器，同时诱发第i+1层的分类器进行分类工作，如此逐级检测。这种检测方法首先副除巨量的不包含人脸图像的搜索子窗，从而使得人脸检测的时间性能得打很好的优化。

Adaboost分类器的训练过程如图9所示。

3)计算光流。本发明采用Horn-Schunck算法进行光流(u,v)的计算，本系统中设定搜索窗口为1，计算得到的光流特征向量维数为(100/2)*(100/2)＝2500；

Horn-Schunck算法核心思想是：图像上每一点的光流之间都有联系，光流在整个图像范围内应该是平滑变化的，所以引入了平滑性约束，使平滑约束项极小化。

设平滑性约束项为极小化：

E_{s} = &Integral; &Integral; (u_{x}^{2} + u_{y}^{2} + v_{x}^{2} + v_{y}^{2}) dxdy - - - (14)

结合基本等式，要求极小化：

E_c＝∫∫(I_xu+I_yv+I_t)²dxdy (15)

结合式14和式15可知，最后求得的光流应满足式16：

\min &Integral; &Integral; [(u_{x}^{2} + u_{y}^{2} + v_{x}^{2} + v_{y}^{2}) + λ {(I_{x} u + I_{y} v + I_{t})}^{2}] dxdy - - - (16)

这里λ的取值要考虑噪声情况，噪声较强，则说明图像数据本身具有较低的置信度，这时便需要更多的依赖加入的光流约束，λ取较小的值；反之，若噪声较弱，λ取较大的值。

此时，问题将转化为求解Lagrangian最小化问题。对形如式16的形式变分问题

min{∫∫F(u,v,u_x,u_y,v_x,v_y)dxdy} (17)

的解释对应Euler方程(17)的解

\{\begin{matrix} F_{u} - \frac{{&PartialD; F}_{u_{x}}}{&PartialD; x} - \frac{{&PartialD; F}_{u_{y}}}{&PartialD; y} = 0 \\ F_{v} - \frac{{&PartialD; F}_{v_{x}}}{&PartialD; x} - \frac{{&PartialD; F}_{x_{y}}}{&PartialD; y} = 0 \end{matrix} - - - (18)

式(17)中

F = u_{x}^{2} + u_{y}^{2} + v_{x}^{2} + v_{y}^{2} + λ {(I_{x} u + I_{y} v + I_{t})}^{2} - - - (19)

对应的Euler方程为

\{\begin{matrix} {&dtri;}^{2} u = λ I_{x} (I_{x} u + I_{y} v + I_{t}) \\ {&dtri;}^{2} v = λ I_{y} (I_{x} u + I_{y} v + I_{t}) \end{matrix} - - - (20)

其中，是Laplace算子。

实际计算过程中，处理对象为离散化的坐标，相应的，要对(19)进行离散化处理：

离散化为

s_{ij} = \frac{1}{4} [{(u_{i + 1, j} - u_{i, j})}^{2} + {(u_{i, j + 1} - u_{i, j})}^{2} + {(v_{i + 1, j} - v_{i, j})}^{2} + {(v_{i, j + 1} - v_{i, j})}^{2}] - - - (21)

(I_xu+I_yv+I_t)²离散化为

c_ij＝(I_xu_ij+I_yv_ij+I_t)² (22)

极小化目标函数为

\min {e = \underset{i}{Σ} \underset{j}{Σ} (s_{ij} + λ c_{ij})} - - - (23)

此时，对其求关于u_kl和v_kl的偏导，并令其为0，有

\{\begin{matrix} (1 + λ I_{x}^{2}) u_{kl} + λ I_{x} I_{y} v_{kl} = {\overset{&OverBar;}{u}}_{kl} - λ I_{x} I_{t} \\ (1 + λ I_{x}^{2}) v_{kl} + λ I_{x} I_{y} u_{kl} = {\overset{&OverBar;}{v}}_{kl} - λ I_{x} I_{t} \end{matrix} - - - (24)

其中，和分别是u_kl和v_kl的四邻域平均，于是得到迭代过程

\{\begin{matrix} u_{kl}^{n + 1} = {\overset{&OverBar;}{u}}_{kl}^{n} - \frac{I_{x} {\overset{&OverBar;}{u}}_{kl}^{n} + I_{y} {\overset{&OverBar;}{v}}_{kl}^{n} + I_{t}}{1 + λ (I_{x}^{2} + I_{y}^{2})} I_{x} \\ v_{kl}^{n + 1} = {\overset{&OverBar;}{v}}_{kl}^{n} - \frac{I_{x} {\overset{&OverBar;}{u}}_{kl}^{n} + I_{y} {\overset{&OverBar;}{v}}_{kl}^{n} + I_{t}}{1 + λ (I_{x}^{2} + I_{y}^{2})} I_{x} \end{matrix} - - - (25)

对I_x，I_y和I_t进行离散化，代入式中求解光流。

如果设定迭代初始值(u⁰,v⁰)＝(0,0)，则

u^{1} = - I_{x} I_{t} / (1 + λ (I_{x}^{2} + I_{y}^{2})) - - - (26)

v^{1} = - I_{y} I_{t} / (1 + λ (I_{x}^{2} + I_{y}^{2})) - - - (27)

根据中性图像，利用Horn-Schunck计算出表情图像中每一点的光流矢量，所有点的光流矢量共同构成这幅表情图像的光流特征。

本识别系统中的Horn-Schunck算法计算的是稠密光流的速度场，即，将图像中的每个像素都与速度关联，针对每个像素分别计算光流向量的u和v两个分量。图像Horn-Schunck光流场的获取需要四个步骤：

1)计算像素点的光流分量。计算的依据是Horn-Schunck算法中的光流(u，v)迭代公式(式25、26、27)；

2)设定搜索窗口大小。本发明经过多次设定搜索窗口的大小，通过笑脸识别的结果，得出本发明系统中最合适的窗口大小为2*2，即设定winsize＝1；

3)计算窗口中的光流特征值。在每一个2*2的窗口中，含有4个像素点，对这4个像素点的u和v分量进行加法运算，得到该窗口的(u，v)分量，根据计算光流特征值；

4)获取图像的光流特征向量。将所有窗口计算所得的光流特征值串联起来，组成整幅图像的光流特征向量。

Optical_PHOG特征提取单元包括分层梯度方向直方图PHOG特征提取单元；金字塔梯度方向直方图(Pyramid of Histogram of Orientation Gradients,PHOG)，PHOG特征提取单元用特征向量表达出图像中物体的局部形状以及形状在空间中的布局。该描述子包含了不同分辨率分割下的每个子图像的梯度方向直方图。

本发明的PHOG特征提取过程中，采用sobel算子计算梯度，角度划分为无方向9通道，金字塔分割操作针对人脸区域图像分割两层，之后对分割得到的21个图像区域进行提取。得到能够表示图像纹理细节的特征向量。

PHOG特征提取流程如图10所示。

(1)嘴部区域提取

本发明的嘴巴定位是在人脸检测之后进行的，并且加入了眼睛的检测。本发明主要采用基础的图像处理方法进行嘴巴定位，其流程如图11所示。

1)图像截取。根据先验知识，将图像分为上下两部分，在人脸的上半部分检测人眼的位置，然后在人脸的下半部分，结合人眼的竖直坐标定位嘴巴；

2)人眼区域定位。在人脸的上半部分继续根据先验知识进行图像截取，缩小搜索范围，然后进行图像增强、二值化等操作之后，在水平和竖直方向分别进行直方图投影，分别得到左、右眼的位置；

3)嘴巴定位。将左眼中心点的纵坐标作为嘴巴的左边缘，将右眼中心点的纵坐标作为嘴巴的右边缘，再结合先验知识，确定嘴巴的上下坐标，最终确定嘴巴位置。

(2)Hog特征

梯度方向直方图(Histogram of Oriented Gradients,HOG)特征提取流程如图12所示。

HOG特征提取方法就是对提取对象图像做以下操作：

1)输入图像。本发明采用PHOG特征提取，针对人脸嘴部区域进行，因此，这里的输入图像是数据库的人脸图像进行嘴部区域提取之后的图像，或者经过区域分割之后各层子图像；

2)预处理。HOG特征的提取是对灰度图而言的，所以，首先需要满足灰度图像的条件，对输入图像进行灰度化处理，本发明采用Jaffe数据库，图像本身为灰度图像，因此预处理步骤可以省略；

3)计算梯度向量。本发明采用Sobel算子来计算梯度向量。例如，考虑一个24×24的灰度图像I，使用下列两个3×3的Sobel算子与原图像进行卷积。

sobel 1 = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}], sobel 2 = [\begin{matrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}] - - - (28)

若I_x及I_y分别代表经纵向及横向边缘检测的图像，即

I_x＝sobel1*I，I_y＝sobel2*I (29)

则图像的每个像素点的梯度幅值

I = \sqrt{I_{x}^{2} + I_{y}^{2}} - - - (30)

梯度方向

θ＝arctan(I_x/I_y) (31)

4)创建单元直方图。细胞单元cell中，每一个像素点都将为某个方向的直方图通道做投票。投票通常采取加权的方式，也就是说每一票都带有权值，这个权值由该像素点的梯度函数来计算，可以采用幅值本身或者其他形式的函数来表示。将单元按照角度域[0,180]或者[0,360]等分成多个通道，根据像素梯度幅值I和梯度方向，投影到对应的直方图通道上。单元(cell)的直方图通道划分如图13所示。

5)图块内归一化。由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大。这就需要对梯度强度做归一化，采取的办法是：把各个细胞单元组合成大的、空间上连通的区间(blocks)。利用Block中每个通道的幅值对cell的通道幅值进行归一化处理。Block采用矩形(R-HOG)形状，如图14所示。

(3)金字塔分割技术

所谓金字塔，是指这样一组栅格对象，它们的分辨率和尺寸是不同的(而且一般，其分辨率和尺寸分别呈等比数列形式)，建立金字塔的顺序是“自底向上”的，将原始图像，通过多次采样处理，从而得到一组尺寸变小，分辨率变低的图像，形成“金字塔”的一个图像区域组成的序列。显然，不同层次的图像具有不同的尺寸，越接近底层则尺寸越大，包含信息也越多；随着向金字塔上升，每隔一层尺寸都降低，其中的每一块图像区域仅表达了上一层图像区域中1/4的信息。

(4)PHOG特征

PHOG算法提取嘴部区域纹理特征，体现在具体的操作过程中，有如下几个步骤：

Step1.提取人脸嘴部区域。表示从完整的人脸图像中定位嘴巴，并将嘴部区域提取出来。

Step2.金字塔分割。表示对嘴部区域做金字塔分割，这里采用3层分割，最上层是没有进行分割的图像，即level0，实验中，将把该图像大小控制为80*52；下一层进行了一次分割，即level1，在level1层，图像被分为4个子图像，每个子图像大小是level0图像的1/4，也就是40*26；最底层为level2，对图像进行了二次分割，即在level1的基础上，将每个子图像又分为4个更小的子图像，level2层子图像共有16个，大小为20*13；

Step3.提取各层子图像HOG特征。表示提取金字塔分割得到的各层子图像的边缘直方图。这里的直方图获得方法是：将图像域[0,360]量化成9个方向，每20°为一个方向通道，针对每个方向的角度范围，统计梯度方向θ处于该范围的像素点的个数；并以各个像素点梯度幅值J的大小作为权重计算每个像素点的贡献；表示在特征向量直方图中，某个柱子的高度代表该柱子对应方向角度范围内所有像素点贡献的总和，柱子的个数代表直方图维数，特征向量长度为9。

Step4.连接所有子图像的HOG特征作为最终提取的嘴部PHOG特征，串联后的PHOG特征向量总长度是9×(1+4+16)＝189。

【分类器的设计】

分类器的使用在笑脸识别系统中的作用主要有两个：训练和识别。在训练和识别中，均要用到特征提取模块得到的特征向量。训练的目的是通过对大量训练样本的特征向量进行机器学习，得到能够最大限度地区分出笑脸和非笑脸的分类器。识别过程是将测试样本通过特征提取模块之后得到的特征向量，送入训练得到的笑脸分类器，通过一系列对比和划分，最终得到测试样本所属的类别。

本发明在分类识别模块采用随机森林的分类方法，其中用到的技术有：Bagging随机选择方法、分类回归树(CART)算法、Gini系数最小原则法、袋外估计值等，构建的随机森林为Forests-RI。

随机森林(Random Forests,RF)是一种联合分类器，每棵决策树都是一个基础分类器，多个决策树共同构成随机森林。决策树在每个节点随机从属性集中选取若干候选属性，根据Gini系数最小原则选择分类属性和阈值。即，每一棵树都依赖于独立抽样，并与森林中所有树具有相同分布的随机向量的值。采用随机森林分类(RFC)时，每棵树都投票并返回得票最多的类。详见图15。

决策树(decision tree)与流程图的树结构相类似，其中，每个内部节点都是一个分裂问题，每个分支代表该测试的一个输出，而每个树叶节点存放一个类标号。树的最顶层节点是根节点，一个典型的决策树如图16所示：

本发明中采用的随机森林，由两种随机算法共同构建，这两种随机算法分别是装袋法，和基于输入的构建方法。

装袋法(Bagging)是一个统计重采样的组合技术，其最基本的思想就是利用有放回的随机重采样来生成多个版本的预测器，然后把这些分类器融合，通常情况下，组合的分类器与单一分类器相比，其分类效果更好，原因是在最终解决问题时，结合了所有单独分类器的特点。

利用bagging方法来生成训练集，其具体思想及操作步骤是：原始训练集D中，由于抽取样本的随机性，每个样本未被抽取的概率为(1-1/N)^N，其中N为原始训练集D中的样本个数。当N足够大时，(1-1/N)^N将收敛于1/e≈0.368，也就是说，在原始样本集D中，将会有接近37％的样本在抽样时不会出现在bootstrap的样本中，这些未被抽取的数据称为袋外(Out-Of-Bag,OOB)数据，使用袋外数据来估计模型性能的方法称为OOB估计。由于使用OOB估计和使用相同样本容量的测试集的精度一样，就没有必要再使用测试集。因此，本发明中采用的识别率统计由OOB估计来代替。

本发明采用Forests-RI构建随机森林。Forests-RI构建方法是对输入变量进行随机分组，例如，给定d个样本的训练集D，目的是为组合分类器产生k棵决策树，过程如下：首先，对于每次迭代i(i＝1,2,…,k)，使用有放回抽样，由D产生d个样本的训练集D_i，使得某些样本可能在D_i出现多次，而另一些可能不出现。设F是用来在每个节点决定划分的属性数，其中F远小于可用属性数。为了构造决策树分类器M_i，在每个节点随机选择F个属性作为该节点划分的候选属性。树增长到最大规模，并且不剪枝。使用这种方法形成的随机森林称为Forests-RI。

视频序列中的笑脸识别系统从摄像头中采集检测样本，以图像中目标物体的检测与定位、特征提取技术和分类识别技术为理论基础，以基于Adaboost的人脸检测、PHOG算法、光流法以及随机森林等为核心技术。针对人脸表情图像的纹理特征、灰度变化等信息，设计一个有针对性的笑脸识别系统。

视频环境中的笑脸识别系统从总体上分为两部分主要流程：分类器的训练和笑脸识别。如图17所示。

训练分类器的流程是：

Step1：输入Jaffe人脸表情数据库中共10人的样本，对每一个样本图像进行人脸检测，得到人脸区域；

Step 2：选取每个人的一幅中性表情图作为基准图像，将其余样本图像(这里称为表情图像)与同一个人的基准图像成对进行光流特征的提取；

Step 3：对表情图像进行嘴巴检测，在嘴巴区域做金字塔分割，提取PHOG特征；

Step 4：将光流特征与PHOG特征串接，得到每个表情图像的Optical_PHOG特征向量；

Step 5：将所有表情图像的特征向量送入随机森林RF模块中，进行分类器的训练。

笑脸识别的流程是：

Step 1：通过摄像头采集一段视频序列，对这段视频序列中的每一帧图像进行人脸检测；

Step 2：选取视频序列中的第一帧作为基准图像，随机选取视频序列后面的任意一帧作为待识别的表情图像，将该基准图像和表情图像分别进行灰度化处理之后，成对进行光流特征的提取；

Step 3：对待识别的表情图像的灰度图像进行嘴巴检测，在嘴巴区域做金字塔分割，提取PHOG特征；

Step4：串接提取到的光流特征与PHOG特征，得到待识别表情图像的Optical_PHOG特征向量；

Step4：利用训练流程中得到的笑脸分类器，对待识别表情图像的特征向量进行分类识别，得出识别结果。

实施例二

本发明设计的系统，从特征提取技术的角度划分，系统分为三组，分别实现基于光流法的笑脸识别、基于PHOG的笑脸识别，和基于Optical_PHOG的笑脸识别。各功能模块所用的技术设计方案如图18所示。

(1)预处理模块

预处理模块中，所做工作的目的是为了得到能够直接提取光流特征或PHOG特征的感兴趣区域图像。对于训练流程来说，其处理对象为Jaffe表情库，所做工作为人脸检测与嘴部区域检测，对于识别流程来说，其处理对象为通过摄像头直接采集到的人脸图像，需要在人脸检测和嘴巴检测之前，首先进行简单的灰度化处理。

其中，人脸检测步骤中，通过类Haar特征对人脸特征进行描述，同时采用积分图方法实现类Haar特征的快速计算，采用Adaboost级联分类器实现对图像中人脸的检测，得到人脸区域的位置，并将人脸提取出来。

嘴部区域检测基于人脸检测的基础之上，在得到了人脸图像之后，利用先验知识和图像处理技术，其中包括灰度化、图像增强、二值化等方法，定位到人眼位置，然后根据竖直方向，两眼之间的位置为嘴部区域在竖直方向的中心点等先验知识，进行嘴部区域检测，得到嘴巴的位置，并将其提取出来。

(2)特征提取模块

特征提取模块的功能是从人脸图像上，众多特征中提取出能够表达其表情的形变的特征，这里的表情特征指能够区分其为笑脸还是非笑脸的形变特征，得到最有利于笑脸识别的信息。这些提取出来的特征的准确性和有效性直接影响到最后的笑脸识别率。由于形变特征能够由像素点的运动方向、图像纹理等很好地表示，所以本系统采用第三章深入研究的三种算法，分别是光流法、PHOG算法和Optical_PHOG算法进行笑脸特征的提取。

其中，光流特征的提取通过Horn-Schunck的全局平滑约束，结合光流基本约束方程计算得到，PHOG特征通过对嘴巴区域进行两层金字塔分割，提取HOG而得到，Optical_PHOG特征通过分别提取人脸区域的光流特征和嘴巴区域的PHOG特征，并进行串接而得到。、

(3)分类识别模块

该模块采用随机森林算法进行训练和分类识别，这里，随机森林是由装袋法和输入变量进行随机分组构建而成的Forests-RI。

在训练流程中完成的功能是，根据特征提取模块中得到的大量训练样本的特征向量，通过机器学习的方法，得到笑脸和非笑脸两种类别的分类标准，即，训练得到笑脸分类器。

在识别流程中完成的功能是，将待识别图像的特征向量与这个分类器进行对比或匹配等操作，识别出该待识别图像属于笑脸和非笑脸的哪个类别，从而达到对其进行分类识别的目的。

本发明还揭示一种视频序列中的笑脸识别方法，所述方法包括如下步骤：

(1)预处理步骤；

(2)特征提取步骤；

(3)分类识别步骤；

其中，训练分类的流程是：

Step 14：将光流特征与PHOG特征串接，得到每个表情图像的Opt ica l_PHOG特征向量；

笑脸识别的流程是：

综上所述，本发明提出的视频序列中的笑脸识别系统及方法，可提高笑脸识别的精确度。

这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.一种视频序列中的笑脸识别系统，其特征在于，所述系统包括：

2.根据权利要求1所述的视频序列中的笑脸识别系统，其特征在于：

所述特征提取模块包括Optical_PHOG特征提取单元，分类识别模块包括随机森林分类识别单元。

3.根据权利要求1所述的视频序列中的笑脸识别系统，其特征在于：

所述预处理模块整理数据库，将所用的人脸图像进行筛选，得到符合实验条件的样本图像；

4.根据权利要求1所述的视频序列中的笑脸识别系统，其特征在于：

所述预处理模块对数据进行预处理；预处理模块包括图像平滑单元、尺寸归一化单元、灰度均衡单元；

所述图像平滑单元采用邻域平均法来减少噪声；邻域平均法是简单的空域处理方法；用几个像素灰度的平均值来代替每个像素的灰度；假定有一幅N×N个像素的图像f(x,y)，平滑处理后得到一幅图像为g(x,y)；g(x,y)由下式决定：

g (x, y) = \frac{1}{M} \underset{(m, n) &Element; S}{Σ} f (m, n) - - - (1)

式中x,y＝0,1,2,……,N－1；S是(x，y)点邻域中点的坐标的集合，但其中不包括(x，y)点，M是集合内坐标点的总数；式(1)说明，平滑化的图像g(x，y)中的每个像素的灰度值均由包含在(x，y)的预定邻域中的f(x，y)几个像素的灰度值的平均值来决定；以(x，y)点为中心，取单位距离构成一个邻域，其中点的坐标集合为

S＝{(x，y+1)，(x，y－1)，(x+1，y)，(x－1，y)} (2)

随着邻域的增大，图像的模糊程度也愈加严重；为克服这一缺点，采用阈值法减少由于邻域平均所产生的模糊效应；当一些点和它的邻域内的点的灰度平均值的差不超过规定的阈值T时，就仍然保留其原灰度值不变，如果大于阈值T时就用它们的平均值来代替该点的灰度值；减少模糊的程度；其基本方法由下式决定

式中T就是规定的非负阈值；

尺寸归一化单元用以去除图像中的结构变形，使人脸图像标准化；

灰度均衡单元用以对人脸样本图像进行直方图均衡化；把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。

5.根据权利要求1所述的视频序列中的笑脸识别系统，其特征在于：

所述特征提取模块利用特征融合的方法将光流特征与分层梯度方向直方图PHOG特征有效地结合起来，形成一种新的特征向量，这里称为Optical_PHOG特征，同时，结合随机森林分类方法，将该特征送入随机森林模块中进行训练和分类的笑脸识别技术；

所述Optical_PHOG特征指的是，结合光流特征和PHOG特征，通过串接得到一组新的特征向量，这组新的特征向量中，既包含了光流的特征信息，又包含了PHOG的特征信息，这里将其称为Optical_PHOG特征；

光流特征和PHOG特征串接的过程如下：

设X＝[x₁,x₂,…,x_n]^T为光流OpticalFlow特征向量，x_i＝1...n为第i个样本的特征向量；其中，x_i＝[x_i1,x_i2,…,x_ip]为第i个样本的p维特征向量值，x_ij第i个样本中第j维特征的值；

Y＝[y₁,y₂,…,y_n]^T为PHOG特征向量，y_i＝1...n为第i个样本的特征向量；其中，y_i＝[y_i1,y_i2,…,y_iq]为第i个样本的q维特征向量值，y_ij为第i个样本中第j维特征的值；n为样本数；则串接后的特征向量∑为：

Σ＝[x₁∪H×y₁,x₂∪H×y₂,…,x_n∪H×y_n]^T (4)

其中H称为串接系数，如下：

H＝max(x_ij)/max(y_ij) (5)

在式5中，max(x_ij)为n个样本中，最大的光流特征值，max(y_ij)为最大的PHOG特征值；其中，i＝1,2,…,n，j＝1,2,...,m。

6.根据权利要求1所述的视频序列中的笑脸识别系统，其特征在于：

所述特征提取模块包括Optical_PHOG特征提取单元，Optical_PHOG特征提取单元包括光流特征提取单元，提取光流特征，就是对两幅图像做以下操作：

1)输入图像；输入图像为两幅图像，进行笑脸识别，意图是测试某一幅表情图像是否是笑脸图像；

2)人脸检测；光流特征提取严格针对人脸区域，采用的Jaffe数据库中的图像需要进行人脸检测，剔除周围不相关的区域，得到准确的人脸区域，将人脸区域从图像中提取出来，并进行归一化；

人脸检测是指在输入的图像中如果存在人脸区域，则检测出人脸，确定所有人脸的大小、位置和位姿；采用Haar-Like特征与级联的Adaboost学习算法相结合的方法；具体步骤如下：

第一步、对人脸进行Haar-Like特征计算，运用“积分图”算法快速提取特征；

Haar特征由两个或多个形状相同的黑白矩形按一定规则排列构成，每一个类Haar特征都会量化成一个矩形特征值进行描述；矩形特征值指的是矩形内所有像素点的像素灰度值按照黑白区域加减后的值，一般是用白色矩形区域中所有像素的灰度值之和，减去黑色矩形区域中所有像素的灰度值之和；

将训练窗口的规模初始化为W*H个像素点；W代表特征原型长度具有的像素个数，h代表特征原型宽度具有的像素个数；

令：X＝(～W)/w，."～"表示对数值取整；一个大小为w*h的特征原型在一个大小为W*H的搜索窗中得到的矩形特征的个数用下面的公式的计算结果来表示：

XY * (W + 1 - w * \frac{X + 1}{2}) (H + 1 - h * \frac{Y + 1}{2}) - - - (6)

矩形特征的数量非常庞大，如果每次计算特征值都要统计矩形内所以像素之和，将会大大降低训练和检测的速度；因此引入了一种新的图像表示方法——积分图像，矩形特征的特征值计算，只与此特征矩形的端点的积分图有关，所以不管此特征矩形的尺度变换如何，特征值的计算所消耗的时间都是常量；这样只要遍历图像一次，就求得所有子窗口的特征值；

积分图的定义为：

ii (x, y) = \underset{x^{,} \leq x y^{,} \leq y}{Σ} I (x^{,}, y^{,}) - - - (7)

其中I(x'，y')为图像在点(x'，y')处的像素值；

\{\begin{matrix} s (x, y) = s (x, y - 1) + i (x, y) \\ ii (x, y) = ii (x - 1, y) + s (x, y) \end{matrix} - - - (8)

进行2种运算：

(1)任意矩形区域内像素积分；由图像的积分图可方便快速地计算图像中任意矩形内所有像素灰度积分；

(2)特征值计算；矩形特征的特征值是两个不同的矩形区域像素和之差，由(9)式能计算任意矩形特征的特征值；

运用积分图快速计算给定的矩形之所有象素值之和Sum(r)；假设r＝(x，y，w，h)，那么此矩形内部所有元素之和等价于下面积分图中下面这个式子：

Sum(r)＝ii(x+w，y+h)+ii(x-1，y-1)-ii(x+w，y-1)-ii(x-1，y+h) (10)

第二步、根据AdaBoost算法提取最有效的Haar-Like特征，经过多次迭代确定各个弱分类器的权值；

AdaBoost算法同时进行训练分类器和特征选择的工作；AdaBoost算法中的每个弱分类器都与某个特征对应，弱分类器的个数等于矩形特征数；训练过程中从大量的弱分类器中选出一个在当前样本权重分布情况下具有最小分类错误率的弱分类器作为本轮的最优弱分类器，进行T轮训练以后，最终得出T个最具代表性的特征，对应了T个弱分类器，最后根据每个特征的不同权值加权后连接得到一个非常强大的分类器；

令X为训练样本空间，Y＝{0，1}中包含了训练样本可能来自的类别的记号.1代表正的样本点，即人脸样本，0代表负的样本点，即非人脸样本；假设一共有K个矩形特征；w_t,j代表第t轮迭代过程中的第j个样本点所具有的权重；算法的具体实现通常包含下面的4个重要环节：

(1)已知训练样本集X＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}；式中x_i∈X；假定训练集中共包含l个人脸样本点，m个非人类样本点，l+m＝n；

(2)给每个样本点一个起始权重；

(3)对于t＝l，…，T；T为循环次数；

①对样本所具有的权重执行归一化操作；

ϵ_{t, j} = Σ_{t = 1}^{n} w_{t, j} * | h_{t, j (x)} - y_{i} |

其中j＝1,2，…，n (12)

③确定第t轮迭代的最优弱分类器h_t(x)，令k＝argminε_t,j，并将样本集的分类错误率取为ε_t＝ε_t,k；

④根据获得的最优弱分类器修改样本的权重：其中β_t＝ε_t/(1-ε_t)；ei＝0，表示x_i被正确分类，ei＝1表示x_i被错误分类；

(4)最后得到的强分类器为：

式中：

a_{t} = \ln \frac{1}{ϵ_{t}} - - - (13)

第三步、将训练得到的弱分类器进行级联，组成完整的人脸检测系统；

为改善人脸检测的时间性能，利用级联分类器结构：包括多个分层的分类器，通过这样的一种分类器组织方式能使得人脸检测过程随着层数的递增得到更高的精度；

上述的级联分类器的判决过程与经过退化的决策树的判定过程是非常相似的，若第i层将搜索子窗判定为“是”，那么这个可能会包含人脸图像的搜索子窗便会被继续派发到第i+1层分类器，同时诱发第i+1层的分类器进行分类工作，如此逐级检测；这种检测方法首先副除巨量的不包含人脸图像的搜索子窗，从而使得人脸检测的时间性能得打很好的优化；

Adaboost分类器的训练过程包括：

计算光流；采用Horn-Schunck算法进行光流(u,v)的计算；Horn-Schunck算法核心思想是：图像上每一点的光流之间都有联系，光流在整个图像范围内应该是平滑变化的，所以引入了平滑性约束，使平滑约束项极小化；

设平滑性约束项为极小化：

E_{s} = &Integral; &Integral; (u_{x}^{2} + u_{y}^{2} + v_{x}^{2} + v_{y}^{2}) dxdy - - - (14)

结合基本等式，要求极小化：

E_c＝∫∫(I_xu+I_yv+I_t)²dxdy (15)

结合式14和式15可知，最后求得的光流应满足式16：

\min &Integral; &Integral; [(u_{x}^{2} + u_{y}^{2} + v_{x}^{2} + v_{y}^{2}) + λ {(I_{x} u + I_{y} v + I_{t})}^{2}] dxdy - - - (16)

这里λ的取值要考虑噪声情况，噪声较强，则说明图像数据本身具有较低的置信度，这时便需要更多的依赖加入的光流约束，λ取较小的值；反之，若噪声较弱，λ取较大的值；

此时，问题将转化为求解Lagrangian最小化问题；对形如式16的形式变分问题的解释对应Euler方程(17)的解；

min{∫∫F(u,v,u_x,u_y,v_x,v_y)dxdy} (17)

\{\begin{matrix} F_{u} - \frac{{&PartialD; F}_{u_{x}}}{&PartialD; x} - \frac{&PartialD; F_{u_{y}}}{&PartialD; y} = 0 \\ F_{v} - \frac{&PartialD; F_{v_{s}}}{&PartialD; x} - \frac{{&PartialD; F}_{x_{y}}}{&PartialD; y} = 0 \end{matrix} - - - (18)

式(17)中

F = u_{x}^{2} + u_{y}^{2} + v_{x}^{2} + v_{y}^{2} + λ {(I_{x} u + I_{y} v + I_{t})}^{2} - - - (19)

对应的Euler方程为

\{\begin{matrix} {&dtri;}^{2} u = λ I_{x} (I_{x} u + I_{y} v + I_{t}) \\ {&dtri;}^{2} v = λ I_{y} (I_{x} u + I_{y} v + I_{t}) \end{matrix} - - - (20)

其中，▽²是Laplace算子；

实际计算过程中，处理对象为离散化的坐标，相应的，要对式(19)进行离散化处理：

u_{x}^{2} + u_{y}^{2} + v_{x}^{2} + v_{y}^{2}

离散化为

s_{ij} = \frac{1}{4} [{(u_{i + 1, j} - u_{i, j})}^{2} + {(u_{i, j + 1} - u_{i, j})}^{2} + {(v_{i + 1, j} - v_{i, j})}^{2} + {(v_{i, j + 1} - v_{i, j})}^{2}] - - - (21)

(I_xu+I_yv+I_t)²离散化为

c_ij＝(I_xu_ij+I_yv_ij+I_t)² (22)

极小化目标函数为

\min {e = \underset{i}{Σ} \underset{j}{Σ} (s_{ij} + λ c_{ij})} - - - (23)

此时，对其求关于u_kl和v_kl的偏导，并令其为0，有

\{\begin{matrix} (1 + λ I_{x}^{2}) u_{kl} + λ I_{x} I_{y} v_{kl} = {\overset{&OverBar;}{u}}_{kl} - λ I_{x} I_{t} \\ (1 + λ I_{x}^{2}) v_{kl} + λ I_{x} I_{y} u_{kl} = {\overset{&OverBar;}{v}}_{kl} - λ I_{x} I_{t} \end{matrix} - - - (24)

其中，和分别是u_kl和v_kl的四邻域平均，于是得到迭代过程

\{\begin{matrix} u_{kl}^{n + 1} = {\overset{&OverBar;}{u}}_{kl}^{n} - \frac{I_{x} {\overset{&OverBar;}{u}}_{kl}^{n} + I_{y} {\overset{&OverBar;}{v}}_{kl}^{n} + I_{t}}{1 + λ (I_{x}^{2} + I_{y}^{2})} I_{x} \\ v_{kl}^{n + 1} = {\overset{&OverBar;}{v}}_{kl}^{n} - \frac{I_{x} {\overset{&OverBar;}{u}}_{kl}^{n} + I_{y} {\overset{&OverBar;}{v}}_{kl}^{n} + I_{t}}{1 + λ (I_{x}^{2} + I_{y}^{2})} I_{x} \end{matrix} - - - (25)

对I_x，I_y和I_t进行离散化，代入式中求解光流；

如果设定迭代初始值(u⁰,v⁰)＝(0,0)，则

u^{1} = - I_{x} I_{t} / (1 + λ (I_{x}^{2} + I_{y}^{2})) - - - (26)

v^{1} = - I_{y} I_{t} / (1 + λ (I_{x}^{2} + I_{y}^{2})) - - - (27)

根据中性图像，利用Horn-Schunck计算出表情图像中每一点的光流矢量，所有点的光流矢量共同构成这幅表情图像的光流特征；

Horn-Schunck算法计算的是稠密光流的速度场，即，将图像中的每个像素都与速度关联，针对每个像素分别计算光流向量的u和v两个分量；图像Horn-Schunck光流场的获取需要四个步骤：

1)计算像素点的光流分量；计算的依据是Horn-Schunck算法中的光流(u，v)迭代公式，即式25、26、27；

2)设定搜索窗口大小；经过多次设定搜索窗口的大小，通过笑脸识别的结果，得出最合适的窗口大小；

3)计算窗口中的光流特征值；对窗口中含有的像素点的u和v分量进行加法运算，得到该窗口的(u，v)分量，根据计算光流特征值；

4)获取图像的光流特征向量；将所有窗口计算所得的光流特征值串联起来，组成整幅图像的光流特征向量。

7.根据权利要求6所述的视频序列中的笑脸识别系统，其特征在于：

Optical_PHOG特征提取单元包括分层梯度方向直方图PHOG特征提取单元；PHOG特征提取单元用特征向量表达出图像中物体的局部形状以及形状在空间中的布局；该描述子包含了不同分辨率分割下的每个子图像的梯度方向直方图；PHOG特征提取过程中，采用sobel算子计算梯度，角度划分为无方向9通道，金字塔分割操作针对人脸区域图像分割两层，之后对分割得到的21个图像区域进行提取；得到能够表示图像纹理细节的特征向量；

PHOG特征提取流程包括：

(1)嘴部区域提取步骤；

嘴巴定位是在人脸检测之后进行的，并且加入了眼睛的检测；采用基础的图像处理方法进行嘴巴定位；

1)图像截取；根据先验知识，将图像分为上下两部分，在人脸的上半部分检测人眼的位置，然后在人脸的下半部分，结合人眼的竖直坐标定位嘴巴；

2)人眼区域定位；在人脸的上半部分继续根据先验知识进行图像截取，缩小搜索范围，然后进行图像增强、二值化等操作之后，在水平和竖直方向分别进行直方图投影，分别得到左、右眼的位置；

3)嘴巴定位；将左眼中心点的纵坐标作为嘴巴的左边缘，将右眼中心点的纵坐标作为嘴巴的右边缘，再结合先验知识，确定嘴巴的上下坐标，最终确定嘴巴位置。

(2)Hog特征提取步骤；

梯度方向直方图HOG特征提取，对提取对象图像做以下操作：

1)输入图像；采用PHOG特征提取，针对人脸嘴部区域进行，因此，这里的输入图像是数据库的人脸图像进行嘴部区域提取之后的图像，或者经过区域分割之后各层子图像；

2)预处理；HOG特征的提取是对灰度图而言的，所以，首先需要满足灰度图像的条件，对输入图像进行灰度化处理；

3)计算梯度向量；采用Sobel算子来计算梯度向量；

sobel 1 = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}],

sobel 2 = [\begin{matrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}] - - - (28)

若I_x及I_y分别代表经纵向及横向边缘检测的图像，即

I_x＝sobel1*I，I_y＝sobel2*I (29)

则图像的每个像素点的梯度幅值

I = \sqrt{I_{x}^{2} + I_{y}^{2}} - - - (30)

梯度方向

θ＝arctan(I_x/I_y) (31)

创建单元直方图；细胞单元cell中，每一个像素点都将为某个方向的直方图通道做投票；投票通常采取加权的方式，也就是说每一票都带有权值，这个权值由该像素点的梯度函数来计算，采用幅值本身或者其他形式的函数来表示；将单元按照角度域[0,180]或者[0,360]等分成多个通道，根据像素梯度幅值I和梯度方向，投影到对应的直方图通道上；

4)图块内归一化；由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大；这就需要对梯度强度做归一化，采取的办法是：把各个细胞单元组合成大的、空间上连通的区间blocks；利用Block中每个通道的幅值对cell的通道幅值进行归一化处理；Block采用矩形R-HOG形状；

(3)金字塔分割步骤；

所述金字塔是指这样一组栅格对象，它们的分辨率和尺寸是不同的，而且一般其分辨率和尺寸分别呈等比数列形式，建立金字塔的顺序是“自底向上”的，将原始图像，通过多次采样处理，从而得到一组尺寸变小，分辨率变低的图像，形成“金字塔”的一个图像区域组成的序列；显然，不同层次的图像具有不同的尺寸，越接近底层则尺寸越大，包含信息也越多；随着向金字塔上升，每隔一层尺寸都降低，其中的每一块图像区域仅表达了上一层图像区域中1/4的信息；

(4)PHOG特征提取步骤；

Step1.提取人脸嘴部区域；表示从完整的人脸图像中定位嘴巴，并将嘴部区域提取出来；

Step2.金字塔分割；表示对嘴部区域做金字塔分割；

Step3.提取各层子图像HOG特征；表示提取金字塔分割得到的各层子图像的边缘直方图；这里的直方图获得方法是：将图像域[0,360]量化成9个方向，每20°为一个方向通道，针对每个方向的角度范围，统计梯度方向θ处于该范围的像素点的个数；并以各个像素点梯度幅值J的大小作为权重计算每个像素点的贡献；表示在特征向量直方图中，某个柱子的高度代表该柱子对应方向角度范围内所有像素点贡献的总和，柱子的个数代表直方图维数，特征向量长度为9；

Step4.连接所有子图像的HOG特征作为最终提取的嘴部PHOG特征，获取串联后的PHOG特征向量总长度。

8.根据权利要求1所述的视频序列中的笑脸识别系统，其特征在于：

分类识别模块使用分类器进行训练和识别笑脸；在训练和识别中，均要用到特征提取模块得到的特征向量；训练的目的是通过对大量训练样本的特征向量进行机器学习，得到能够最大限度地区分出笑脸和非笑脸的分类器。识别过程是将测试样本通过特征提取模块之后得到的特征向量，送入训练得到的笑脸分类器，通过一系列对比和划分，最终得到测试样本所属的类别；

在分类识别模块采用随机森林的分类方法，其中用到的技术有：Bagging随机选择方法、分类回归树CART算法、Gin i系数最小原则法、袋外估计值等，构建的随机森林为Forests-RI；

随机森林RF是一种联合分类器，每棵决策树都是一个基础分类器，多个决策树共同构成随机森林；决策树在每个节点随机从属性集中选取若干候选属性，根据Gini系数最小原则选择分类属性和阈值；即，每一棵树都依赖于独立抽样，并与森林中所有树具有相同分布的随机向量的值；采用随机森林分类RFC时，每棵树都投票并返回得票最多的类；

决策树与流程图的树结构相类似，其中，每个内部节点都是一个分裂问题，每个分支代表该测试的一个输出，而每个树叶节点存放一个类标号；树的最顶层节点是根节点；

随机森林由两种随机算法共同构建，这两种随机算法分别是装袋法，和基于输入的构建方法；

装袋法Bagging是一个统计重采样的组合技术，利用有放回的随机重采样来生成多个版本的预测器，然后把这些分类器融合，通常情况下，组合的分类器与单一分类器相比，其分类效果更好，原因是在最终解决问题时，结合了所有单独分类器的特点；

利用bagging方法来生成训练集，其具体思想及操作步骤是：原始训练集D中，由于抽取样本的随机性，每个样本未被抽取的概率为(1-1/N)^N，其中N为原始训练集D中的样本个数；当N足够大时，(1-1/N)^N将收敛于1/e≈0.368，也就是说，在原始样本集D中，将会有接近37％的样本在抽样时不会出现在bootstrap的样本中，这些未被抽取的数据称为袋外OOB数据，使用袋外数据来估计模型性能的方法称为OOB估计；由于使用OOB估计和使用相同样本容量的测试集的精度一样，就没有必要再使用测试集；

采用Forests-RI构建随机森林；Forests-RI构建方法是对输入变量进行随机分组，例如，给定d个样本的训练集D，目的是为组合分类器产生k棵决策树，过程如下：首先，对于每次迭代i(i＝1,2,…,k)，使用有放回抽样，由D产生d个样本的训练集D_i，使得某些样本可能在D_i出现多次，而另一些可能不出现；设F是用来在每个节点决定划分的属性数，其中F远小于可用属性数；为了构造决策树分类器M_i，在每个节点随机选择F个属性作为该节点划分的候选属性；树增长到最大规模，并且不剪枝；使用这种方法形成的随机森林称为Forests-RI。

9.一种视频序列中的笑脸识别方法，其特征在于，所述方法包括如下步骤：

(1)预处理步骤；

(2)特征提取步骤；

(3)分类识别步骤；

10.根据权利要求9所述的视频序列中的笑脸识别方法，其特征在于：

训练分类的流程是：

Step 14：将光流特征与PHOG特征串接，得到每个表情图像的Optica l_PHOG特征向量；

笑脸识别的流程是：

Step24：串接提取到的光流特征与PHOG特征，得到待识别表情图像的Opt ica l_PHOG特征向量；