CN100561500C

CN100561500C - 基于受限玻尔兹曼机神经网络的人脸姿态识别方法

Info

Publication number: CN100561500C
Application number: CNB2006101183804A
Authority: CN
Inventors: 杜春华; 杨杰; 张田昊; 吴证; 袁泉
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2006-11-16
Filing date: 2006-11-16
Publication date: 2009-11-18
Anticipated expiration: 2026-11-16
Also published as: CN1952953A

Abstract

一种用受限玻尔兹曼机神经网络进行人脸姿态识别的方法，属于图像识别技术领域。本发明包括如下步骤：(1)对不同姿态的人脸图像训练样本进行预处理操作；(2)初始化受限玻尔兹曼机神经网络；(3)预训练受限玻尔兹曼机神经网络；(4)调整受限玻尔兹曼机神经网络参数；(5)对新的人脸图像进行姿态识别；本发明涉及了人脸检测、模式分类、人脸姿态识别方法可以进一步应用于三维人脸模型重建、三维人脸识别等方面。

Description

基于受限玻尔兹曼机神经网络的人脸姿态识别方法

技术领域

本发明涉及的是一种图像识别技术领域中的方法，具体是一种用受限玻尔兹曼机神经网络进行人脸姿态识别的方法。

背景技术

随着全球安全意识的加强，人类对生物特征识别技术的要求也越来越高，而在众多生物特征识别技术中，人脸识别最具有可行性。但传统的二维人脸识别受到光照、姿态等因素的影响，不能够满足实际应用的要求。因此，从二维人脸识别拓展到三维人脸识别是一个趋势，因为三维空间能够提供更多的信息用于人脸识别。但是这种从二维识别拓展到三维识别也带来了新的问题，即如何估计人脸的姿态以能够为后续的人脸特征点定位、识别提供准确的可用信息。有一些学者对该问题进行了深入的研究，但该难题到目前为止还尚未得到完全解决。

经对现有技术文献的检索发现，Roweis，S.T.等在《Science》(科学)(2000年第290卷第5500期第2323页)发表的“Nonlinear Dimensionality Reduction byLocal linear Embedding”(用局部线性嵌入进行非线性降维)，该文提出了一种非线性降维方法，该方法可以被用于进行姿态识别。如果把人脸看成是高维空间的一个点，在该方法中，通过在原始数据的高维空间中寻找每个点周围K个最近邻并计算它们之间的流行空间的距离来进行分类。但该方法的计算时间与训练样本的个数成二次方关系。最为关键的一点就是：对于一个新的待分类的样本，其不能用已经训练好的流行对其进行降维分类。也就是，该方法仅仅学习了给定数据的潜在的低维结构，它不能利用已经学习好的该低维结构把一个新的高维空间的数据影射到低维空间。这就限制了该方法的应用，因此也不能直接应用到人脸姿态识别中。

发明内容

本发明针对局部线性嵌入方法的缺陷，提出了一种利用受限玻尔兹曼机神经网络进行人脸姿态识别的方法，使其能直接应用到人脸姿态识别中，从而可以提供人脸姿态信息以能够在多角度下进行人脸识别。

本发明是通过以下技术方案实现的，本发明首先利用训练样本对受限玻尔兹曼机神经网络进行预训练学习，得到预训练学习参数，然后再利用梯度下降方法调整整个网络结构的权值参数，得到最终训练好的网络参数。最后对于一个新的待进行姿态识别的人脸图像，把其送入该学习好的神经网络中进行姿态识别分类。

本发明具体包括如下步骤：

(1)对不同姿态的人脸图像训练样本进行预处理操作；

(2)初始化受限玻尔兹曼机神经网络；

(3)预训练受限玻尔兹曼机神经网络；

(4)调整受限玻尔兹曼机神经网络参数；

(5)对新的人脸图像进行姿态识别。

所述的步骤(1)，是指：对于每个人脸图像训练样本，首先从图像中检测到人脸区域，并把其缩放为高为h个像素、宽为w个像素的图像。然后把该缩放后的人脸图像变换为灰度图像，并把该灰度图像上所有像素的灰度值压缩到[0 1]，最后把该灰度图像按照行顺序拉成一个向量，该向量的长度为h×w。

所述的步骤(2)，是指：设定该神经网络有3层。每一层的结点数分别为500，500，2000。类别个数为C＝9，预训练的次数为Pt＝50，调整参数的次数为Pc＝30。由网络层数和每层结点的个数就可以得到网络结构，同时产生[0 1]之间的随机数作为网络结点之间连接权值。

所述的步骤(3)，是指：对于整个网络中第一层受限玻尔兹曼机，其可视层的结点对应于步骤(1)中向量中的每一个值，然后训练该受限玻尔兹曼机可视层结点与隐层结点之间的权值参数，共训练Pt次。然后再以第一层受限玻尔兹曼机隐层作为第二层受限玻尔兹曼机可视层，同样训练该受限玻尔兹曼机可视层结点与隐层结点之间的权值参数，也训练Pt次。依此类推，即上一层受限玻尔兹曼机的隐层作为下一层受限玻尔兹曼机的可视层以训练下一层受限玻尔兹曼机。这样就完成了整个网络的预训练，同时也得到了预训练好的各层受限玻尔兹曼机的参数。

所述的步骤(4)，是指：以重建误差最小为准则利用梯度下降法反向传播调整神经网络的参数，该步骤共执行Pc次。这样便完成了网络参数的调整，也得到了网络的最终权值参数。

所述的步骤(5)，是指：对于一幅新的待进行姿态识别的人脸图像，先检测到人脸区域并缩放到高为h，宽为w的图像，并把该缩放的图像变换为灰度图像，并把图像上所有像素的灰度值压缩到[0 1]，接着把该图像按照行顺序拉成一个向量，该向量的长度为h×w。最后把该向量送入已经训练好的神经网络即可得到该人脸图像的姿态。

本发明提出的人脸姿态识别方法具有非常高的精度。用拍摄的人脸库做测试，其识别错误率为2.5％。与其他姿态识别方法相比，该方法的错误率大大降低。而且该方法计算速度非常快，且易于实现。

附图说明

图1为同一个人的9个不同的姿态示意图

图a、b、c、d、e、f、g、h、i表示的人脸图像的姿态分别为-90°、-60°、-45°、-30°、0°、30°、45°、60°、90°。

图2为姿态识别的结果。

图中：角度为-60°。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体过程，但本发明的保护范围不限于下述的实施例。

本实施例整个实现过程如下：

1.在人脸库(该人脸库包含有2270个人的不同姿态的人脸图像。每个人包含9个姿态的人脸图像，如图1所示，图a、b、c、d、e、f、g、h、i这9个人脸图像的姿态分别为-90°、-60°、-45°、-30°、0°、30°、45°、60°、90°。这样就可以把人脸库中的图像按照其不同的姿态分为9类，每一类有2270个图像，每一类中的图像具有相同的姿态。)图像中检测到人脸区域，并把其缩放为高为25个像素，宽为25个像素的图像，然后把该缩放后的人脸图像变换为灰度图像，并把该灰度图像上所有像素的灰度值压缩到[0 1]，最后把该灰度图像按照行顺序拉成一个向量，该向量的长度为625。

2.设定该神经网络有3层。每一层的结点数分别为500，500，2000。类别个数为9，预训练的次数为50，调整参数的次数为30。由网络层数和每层结点的个数就可以得到网络结构，同时产生[0 1]之间的随机数作为网络结点之间连接权值。

3.对于整个网络中第一层受限玻尔兹曼机，其可视层的结点对应于步骤(1)中向量中的每一个值，然后训练该受限玻尔兹曼机可视层的625个结点与隐层的500个结点之间的权值参数，共训练50次。然后再以第一层受限玻尔兹曼机隐层作为第二层受限玻尔兹曼机可视层，同样训练该受限玻尔兹曼机可视层的500个结点与隐层的500个结点之间的权值参数，也训练50次。依此类推，即上一层受限玻尔兹曼机的隐层作为下一层受限玻尔兹曼机的可视层以训练下一层受限玻尔兹曼机。这样就完成了整个网络的预训练，同时也得到了预训练好的各层受限玻尔兹曼机的参数。

4.以重建误差最小为准则利用梯度下降法反向传播调整神经网络的参数，该步骤共执行30次。这样便完成了网络参数的调整，也得到了网络的最终权值参数。

5.对于一幅新的待进行姿态识别的人脸图像，先检测到人脸区域并缩放到高为25个像素，宽为25个像素的图像，并把该缩放的图像变换为灰度图像，并把图像上所有像素的灰度值压缩到[0 1]，接着把该图像按照行顺序拉成一个向量，该向量的长度为625。最后把该向量送入已经训练好的神经网络即可得到该人脸图像的姿态，如图2所示，该待进行姿态识别的图像为一幅-60°的人脸图像，用本发明的方法可以正确地识别出该人脸图像的姿态。

从以上可以看出，本实施例提出的涉及了人脸检测、模式分类的人脸姿态识别方法可以进一步应用于三维人脸模型重建、三维人脸识别等方面，其具非常高的精度。

Claims

1.一种基于受限玻尔兹曼机神经网络的人脸姿态识别方法，其特征在于，包括如下步骤：

(1)对不同姿态的人脸图像训练样本进行预处理操作，

(2)初始化受限玻尔兹曼机神经网络，

(3)预训练受限玻尔兹曼机神经网络，

(4)调整受限玻尔兹曼机神经网络参数，

(5)对新的人脸图像进行姿态识别，

所述的步骤(3)，是指：对于整个网络中第一层受限玻尔兹曼机，其可视层的结点对应于步骤(1)中向量中的每一个值，然后训练该受限玻尔兹曼机可视层结点与隐层结点之间的权值参数，共训练Pt次；然后再以第一层受限玻尔兹曼机隐层作为第二层受限玻尔兹曼机可视层，同样训练该受限玻尔兹曼机可视层结点与隐层结点之间的权值参数，也训练Pt次；依此类推，即上一层受限玻尔兹曼机的隐层作为下一层受限玻尔兹曼机的可视层以训练下一层受限玻尔兹曼机，这样就完成了整个网络的预训练，同时也得到了预训练好的各层受限玻尔兹曼机的参数。

2.根据权利要求1所述的基于受限玻尔兹曼机神经网络的人脸姿态识别方法，其特征是，所述的步骤(1)，是指：对于每个人脸图像训练样本，首先从图像中检测到人脸区域，并把其缩放为高为h个像素、宽为w个像素的图像，然后把该缩放后的人脸图像变换为灰度图像，并把该灰度图像上所有像素的灰度值压缩到[0 1]，最后把该灰度图像按照行顺序拉成一个向量，该向量的长度为h×w。

3.根据权利要求1所述的基于受限玻尔兹曼机神经网络的人脸姿态识别方法，其特征是，所述的步骤(2)，是指：设定该神经网络有3层，每一层的结点数分别为500，500，2000个，类别个数为C＝9个，预训练的次数为Pt＝50次，调整参数的次数为Pc＝30次，由网络层数和每层结点的个数得到网络结构，同时产生[0 1]之间的随机数作为网络结点之间连接权值。

4.根据权利要求1所述的基于受限玻尔兹曼机神经网络的人脸姿态识别方法，其特征是，所述的步骤(4)，是指：以重建误差最小为准则利用梯度下降法反向传播调整神经网络的参数，该步骤共执行Pc次，这样便完成了网络参数的调整，也得到了网络的最终权值参数。

5.根据权利要求1所述的基于受限玻尔兹曼机神经网络的人脸姿态识别方法，其特征是，所述的步骤(5)，是指：对于一幅新的待进行姿态识别的人脸图像，先检测到人脸区域并缩放到高为h个像素、宽为w个像素的图像，并把该缩放的图像变换为灰度图像，并把图像上所有像素的灰度值压缩到[0 1]，接着把该图像按照行顺序拉成一个向量，该向量的长度为h×w，最后把该向量送入已经训练好的神经网络即得到该人脸图像的姿态。