CN105069400B

CN105069400B - 基于栈式稀疏自编码的人脸图像性别识别系统

Info

Publication number: CN105069400B
Application number: CN201510420256.2A
Authority: CN
Inventors: 朱青; 张�浩; 贾晓琪
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-07-16
Filing date: 2015-07-16
Publication date: 2018-05-25
Anticipated expiration: 2035-07-16
Also published as: CN105069400A

Abstract

本发明涉及一种基于栈式稀疏自编码的人脸图像性别识别方法，属于图像识别、机器学习、计算机视觉领域。其中训练过程包括对人脸标准库FERET和CAS‑PEAL‑R1中的图像灰度化、直方图均衡化、几何校正、图像归一化、训练稀疏自编码模型、逻辑回归分类器训练、微调模型、模型融合，预测过程包括摄像头捕获自然场景图像、图像灰度化、直方图均衡化、人脸检测、几何矫正、图像归一化、利用栈式稀疏自编码模型预测、结果标注。本发明采用栈式稀疏自编码模型来处理人脸性别识别问题，可以逐层地学习到图像的组合特征，对原始信号有更好抽象表示，发明同时利用微调对隐藏单元所提取的特征做进一步调整，获得更高的识别准确率。

Description

基于栈式稀疏自编码的人脸图像性别识别系统

技术领域

本发明涉及一种人脸图像性别识别系统，具体涉及一种人脸性别识别系统，属于图像识别、机器学习、计算机视觉领域。

背景技术

随着计算机科学技术的发展，计算机从计算向智能机器方向发展，数字化、网络化和智能化已经成为信息领域的发展方向。在此基础上，生物特征识别技术得到了迅速的发展。常用的生物特征有：人脸、指纹、手型、虹膜、语音等。

人脸是人类最重要的生物特征之一，在辨别身份和传递感情方面起着主要的作用。人脸图像蕴含了大量的信息，如身份、性别、年龄、人种、表情等。借助计算机的图像处理手段分析人脸中蕴含的生理特征，从而对人的特点进行估计已经成为一种可能。在人机交互、图像及视频检索、人口信息采集与统计、身份认证识别等领域有着广泛应用。

性别识别的研究与应用具有重大的意义，但还没有引起人们足够的重视，对人脸性别识别的研究还相对较少。目前已有的技术主要包括1)利用人脸图像的五官位置，纹理特征，如两眼之间宽度、鼻高、脸部纹理粗糙程度等进行性别识别；2)基于融合人脸整体特征和局部特征的方法进行性别识别；3)利用2D-Gabor小波变换进行人脸特征提取，将变换系统幅值作为特征向量，利用支持向量机进行性别识别。这些方法从提取图像特征的角度出发，取得了一定的识别效果。但是，这些技术都是手工提取特征(比如HOG、SIFT、小波特征、LBP等特征)，提取哪些特征，主要依靠人的先验知识。此外，前人所做的性别识别工作的分类器主要是浅层模型(一般地，隐层节点数小于等于2，成为浅层模型)，没有特征学习过程，不能学习到组合特征，导致识别率再次提升成为瓶颈。

发明内容

本发明采用栈式稀疏自编码模型来处理人脸性别识别问题，该模型可以通过贪婪地、逐层地训练稀疏自编码模型，构建栈式稀疏自编码模型，从而构建模型，该模型可以逐层地学习到图像的组合特征，对原始信号有更加抽象的表示。

稀疏自编码模型，包含输入层，隐层和输出层，该模型尝试学习一个h_W,b(x)≈x的函数。换句话说，它尝试逼近一个恒等函数，从而使得该模型的输出层h_W,b(x)接近于输入层x。其中，隐层可以看作是输入层的抽象表示。

稀疏自编码模型的编码公式：

z⁽²⁾＝W⁽¹⁾X+b⁽¹⁾

a⁽²⁾＝f(z⁽²⁾)

稀疏自编码模型的解码公式：

z⁽³⁾＝W⁽²⁾a⁽²⁾+b⁽²⁾

h_w，b(x)＝a⁽³⁾＝f(z⁽³⁾)

该模型中，包含如下参数：输入层-隐层权重矩阵W⁽¹⁾，输入层偏置向量b⁽¹⁾，隐层-输出层权重矩阵W⁽²⁾，隐层偏置向量b⁽²⁾。

本发明使用的人脸数据库，介绍如下：

(1)FERET人脸库：该人脸库包含1351张人脸正脸灰度图像，采集自139名西方人，其中男性108人，女性85人，每人7张。

(2)CAS-PEAL-R1人脸库：该人脸库包含1040张人脸正脸彩色图像，采集自208名中国人，其中男性119人，女性89人，每人5张。

本发明在FERET和CAS-PEAL-R1人脸数据库上，分别训练具有三个隐层的栈式稀疏自编码模型(FERET：6400-1000-500-100-2；CAS-PEAL-R1：10000-1000-500-100-2；第一层是输入层，中间三层为隐层，最后是输出层，男性或女性)。各阶段过程步骤如下：

训练过程具体步骤：

步骤1，训练样本数据准备。选用人脸标准库FERET和CAS-PEAL-R1中的图像作为训练样本数据。

步骤2a，人脸检测。对选用的人脸标准库图像进行灰度化，直方图均衡化，然后使用类Haar特征与Adaboost算法进行人脸检测，若检测到人脸图像，则记录相应区域坐标，用于获取人脸区域图像。

灰度化：输入图像是RGB三通道彩色图像，用加权平均法将图像转换为仅有灰色单通道的灰度图像。转换公式如下：

Gary_i，j＝0.299R_i，j+0.587G_i，j+0.114B_i，j

其中，R_i,j，G_i,j，B_i,j分别表示图像红、绿、蓝三个通道i,j位置的图像值；Gary_i,j表示变换后图像i,j位置的灰度值。

直方图均衡化：通过使用累积函数对灰度值进行调整，从而扩大前景和背景灰度的差别，增强对比度。直方图均衡化将图像上的灰度级分离的更开，这样在人脸检测算法中，才能更好的识别出人脸区域；

人脸检测：人脸检测过程使用类Haar特征与Adaboost算法。对于输入的人脸图像，若检测到人脸，则记录人脸区域所在坐标，根据坐标裁剪获得仅包含人脸的图像(去掉颈部、头发部位)。

步骤2b，对裁剪获得的人脸图像进行几何校正，修正人脸倾斜、歪头等变形区域。本发明利用直接外观模型(Direct Appearance Model，以下简称DAM)算法，定位人脸中的两个眼睛中心和一个嘴巴中心，以三点所构成三角形的中心为旋转中心，再进行旋转调整。再进行图像归一化，将像素取值范围由0-255归一化至0-1区间。转换公式如下：

其中，x表示图像中所有像素值组成的集合；x_i表示图像中位置i的像素值；表示归一化后的位置i的像素值；x_min，x_max分别表示集合i中的最小值和最大值。

然后，将图像下一行的向量拼接在上一行向量后面，由此可将二维图像的像素值所成组成的二维向量拉成一维向量。

步骤3a，特征学习。建立栈式稀疏自编码模型，用该模型来学习人脸性别特征。最后，学习得到的特征是m×h_l的矩阵(其中，m表示样本数，h_l表示最后一层网络中隐层神经元的数量)。

我们用L-BFGS优化算法，对每层的自编码模型分别进行400次迭代，训练好隐层神经元个数分别为1000、500、100的三个自编码模型后，去掉它们的输出层，将前一层网络隐层的输出值作为后面一层网络的输入值，组成含有三个隐层(1000-500-100)的栈式稀疏自编码模型。

步骤3b，性别分类器训练。将所述步骤3a中得到的特征(m×h_l的矩阵)，输入性别分类器进行训练。本发明使用Logistic Regression作为性别分类器，训练该分类器使用随机梯度下降法(Stochastic Gradient Descent，以下简称SGD)。分类器输入是m×h_l的矩阵，输出值是m×c的矩阵。其中，m表示样本数，h_l表示特征的维数，也就是最后一层网络中隐层神经元的数量，c表示所需分类的数量(男性、女性两类)。对于输出值(m×c的矩阵)，每一行表示一个样本，每列表示预测性别的概率，即第一列表示预测为男性的概率，第二列表示预测为女性的概率。选取其中概率最大的类别作为分类结果。

步骤3c，微调栈式稀疏自编码模型。构建一个与该栈式稀疏自编码模型网络结构相同的神经网络模型。将“神经网络”模型中每层的权重矩阵和偏置项的初始值分别设置为栈式稀疏自编码模型中每层的输入层-隐层权重矩阵和输入层偏置向量，再加上样本对应的性别标签信息，利用误差反向传播(Error Back Propagation,以下简称BP)算法，再次训练神经网络模型，再一次更新权重矩阵和偏置项。

图4表示微调步骤权重矩阵初始化与偏置向量示意图。设W^(l)*，b^(l)*为栈式稀疏自编码模型第l层训练收敛后权重矩阵和偏置向量。(x_i,y_i)表示第i个训练样本，其中x_i是将预处理后的图像拉伸成的长向量，y_i表示第i个训练样本相对应的性别标签。将W^(l)*，b^(l)*分别初始化为神经网络模型第l层的权重矩阵和偏置项，将图像预处理后拉伸成的长向量x_i作为输入值，人脸性别标签y_i作为得到的输出值。利用BP算法可以训练所述神经网络模型，直至网络收敛。

神经网络模型非线性变换如下：

z^(l+1)＝W^(l)*a^(l)+b^(l)*

a^(l+1)＝f(z^(l+1))

其中，l表示第l层网络的参数，当l＝1时，需要使得神经网络模型经过非线性变换后，输出层的输出值与标签y_i尽可能相等。因此，可以利用最小均方误差构造损失函数，如下表示：

同理，利用梯度下降法可以极小化上式，求解W，b，得到“微调”的模型参数。

使用k步交叉验证方法分别对微调前后的模型识别效果进行评估。

步骤4，分别生成模型M1和M2。我们将步骤3a-3c中，每层网络的输入-隐层权重矩阵、输入层偏置向量、学习率、稀疏性参数等保存至二进制文件。FERER和CAS-PEAL-R1两个人脸库标准库被分别训练后，会得到两个模型M1和M2，用于后续的预测过程。本发明将两个模型的决策结果进行加权平均。

两个模型M1和M2的权重计算方法如下：

w₁＝acc₁/(acc₁+acc₂)，w₂＝acc₂/(acc₁+acc₂)

模型综合判断为男性的概率：

模型综合判断为女性的概率：

其中，acc₁，acc₂分别表示CAS-PEAL-R1和FERET经过微调后的识别率；表示CAS-PEAL-R1人脸库中图像分别识别为男性和女性的概率，即表示FERET人脸库中图像分别识别为男性和女性的概率，即分别表示模型综合判断男性和女性的概率。

取和两个其中概率较大的，作为模型综合判断的结果。即，若则识别为男性，反之，识别为女性。

预测过程具体步骤：

步骤1’，通过摄像头捕获自然场景图像。

步骤2’，人脸检测与图像预处理。如训练过程步骤2a和步骤2b所详述。对自然场景图像进行灰度化，直方图均衡化，然后对其进行人脸检测，记录相应区域人脸所在位置坐标，再对检测到的人脸区域进行人脸几何校正、图像归一化预处理工作，将预处理后的图像，拉成一个长向量。

步骤3’，根据训练过程所生成模型M1和M2分别进行预测。将步骤2’得到的长向量作为训练过程得到的模型M1和M2的输入，分别在模型M1和M2中进行一层一层的特征学习，步骤同3a，得到自然场景图像中人脸的性别特征。

步骤4’，将所述步骤3’中得到的性别特征输入性别分类器，步骤同3b，根据性别分类器的综合决策结果与人脸检测过程中检测到的人脸所在位置坐标，在原图中进行标记。

本发明使用深度学习模型，特征提取是一层层的隐层学习得到的，可以学习到组合特征。组合特征更具有泛化能力，识别准确率相比于浅层模型(相比深度模型而言，一般地，隐层层数小于等于2，称为浅层模型)，有显著的提高。深度学习模型的特征提取与分类器训练是一个整体的过程，特征是学习得到的，可以通过低阶特征(比如，靠近输入层的隐层单元学习到边缘特征)学习得到高阶特征组合特征(比如，靠近输出层的隐层单元学习到区域局部面部特征)，从而，能够学习更高级的组合特征。本发明融合CAS-PEAL-R1和FERET两个模型的训练结果进行综合判别，决策结果更稳定，识别准确率更高。

附图说明

图1是本发明人脸性别识别系统流程示意图。

图2是FERET(左)和CAS-PEAL-R1(右)特征学习可视化(w^(l))。

图3是人脸性别识别系统界面与识别结果。

图4是微调过程权重矩阵与偏置向量初始化示意图。

具体实施方式

训练过程具体步骤：

灰度化：输入图像是RGB三通道彩色图像，将图像转换为仅有灰色单通道的灰度图像。转换公式如下：

Gary_i，j＝0.299R_i，j+0.587G_i，j+0.114B_i，j

人脸检测：人脸检测过程使用类Haar特征与Adaboost算法。对于输入的人脸图像，若检测到人脸，则记录人脸区域所在坐标，根据座标裁剪获得仅包含人脸的图像(去掉颈部、头发部位)。

步骤2b，对裁剪获得的人脸图像进行几何校正，修正人脸倾斜、歪头等变形区域。本发明利用DAM算法，定位人脸中的两个眼睛中心和一个嘴巴中心，以三点所构成三角形的中心为旋转中心，再进行相应的、适当的旋转。再进行图像归一化，将像素取值范围由0-255归一化至0-1区间。转换公式如下：

预处理工作后，CAS-PEAL-R1库中每张人脸图像的大小为80*80，其像素值在0-1之间，将每张人脸图像拉伸成长度为6400维的向量，可以组成1351×6400的矩阵；FERET库中每张人脸图像的大小为100*100，其像素值在0-1之间，将每张人脸图像拉伸成长度为10000维的向量，可以组成1040×10000的矩阵。得到的矩阵作为第一层网络的输入值。

步骤3a稀疏自编码模型尝试学习一个h_W，b(x)≈x的函数。换句话说，它尝试逼近一个恒等函数，从而使得所述稀疏自编码模型的输出层h_W，b(x)接近于输入层x。

栈式稀疏自编码模型的编码公式：

z⁽²⁾＝W⁽¹⁾X+b⁽¹⁾

a⁽²⁾＝f(z⁽²⁾)

栈式稀疏自编码模型的解码公式：

z⁽³⁾＝W⁽²⁾a⁽²⁾+b⁽²⁾

h_W，b(x)＝a⁽³⁾＝f(z⁽³⁾)

其损失函数可以表示为：

其中，上式第一项是最小二乘损失函数，第二项是正则项(防止模型过拟合)，第三项是稀疏项(使得隐层中只有一小部分神经元处于激活状态，其余神经元均处于未激活状态)；n是可视层神经元个数，m是样本个数，ρ是稀疏性参数，通常是一个接近于0的较小的值。是一个以ρ为均值和一个以为均值的两个伯努利随机变量之间的相对熵，β控制稀疏性惩罚因子的权重。

我们利用梯度下降法可以极小化损失函数，使得重构误差最小，从而求解W,b，如下式所示：

步骤3a是无监督的学习过程，根据自编码模型的损失函数，固定隐层的神经元数量，使得网络输出值尽可能与输入相等，而从训练一层的自编码模型。自编码模型收敛后，去掉输出层，将隐层的输出值作为原始信号的特征。同理，我们利用前一层学习得来的特征作为下一层自编码模型的输入，训练第二层网络。以此类推，我们可以建立栈式稀疏自编码模型，用该网络来学习人脸性别特征。最后，学习得到的特征是m×h_l的矩阵(其中，m表示样本数，h_l表示最后一层网络中隐层神经元的数量)。

我们用L-BFGS优化算法对损失函数极小化，对自编码模型的每层分别进行400次迭代，训练隐层神经元个数分别为1000、500、100的三个自编码模型后，去掉它们的输出层，将前一层网络隐层的输出值作为后面一层网络的输入值，组成含有三个隐层(1000-500-100)的栈式稀疏自编码模型。训练过程中，FERET耗时55分钟，CAS-PEAL-R1耗时74分钟。

栈式稀疏自编码模型可以在浅层网络中学习到低阶特征，经过自编码模型一层层学习，可以通过低阶的特征学习得到高阶的特征，得到组合特征，对原始信号有更抽象的特征表示。比如，低阶特征学习到人脸边缘；中阶特征通过人脸边缘可以组合学习到人脸大致的形状；高阶特征通过组合的形状可以学习到人脸的局域特征。图2是FERET(左)和CAS-PEAL-R1(右)特征可视化的结果。

网络中具体参数设置如下：各个隐藏层的学习率是0.01，正则项系数λ＝3×10^-3，稀疏项系数β＝3，稀疏性参数ρ＝0.1。每层的权重矩阵(W^(l))初始值服从[0,1]均匀分布，偏置项(b^(l))初始值设为0。

步骤3b，性别分类器训练。步骤3b使用Logistic Regression作为二值分类器，训练Logistic Regression分类器使用SGD算法。

分界面函数：

p(y＝0|x，θ)＝1-p(y＝1|x，θ)

将所述步骤3a中学习得到的特征(m×h_l的矩阵)和标签向量(m×1)(每行对应样本的性别标签，男为1，女为0)，输入Logistic Regression分类器中，对其进行训练。我们利用SGD优化算法对损失函数极小化，经过400次迭代，训练过程收敛，保存权重矩阵θ。经过分界面函数，可分别计算每个样本分别判别为男性和女性的概率，取其中较大的概率所在类别作为分类结果。

步骤3c，微调栈式稀疏自编码模型。构建一个与栈式稀疏自编码模型网络结构相同的神经网络模型。将神经网络模型中每层的权重矩阵和偏置项的初始值分别设置为栈式稀疏自编码模型中每层的输入-隐层权重矩阵和输入层偏置向量，再加上样本对应的性别标签信息，利用BP算法，再次训练神经网络模型，再一次更新权重矩阵和偏置项。

设W^(l)*，b^(l)*为栈式稀疏自编码模型第l层训练收敛后的权重矩阵和偏置向量。(x_i,y_i)表示第i个训练样本，其中x_i是将预处理后的图像拉伸成的长向量，y_i表示第i个训练样本相对应的性别标签。将W^(l)*，b^(l)*分别初始化为神经网络模型第l层的权重矩阵和偏置项，将图像预处理后拉伸成的长向量x_i作为输入值，人脸性别标签y_i作为得到的输出值。利用BP算法可以训练该神经网络模型，直至网络收敛。

神经网络模型非线性变换如下：

z^(l+1)＝W^(l)*a^(l)+b^(l)*

a^(l+1)＝f(z^(l+1))

其中，l表示第l层网络的参数，当l＝1时，需要使得神经网络模型经过非线性变换后，输出层的输出值与标签y_i尽可能相等。因此，损失函数可以如下表示：

在梯度更新时，选用SGD优化算法来极小化损失函数，经过400次迭代，微调过程收敛，保存每层(l＝1,2,…n)的权重矩阵W^(l)*和偏置向量b^(l)*。

使用k(k＝10)步交叉验证方法分别对微调前后的模型识别效果进行评估(对训练数据均分10等份，每次训练使用9份数据，测试使用1份数据，实验重复10次，计算模型识别平均准确率)。微调网络后，FERET和CAS-PEAL-R1的平均准确率分别为88.296％和90.020％，取得不错的性别分类效果。实验结果如表1所示，经过微调后的栈式稀疏自编码模型相比微调前，特征表示更具有泛化性，识别率更高。

表1栈式稀疏自编码模型“微调”前后的性别识别的平均准确率

步骤4，生成模型M1和M2。我们将步骤3a-3c中，每层网络的“输入-隐层”权重矩阵、输入层偏置向量、学习率、稀疏性参数等保存至二进制文件。FERER和CAS-PEAL-R1两个人脸标准库被分别训练后，会得到两个模型M1和M2，用于后续的预测过程。本发明将两个模型的决策结果进行加权平均。

两个模型M1和M2的权重计算方法如下：

w₁＝acc₁/(acc₁+acc₂)，w₂＝acc₂/(acc₁+acc₂)

模型综合判断为男性的概率：

模型综合判断为女性的概率：

其中，acc₁＝0.90020，acc₂＝0.88296分别表示CAS-PEAL-R1和FERET经过微调后的识别率；表示CAS-PEAL-R1人脸库中图像分别识别为男性和女性的概率，即表示FERET人脸库中图像分别识别为男性和女性的概率，即分别表示模型综合判断男性和女性的概率。

预测过程具体步骤：

步骤1’，摄像头捕获图像。通过OpenCV提供的API(VideoCapture函数)，外置摄像头捕获自然场景图像；

步骤2’，人脸检测与图像预处理。如训练过程步骤2a和步骤2b所详述。对自然场景图像进行灰度化，直方图均衡化，然后对其进行人脸检测，记录人脸所在位置坐标，再对检测到的人脸区域进行人脸几何校正、图像归一化预处理工作，将预处理后的图像，拉成一个长向量。

步骤3’，根据训练过程所生成深度模型M1和M2进行预测。将步骤2’得到的长向量分别作为训练过程得到的深度模型M1和M2的输入值，分别在深度模型M1和M2中进行一层一层的特征学习，步骤同3a，得到自然场景图像中人脸的性别特征。

步骤4’，将所述步骤3’中得到的性别特征输入性别分类器，步骤同3b，根据性别分类器的综合决策结果与人脸检测过程中检测到的人脸所在位置坐标，在摄像头捕获的当前帧中进行标记。若该区域预测结果为男性，则用黑色矩形框标记；否则，用白色矩形框标记。图3是人脸性别识别系统识别结果截图。其中，黑色矩形框表示识别结果为男性，白色矩形框表示识别结果为女性。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于栈式稀疏自编码的人脸图像性别识别系统，其特征在于，包含以下步骤：

首先为训练过程，包括：

步骤1，选用人脸标准库FERET和CAS-PEAL-R1中的图像作为训练样本数据；

步骤2a，用转换公式：Gary_i,j＝0.299R_i,j+0.587G_i,j+0.114B_i,j对选用的人脸标准库图像进行灰度化，直方图均衡化，然后用类Haar特征与Adaboost算法进行人脸检测，记录检测到的人脸图像区域坐标；

步骤2b，利用直接外观模型DAM算法对获得的人脸图像进行定位和几何校正，利用转换公式进行图像归一化，将像素取值范围由0-255归一化至0-1区间，所述转换公式中，x表示图像中所有像素值组成的集合；x_i表示图像中位置i的像素值；表示归一化后的位置i的像素值；x_min，x_max分别表示集合i中的最小值和最大值；

将图像的像素值中下一行的向量拼接在上一行向量后面，将所述图像的像素值组成的二维向量拉成一维向量；

步骤3a，建立栈式稀疏自编码模型，用该模型来学习人脸性别特征，学习得到的特征是m×h_l的矩阵，其中，m表示样本数，h_l表示最后一层网络中隐层神经元的数量；

用L-BFGS优化算法，对自编码模型的每层依次进行训练，分别进行400次迭代，训练好隐层神经元个数分别为1000、500、100的三个自编码模型后，去掉它们的输出层，将前一层网络隐层的输出值作为后面一层网络的输入值，组成含有三个隐层的栈式稀疏自编码模型；

步骤3b，将得到的性别特征m×h_l矩阵作为输入，以LogisticRegression作为性别分类器，用随机梯度下降法(SGD)进行训练；

步骤3c，构建一个与该栈式稀疏自编码模型网络结构相同的神经网络模型；

步骤4，将步骤3a-3c中每层网络的输入，即隐层权重矩阵、输入层偏置向量、学习率、稀疏性参数保存至二进制文件，将FERER和CAS-PEAL-R1两个人脸标准库训练后得到两个模型分别为M1和M2的决策结果进行加权平均；

其次为预测过程，包括：

步骤1’，通过摄像头捕获自然场景图像；

步骤2’，如所述训练过程步骤2a和步骤2b中，对自然场景图像进行灰度化，直方图均衡化，然后对其进行人脸检测，记录相应区域人脸所在位置坐标，再对检测到的人脸区域进行人脸几何校正、图像归一化预处理，将预处理后的图像，拉伸成一个长向量；

步骤3’，根据所述训练过程所生成模型M1和M2分别进行预测，将步骤2’得到的长向量作为训练过程得到的模型M1和M2的输入，分别在模型M1和M2中进行一层一层的特征学习，步骤同3a，得到自然场景图像中人脸的性别特征；

步骤4’，将所述步骤3’中得到的性别特征输入性别分类器Logistic Regression，步骤同3b，根据所述性别分类器的综合决策结果与人脸检测过程中检测到的人脸所在位置坐标，在原图中进行标记。

2.根据权利要求1所述基于栈式稀疏自编码的人脸图像性别识别系统，其特征是，步骤3b中所述训练包括，分类器输入是m×h_l的矩阵，输出是m×c的矩阵，其中，m表示样本数，h_l表示特征的维数，也就是最后一层网络中隐层神经元的数量，c表示所需的分类数量，分类为男性、女性两类，对于输出的矩阵，每一行表示一个样本，每列表示预测性别的概率，即第一列表示预测为男性的概率，第二列表示预测为女性的概率，选取其中概率最大的类别作为分类结果。

3.根据权利要求1所述基于栈式稀疏自编码的人脸图像性别识别系统，其特征是，步骤3c中所述构建一个与该栈式稀疏自编码模型网络结构相同的神经网络的方法为，将神经网络模型中每层的权重矩阵和偏置项的初始值分别设置为栈式稀疏自编码模型中每层的输入层-隐层权重矩阵和输入层偏置向量，再加上样本对应的性别标签信息，利用BP算法，再次训练神经网络再一次更新权重矩阵和偏置项；

设W^(l)*和b^(l)*为栈式稀疏自编码模型第l层训练收敛后权重矩阵和偏置向量，(x_i,y_i)表示第i个训练样本，其中x_i是将预处理后的图像拉伸成的长向量，y_i表示第i个训练样本相对应的性别标签；将W^(l)*，b^(l)*分别初始化为神经网络模型第l层的权重矩阵和偏置项，将图像预处理后拉伸成的长向量x_i作为输入值，人脸性别标签y_i作为得到的输出值，利用BP算法可以训练该神经网络模型，直至网络收敛；

神经网络非线性变换如下：

z^(l+1)＝W^(l)*a^(l)+b^(l)*

a^(l+1)＝f(z^(l+1))

其中，l表示第l层网络，当l＝1时，需要使得神经网络经过非线性变换后，输出层的输出值与标签y_i尽可能相等，因此，可以利用最小均方误差构造损失函数，如下表示：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>W</mi> <mo>,</mo> <mi>b</mi> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msup> <mi>f</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow>

同理，利用梯度下降法可以极小化上式，求解W和b，得到“微调”的模型参数；

4.根据权利要求1所述基于栈式稀疏自编码的人脸图像性别识别系统，其特征是，步骤4中对FERER和CAS-PEAL-R1两个人脸标准库训练后得到两个模型M1和M2的决策结果进行加权平均的方法包括，

计算两个模型M1和M2的权重：

w₁＝acc₁/(acc₁+acc₂),w₂＝acc₂/(acc₁+acc₂)

模型综合判断为男性的概率：

模型综合判断为女性的概率：

其中，acc₁，acc₂分别表示CAS-PEAL-R1和FERET经过微调后的识别率；表示CAS-PEAL-R1人脸库中图像分别识别为男性和女性的概率，即表示FERET人脸库中图像分别识别为男性和女性的概率，即分别表示模型综合判断男性和女性的概率；

取和两个其中概率较大的，作为模型综合判断的结果；即，若则识别为男性，反之，识别为女性。