CN111160161B

CN111160161B - 一种基于噪声剔除的自步学习人脸年龄估计方法

Info

Publication number: CN111160161B
Application number: CN201911308841.8A
Authority: CN
Inventors: 潘力立; 艾仕杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-03-15
Anticipated expiration: 2039-12-18
Also published as: CN111160161A

Abstract

该发明公开了一种基于噪声剔除的自步学习人脸年龄估计方法，属于计算机视觉和机器学习领域。由于人脸图像经常带有姿势、照明、表情、遮挡和错位等变化，将人脸图片划分为简单图片(预测年龄与实际年龄之间的绝对误差小)和困难图片(预测年龄与实际年龄之间的绝对误差大)，并在自步学习框架下，采取“从简单图片到困难图片”的策略去训练深度回归网络来建立人脸面部特征与目标年龄的非线性映射关系，同时本发明提出的cap()函数将会剔除训练样本中的噪声图像，从而去除噪声图像对模型的影响，该方法充分利用了cap()函数、自步学习和深度回归森林，这保证了提取的面部特征具有强大的表示能力，提高了现有方法的准确度和鲁棒性。该方法可以应用于人机交互、基于年龄的安全性控制、社交网络娱乐以及年龄差异化广告等方面。

Description

一种基于噪声剔除的自步学习人脸年龄估计方法

技术领域

本发明属于计算机视觉技术领域，涉及人脸年龄估计技术，主要应用于人机交互、基于年龄的安全性控制、社交网络娱乐以及年龄差异化广告等方面。

背景技术

人脸年龄估计技术是指通过计算机算法分析人脸特征后，自动估计人脸年龄的技术。由于这项技术可广泛应用在人机交互、基于年龄的安全性控制、社交网络娱乐以及年龄差异化广告等方面，因此它是近年来计算机视觉和机器学习领域研究的热门问题。现有的人脸年龄估计算法，主要分为基于浅层模型的方法和基于深度学习的方法。

基于浅层模型的方法的基本原理是将任务分解为面部特征提取和年龄估计模型设计两个独立的步骤。第一个步骤是从人脸图像中提取有效的年龄特征，第二个步骤则是根据获得的年龄特征去设计有效的年龄估计模型。由于这类方法只有从输入图像特征到预测年龄之间的单层映射函数，因此该方法的优点在于模型简单，不受训练样本数量的影响；而其缺点在于估计的精确性较差，原因是单层映射函数很难描述面部特征和年龄之间的复杂性。参考文献：A.Lanitis,C.J.Taylor,and T.F.Cootes,Automatic Interpretationand Coding of Face Images using Flexible Models,IEEE Transactions on PatternAnalysis and Machine Intelligence,vol.19,no.7,pp.743–756,1997。

基于深度学习的方法是人脸年龄估计领域近年来研究的热点，其基本原理是将人脸图像通过卷积神经网络学习适合于人脸年龄估计的面部特征，再根据实际任务设计具体的损失函数，损失函数产生的残差通过梯度反向传导对神经网络中的参数进行更新优化。卷积神经网络将原本相对独立的面部特征提取与任务学习有机地结合在一起，使得产生的面部特征包含的信息更加丰富，与任务更加契合。基于深度学习的这类算法的优点在于能更好地拟合已有面部特征和对应的人脸年龄之间的映射关系，最终预测精准性高，并且是端对端的模型，不需要复杂的图像归一化矫正。其缺点在于训练时间过长，需要较高的硬件配置要求，如GPU服务器等，并且对于小规模数据集的预测效果较差。参考文献：Z.Niu,M.Zhou,L.Wang,X.Gao,and G.Hua,Ordinal Regression with Multiple Output CNN forAge Estimation,IEEE Conference on Computer Vision and Pattern Recognition,pp.4920-4928,2016。

近年来，基于深度学习的人脸年龄估计方法在深度学习理论发展的基础上，有了新的突破。借助于深度网络的多样性，可以更好的拟合已有图像特征和对应的人脸年龄之间的映射关系，这种改进大大提高了基于浅层模型的方法的精确度和鲁棒性，深度网络在人脸年龄估计中还有很多值得挖掘改进的地方。显然在年龄估计任务的训练过程中，带有噪声的人脸图像(带有姿势、照明、表情、遮挡和错位等变化)对整个模型的影响是巨大的，但至今还未出现如何减轻这种影响的方法，本发明将围绕这个角度开展工作。

发明内容

本发明是一种基于噪声剔除的自步学习人脸年龄估计方法。该方法首先对人脸图像进行简单的矫正并归一化到224*224*3像素，由于人脸面部特征和年龄之间的关系是很复杂的，它们之间的映射不是一种均匀映射，人脸图像经常带有姿势、照明、表情、遮挡和错位等变化，所以将人脸图片划分为简单图片(预测年龄与实际年龄之间的绝对误差小)和困难图片(预测年龄与实际年龄之间的绝对误差大)，在自步学习框架下，采取“从简单图片到困难图片”的策略去训练深度回归森林来建立人脸面部特征与目标年龄的非线性映射关系，同时本发明提出的cap()函数将会剔除训练样本中的噪声图像，从而去除噪声图像对模型的影响，最后由训练好的网络模型对实际人脸图像进行年龄估计。通过上述方法，充分利用了cap()函数、自步学习和深度回归森林，提高了现有方法的准确度和鲁棒性,算法示意图参见图1。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：面部特征点。人为定义人面部的一些特殊点，例如嘴角点，眼角点等。

定义2：鲁棒性。是指控制系统在一定(结构，大小)的参数摄动下，维持其它某些性能的特性。

定义3：RGB图像。RGB图像是指色彩模式是RGB模型的图像。RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的。R、G、B即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。

定义4：MTCNN。一种级联的卷积神经网络结构，将人脸检测和面部特征点检测同时进行。

定义5：归一化。利用面部特征点的相对位置以消除尺度，旋转变化对图像影响的方法。

定义6：决策树。是一种常见的机器学习模型，通过树的结构表示了对象属性与结果之间的一种映射关系。决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。

定义7：叶节点。一棵树当中没有子结点的结点称为叶节点。

定义8：分离节点。一棵树当中有子结点的结点称为分离节点。

定义9：VGG-16。VGG-16的结构图如图2所示，输入为224*224*3的图片，经过64个卷积核的两次卷积后，采用一次池化；之后又经过两次128的卷积核卷积之后，采用一次池化；再经过三次256的卷积核的卷积之后，采用池化；重复两次三个512的卷积核卷积之后再池化，最后经过三个全连接层。

定义10：Sigmoid函数。Sigmoid函数一般可以表示为σ(·)，其表达式为

定义11：指示函数。若

为指示函数，则当

为真时，

当

为假时，

定义12：高斯分布。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量x，其概率密度函数满足

其中μ为正态分布的数学期望，σ²为正态分布的方差，则称其满足高斯分布，常记作

定义13：混合高斯模型。指将多个高斯分布子模型混合得到的结果。

定义14：梯度下降法。梯度下降法是一个最优化算法，为求解函数f(x)取极值时，自变量的取值可以迭代求解，即：

直到梯度值为零，得到解。

定义15：变分边界法。当损失函数的参数很难优化时，可以构建一组可微分的上边界去解决优化问题。

定义16：梯度。当函数y＝f(x)的自变量x的维数为D时，梯度定义为

为函数f(x)关于变量x_d的偏导数。

定义17：Jensen不等式。若f(x)是区间(a，b)上的凹函数，则对任意的x₁，x₂，x₃，...，x_n∈(a，b)，且c₁+c₂+c₃+…+c_n＝1，则有f(c₁x₁+c₂x₂+c₃x₃+…+c_nx_n)≤c₁f(x₁)+c₂f(x₂)+…+c_nf(x_n)。

定义18：自步学习。自步学习(SPL)在每次迭代过程中倾向于从所有样本中选择具有很小的训练误差、高似然值的样本，然后更新模型参数。每次迭代选择样本的数量由权重参数确定，该参数通过逐次衰减实现引入更多的样本，当所有样本已被选择或者代价函数无法再降低则停止迭代。SPL倾向于更鲁棒地探索数据，优势在于可以针对特定任务设计不同的自步正则项，用于表征和定义“简单”样本。

定义19：caffemodel模型。是一个数据集在Caffe深度学习框架下训练好后得到的一个模型。

定义20：二元自步正则。自步学习在传统机器学习目标函数中引入二分变量v_i，用于表征每个样本是否被选择送入深度回归网络训练，隐变量v_i只有0和1两个取值，0代表着该样本不被送入深度回归网络训练，1代表该图像被送入深度回归网络训练。

定义21：max函数。max(x,y)：比较x和y的大小，返回x和y中较大的一个值。

本发明技术方案为一种基于噪声剔除的自步学习人脸年龄估计方法，该方法包括：

步骤1：对数据集进行预处理；

获取人脸数据集，并标定对应的实际年龄；再对所有的人脸图像利用MTCNN进行人脸检测、对齐，并根据人脸大小及位置将输入图像归一化为224*224*3大小的RGB图像；最后得到经过预处理后的带有年龄标签的人脸数据集图像；

步骤2：构建深度回归森林；

和

分别表示深度回归森林的输入和输出空间，η表示该卷积神经网络结构的参数信息，f(x；η)表示输入x经过该卷积神经网络后得到的特征值，

表示决策树，该决策树由叶节点

和分离节点

组成，σ是Sigmoid函数，

是索引函数，使函数f(x；η)的第

个输出与分离节点n对应，这个对应关系是随机获取的，g_n(x；η)确定了样本x送入到该分离节点的左子树的概率，

为叶节点

在输出空间的高斯分布，其中

和

分别表示均值矩阵和协方差矩阵；

表示以分离节点n为根节点的树，n_l和n_r分别表示分离节点n的左右孩子，

和

分别表示以n_l和n_r为根节点的左右子树，

和

分别表示左右子树

和

的叶节点的集合；

1)分离节点函数g_n(x；η)：采用VGG-16结构作为深度回归森林的前端部分来提取特征；将卷积神经网络最后的全连接层输出的特征值通过一个sigmoid函数归一化到0～1之间，然后随机分配到各个树的分离节点上作为分裂概率g_n(x；η)，对于每一个分离节点

都有一个分离节点函数：

2)输入样本x被送到某一个叶节点

的概率

每张人脸图像在每棵树的分离节点处以分裂概率被划分到左右子树，最终落入叶节点中；再将人脸图像所经过路径上的各个概率相乘，得到了一个输入样本x被送到某一个叶节点

的概率为：

其中

表示指示函数，当

为真时，

当

为假时，

3)叶节点的高斯分布

落入到各个叶节点中的人脸图像对应的年龄数据符合不同的高斯分布

表示不同的年龄分布结构，N代表数据集中总的图像数量，对于每一个叶节点

在输出空间都拥有一个高斯分布的概率密度函数：

4)在决策树

下的条件概率函数

叶节点中的高斯分布与输入样本x被送到某一个叶节点

的概率

构成一个混合高斯模型的结构：

5)

和

表示为输入图片x基于该深度回归网络的估计年龄：决策树的输出由各个高斯分布与概率

加权得到，再对多棵决策树产生的结果进行平均得到最后的年龄估计

所以x和y之间的映射函数表示为：

6)训练过程：给定一个经过预处理后的人脸数据集图像

x_i表示第i张图像，y_i表示其对应的年龄标签，则深度回归森林的损失函数为：

①固定叶节点的参数p(即固定参数

和

)，此时损失函数对CNN的参数η的偏导数为：

其中第一项为：

根据上面推导可知，通过梯度下降法学习参数η；

②固定CNN的参数η，去优化叶节点的参数p，令

然后通过变分边界法来解决这个优化问题；

在变分边界法中，原始目标函数被一系列迭代最小化的边界代替；为了得到

的上界，运用Jensen不等式得：

其中：

表示一定值，对于

有以下性质，能够满足Jensen不等式的条件：

定义：

所以

就成了

的上界，对于任何的p和

有如下性质：

这两条性质构成了满足变分边界法的条件；

是由均值矩阵

和协方差矩阵

这两部分参数构成，令μ和Σ表示由所有叶节点

控制这两个参数；固定Σ时，定义：

则有：

这说明了

也是

的一个上界，令μ^(t)为μ第t次迭代的值，所以ψ(μ，μ^(t))是

的一个上界；在下一次迭代中，选择使不等式

成立的μ值μ^(t+1)，这说明了

在确保

后，通过最小化

去代替最小化

则得：

ψ(μ，μ^(t))关于

的偏导数为：

令

其中0表示零矢量或矩阵，可得：

同理，固定μ时，定义：

令

则得：

ξ(Σ，Σ^(t))关于

的偏导数为：

令

得：

在得到

和

的更新规则后，在

上进行k-均值聚类，以获得叶节点

子集，I_i表示分配给y_i的聚类值，根据聚类结果得到初始值

和

即：

通过变分边界法学习参数p；

两个学习步骤①和②交替执行，共同优化特征学习和年龄估计的模型，当达到规定迭代次数时停止迭代；

7)最后，数据集的平均绝对误差为：

其中

第i张人脸图片的预测年龄，y_i是第i张人脸图片的实际年龄；

步骤3：将所有的经过步骤1后的训练图片根据步骤2训练；

假设共有N张训练图像，全都经过步骤1处理，随后将这N张训练图像输入步骤2中训练，将得到每张图像的绝对误差

按从小到大进行排序；

步骤4：基于噪声剔除的自步学习框架下的目标损失函数；

根据步骤3得到的绝对误差AE由小到大的顺序对训练集重新排列，

表示重新排序后的训练集，x_i′表示第i张图像，y_i′表示其对应的年龄标签，令

表示深度回归森林的损失函数，其中

表示对第i张的图像x_i′的估计年龄，

则对第i张图像的损失函数L_i()表示为:

则深度回归森林的损失函数L()表示为：

cap()表示基于剔除噪声样本的函数，∈为设定阈值：

则对第i张图像基于剔除噪声样本的深度回归森林的损失函数L_i ^c()表示为:

由于噪声图像的损失函数也较大，则通过上式可以剔除损失函数大于设定阈值∈的一部分噪声图像，因此避免了噪声样本的干扰；

m()是二元自步正则项，参数λ控制每次加入网络训练的数量，m()表示为：

隐变量v只有0和1两个取值，0代表着该图像不被送入深度回归网络训练，1代表该图像被送入深度回归网络训练，则基于噪声剔除的自步学习框架下的目标损失函数为：

即是：

其中，对于L_i<∈，有：

可得：

而对于L_i≥∈，有：

可得：

v_i＝0

步骤5：根据步骤4得到的目标损失函数建立基于噪声剔除的自步学习人脸年龄估计模型；

步骤6：根据步骤3得到的重新排序后的数据集图像对步骤5得到的人脸年龄估计模型进行训练；

1)取训练集

中的前10％N数量的图像进行训练，得到一个caffemodel_1模型，再将剩余90％N的图像经过步骤3在caffemodel_1模型的基础上重新排序；

2)然后再取前10％N数量的图像与已取出的10％N数量的图像混合，一起在caffemodel_1模型的基础上进行训练，得到一个caffemodel_2模型，再将剩余80％N的图像经过步骤3在caffemodel_2的基础上重新排序；

3)然后再取前10％N数量的图像与已取出的20％N数量的图像混合，一起在caffemodel_2模型的基础上进行训练，得到一个caffemodel_3模型，再将剩余70％N的图像经过步骤3在caffemodel_3的基础上重新排序；

4)以此类推，直到80％N数量的图像送入训练，此时得到caffemodel_8模型，同时丢弃了训练集

中质量最差的20%N数量的噪声图像；

步骤7：根据最后训练好的caffemodol_8模型对实际人脸图像的年龄进行预测，完成人脸图像的年龄预测过程，同时去除了噪声图像的影响。

本发明的创新之处在于：

解决人脸年龄估计的关键是学习人脸面部特征和真实生物学年龄之间的非线性映射函数，由于人脸图像经常带有姿势、照明、表情、遮挡和错位等变化，所以将人脸图片划分为简单图片和困难图片，引入了自步学习，在自步学习框架下，采取“从简单图片到困难图片”的策略去训练深度回归森林来建立人脸面部特征与目标年龄的非线性映射关系，同时本发明提出的cap()函数将会剔除训练样本中的噪声图像，从而去除噪声图像对模型的影响，该方法充分利用了cap()函数、自步学习和深度回归森林，这保证了提取的面部特征具有强大的表示能力，并且可以一步一步地提高深度回归森林的学习鲁棒性。

附图说明

图1为本发明算法模型示意图。

图2为VGG-16结构示意图。

图3为本发明深度回归森林示意图。

图4为一颗树的具体结构示意图。

具体实施方式

本发明是基于噪声剔除的自步学习人脸年龄估计方法，它的实现包含以下步骤：

步骤1：对数据集进行预处理；

对Moprh II(http://www.faceaginggroup.com/morph/)人脸数据库利用MTCNN进行人脸特征点检测，得到5个面部特征点；根据得到的5个面部特征点定位结果对图像进行归一化到224*224*3的RGB图像；最后得到经过预处理后的带有年龄标签的55130张人脸图像。

步骤2：构建深度回归森林；

图3表示深度回归森林的大致结构，其中圆圈表示卷积神经网络最后的全连接层输出的特征值，矩形框表示各个树的分离节点，菱形框表示各个树的叶节点；

和

表示决策树，该决策树由叶节点

和分离节点

组成，σ是Sigmoid函数，

是索引函数，使函数f(x；η)的第

为叶节点

在输出空间的高斯分布，其中

和

分别表示均值矩阵和协方差矩阵；如图4所示，

和

分别表示以n_l和n_r为根节点的左右子树，

和

分别表示左右子树

和

的叶节点的集合；

1)分离节点函数g_n(x；η)：我们采用VGG-16结构作为深度回归森林的前端部分来提取特征；图3圆圈表示卷积神经网络最后的全连接层输出的特征值，将该特征值通过一个sigmoid函数归一化到0～1之间，然后随机分配到各个树的分离节点(图3矩形框)上作为分裂概率g_n(x；η)，对于每一个分离节点

都有一个分离节点函数：

2)输入样本x被送到某一个叶节点

的概率

每张人脸图像在每棵树的分离节点处以分裂概率被划分到左右子树，最终落入叶节点(图3菱形框)中；再将人脸图像所经过路径上的各个概率相乘，得到了一个输入样本x被送到某一个叶节点

的概率为：

其中

表示指示函数，当

为真时，

当

为假时，

3)叶节点的高斯分布

在输出空间都拥有一个高斯分布的概率密度函数：

4)在决策树

下的条件概率函数

叶节点中的高斯分布与输入样本x被送到某一个叶节点

的概率

构成一个混合高斯模型的结构：

5)

和

所以x和y之间的映射函数表示为：

6)训练过程：给定经过预处理后的人脸数据集Morph II，令

x_i表示第i张图像，y_i表示其对应的年龄标签，N＝55130，则深度回归森林的损失函数为：

①固定叶节点的参数p(即固定参数

和

，此时损失函数对CNN的参数η的偏导数为：

其中第一项为：

根据上面推导可知，参数η可以通过梯度下降法来学习；

②固定CNN的参数η，去优化叶节点的参数p，令

然后通过变分边界法来解决这个优化问题；

的上界，运用Jensen不等式得：

其中：

表示一定值(即固定参数

和

)，对于

有以下性质，能够满足Jensen不等式的条件：

定义：

所以

就成了

的上界，对于任何的p和

有如下性质：

这两条性质构成了满足变分边界法的条件；

是由均值矩阵

和协方差矩阵

这两部分参数构成，令μ和Σ表示由所有叶节点

控制这两个参数；固定Σ时，定义：

则有：

这说明了

也是

的一个上界，令μ^(t)为μ第t次迭代的值，所以ψ(μ，μ^(t))是

的一个上界；在下一次迭代中，选择使不等式

成立的μ值μ^(t+1)，这说明了

在确保

后，我们可以通过最小化

去代替最小化

则可得：

ψ(μ，μ^(t))关于

的偏导数为：

令

其中0表示零矢量或矩阵，可得：

同理，固定μ时，定义：

令

则可得：

ξ(Σ，Σ^(t))关于

的偏导数为：

令

可得：

在得到

和

的更新规则后，在

上进行k-均值聚类，以获得叶节点

子集，I_i表示分配给y_i的聚类值，根据聚类结果得到初始值

和

即：

根据上面推导可知，参数p可以通过变分边界法来学习；

两个学习步骤①和②交替执行，并进行代码实现，本发明实在Caffe深度学习框架下实现的，实验平台使用的是GTX1080Ti，共同优化特征学习和年龄估计的模型，当达到规定迭代次数t＝80000时停止迭代，训练时长约为16～18小时；

7)最后，数据集的平均绝对误差为：

其中

是第i张人脸图片的预测年龄，y_i是第i张人脸图片的实际年龄；

步骤3：将所有的经过步骤1后的训练图片根据步骤2训练；

Morph II数据集共有N＝55130张图像，全都经过步骤1处理，随后将这N张训练图像输入步骤2中训练，将得到每张图像的绝对误差

按从小到大进行排序；

步骤4：基于噪声剔除的自步学习框架下的目标损失函数；

表示深度回归森林的损失函数，其中

表示对第i张的图像x_i′的估计年龄，

则对第i张图像的损失函数L_i()表示为:

则深度回归森林的损失函数L()表示为：

为了剔除噪声样本，本发明提出基于剔除噪声样本的cap()函数，∈为设定阈值：

由于噪声图像的损失函数也较大，则通过上式可以剔除损失函数大于设定阈值∈的一部分噪声图像，因此避免了噪声样本的干扰。

即是：

其中，对于L_i<∈，有：

可得：

而对于L_i≥∈，有：

可得：

v_i＝0

步骤6：根据步骤3得到的重新排序后的Morph II数据集图像对步骤5得到的人脸年龄估计模型进行训练；

1)取训练集

2)然后再取前100％N数量的图像与已取出的10％N数量的图像混合，一起在caffemodel_1模型的基础上进行训练，得到一个caffemodel_2模型，再将剩余80％N的图像经过步骤3在caffemodel_2的基础上重新排序；

中质量最差的20％N数量的噪声图像。

步骤7：根据最后训练好的caffemodol_8模型对实际人脸图像的年龄进行预测，完成人脸图像的年龄预测过程，同时去除了噪声图像的影响。实验结果：得到的人脸年龄平均绝对误差值MAE＝0.95，较之前基于数据集Morph II的最好人脸年龄平均绝对误差值1.97降低了约51.78％。具体的实验参数如下：

图片大小：224*224*3

训练批次大小：32

随机森林中树的数量：5

每棵树的深度：6

学习率：0.1

迭代次数：80000。