CN110516537A - 一种基于自步学习的人脸年龄估计方法 - Google Patents
一种基于自步学习的人脸年龄估计方法 Download PDFInfo
- Publication number
- CN110516537A CN110516537A CN201910634750.7A CN201910634750A CN110516537A CN 110516537 A CN110516537 A CN 110516537A CN 201910634750 A CN201910634750 A CN 201910634750A CN 110516537 A CN110516537 A CN 110516537A
- Authority
- CN
- China
- Prior art keywords
- age
- image
- face
- node
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
该发明公开了一种基于自步学习的人脸年龄估计方法,属于计算机视觉和机器学习领域。它在深度回归森林框架的基础上,将人脸图片划分为简单图片(预测年龄与实际年龄之间的绝对误差小)和困难图片(预测年龄与实际年龄之间的绝对误差大),并在自步学习框架下,采取“从简单图片到困难图片”的策略去训练深度回归网络来建立人脸面部特征与目标年龄的非线性映射关系,最后由随机森林对人脸图像进行年龄估计,提高了现有方法的准确度和鲁棒性。该方法可以应用于人机交互、基于年龄的安全性控制、社交网络娱乐等方面。
Description
技术领域
本发明属于计算机视觉技术领域,涉及人脸年龄估计技术,主要应用于人机交互、基于年龄的安全性控制、社交网络娱乐等方面。
背景技术
人脸年龄估计技术是指通过计算机算法对人脸面部特征进行分析后,自动估计人脸年龄的技术。由于该技术可广泛应用在人机交互、基于年龄的安全性控制、社交网络娱乐等方面,因此它是近年来计算机视觉和机器学习研究的热点。目前,人脸年龄估计算法可分为两大类:(1)基于浅层模型的年龄估计算法;(2)基于深度学习的年龄估计算法。
基于浅层模型的年龄估计方法作为最常见的一种年龄估计方法,其基本原理是将任务分解为面部特征提取和年龄估计模型设计两个独立的步骤。第一个步骤是从面部图像中提取有效的年龄特征,第二个步骤则是根据得到的年龄特征去设计有效的年龄估计模型。由于这类方法只有从输入图像特征到预测年龄之间的单层映射,故该方法的优点在于模型简单,不受训练样本数量的影响;而其缺点在于估计的精确性较差,原因是单层模型很难描述面部特征和年龄之间的复杂性,同时步骤一中提取的特征并不是最适合于后续年龄估计模型的。参考文献:A.Lanitis,C.J.Taylor,and T.F.Cootes,AutomaticInterpretation and Coding of Face Images using Flexible Models,IEEETransactions on Pattern Analysis and Machine Intelligence,vol.19,no.7,pp.743–756,1997。
基于深度学习的年龄估计算法是近年来该领域研究的热点,其基本原理是将人脸图像通过卷积神经网络提取面部特征,根据具体任务设计相应的损失函数,损失函数产生的残差通过梯度反向传导对网络中的参数进行更新优化。卷积神经网络将原本相对独立的特征提取与任务学习有机地结合在一起,使得产生的面部特征包含的信息更加丰富,与任务更加契合。这类算法的优点在于可以更好地拟合已有面部特征和对应的年龄之间的映射关系,预测精准性高,并且不需要复杂的图像归一化矫正。其缺点在于需要较高的硬件配置要求,如GPU服务器等,并且对于小的数据集的预测效果较差。参考文献:Z.Niu,M.Zhou,L.Wang,X.Gao,and G.Hua,Ordinal Regression with Multiple Output CNN for AgeEstimation,IEEE Conference on Computer Vision and Pattern Recognition,pp.4920-4928,2016。
发明内容
本发明是一种基于自步学习的深度回归森林的人脸年龄估计方法。该方法首先对人脸图像进行简单的矫正并归一化到224*224*3像素,由于人脸面部特征和年龄之间的关系是很复杂的,它们之间的映射不是一种均匀映射,所以将人脸图片划分为简单图片(预测年龄与实际年龄之间的绝对误差小)和困难图片(预测年龄与实际年龄之间的绝对误差大),在自步学习框架下,采取“从简单图片到困难图片”的策略去训练深度回归森林来建立人脸面部特征与目标年龄的非线性映射关系,最后由训练好的网络模型对实际人脸图像进行年龄估计。通过上述方法,充分利用了自步学习和深度回归森林,提高了现有方法的准确度和鲁棒性,算法示意图参见图1。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:鲁棒性。是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。
定义2:MTCNN。一种级联的卷积神经网络结构,将人脸检测和面部特征点检测同时进行。
定义3:面部特征点。人为定义人面部的一些特殊点,例如嘴角点,眼角点等。
定义4:归一化。利用面部特征点的相对位置以消除尺度,旋转变化对图像影响的方法。
定义5:RGB图像。RGB图像是指色彩模式是RGB模型的图像。RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的。R、G、B即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。
定义6:VGG-16。VGG-16的结构图如图2所示,输入为224*224*3的图片,经过64个卷积核的两次卷积后,采用一次池化;之后又经过两次128的卷积核卷积之后,采用一次池化;再经过三次256的卷积核的卷积之后,采用池化;重复两次三个512的卷积核卷积之后再池化,最后经过三个全连接层。
定义7:决策树。是一种常见的机器学习模型,通过树的结构表示了对象属性与结果之间的一种映射关系。决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。
定义8:叶节点。一棵树当中没有子结点的结点称为叶节点。
定义9:分离节点。一棵树当中有子结点的结点称为分离节点。
定义10:高斯分布。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量x,其概率密度函数满足其中μ为正态分布的数学期望,σ2为正态分布的方差,则称其满足高斯分布,常记作
定义11:Sigmoid函数。Sigmoid函数一般可以表示为σ(·),其表达式为定义。
定义12:指示函数。若为指示函数,则当为真时,当为假时,
定义13:混合高斯模型。指将多个高斯分布子模型混合得到的结果。
定义14:梯度。当函数y=f(x)的自变量x的维数为D时,梯度定义为 为函数f(x)关于变量xd的偏导数。
定义15:梯度下降法。梯度下降法是一个最优化算法,为求解函数f(x)取极值时,自变量的取值可以迭代求解,即:直到梯度值为零,得到解。
定义16:变分边界法。当损失函数的参数很难优化时,可以构建一组可微分的上边界去解决优化问题。
定义17:Jensen不等式。若f(x)是区间(a,b)上的凹函数,则对任意的x1,x2,x3,...,xn∈(a,b),且a1+a2+a3+…+an=1,则有f(a1x1+a2x2+a3x3+…+anxn)≤a1f(x1)+a2f(x2)+…+anf(xn)。
定义18:自步学习。自步学习(SPL)在每次迭代过程中倾向于从所有样本中选择具有很小的训练误差、高似然值的样本,然后更新模型参数。每次迭代选择样本的数量由权重参数确定,该参数通过逐次衰减实现引入更多的样本,当所有样本已被选择或者代价函数无法再降低则停止迭代。SPL倾向于更鲁棒地探索数据,优势在于可以针对特定任务设计不同的自步正则项,用于表征和定义“简单”样本。
定义19:caffemodel模型。是一个数据集在Caffe深度学习框架下训练好后得到的一个模型。
定义20:二元自步正则。自步学习在传统机器学习目标函数中引入二分变量vi,用于表征每个样本是否被选择送入深度回归网络训练,隐变量vi只有0和1两个取值,0代表着该样本不被送入深度回归网络训练,1代表该图像被送入深度回归网络训练。
本发明技术方案为一种基于自步学习的人脸年龄估计方法,该方法包括:
步骤1:对数据集进行预处理;
获取人脸数据集,并标定对应的实际年龄;并对获得的人脸数据集中所有图像进行识别,提取出人脸部分并对齐,再将提取出人脸归一化,得到预处理后的带年龄标签的人脸样本图像;
步骤2:构建深度回归森林;
图3表示深度回归森林的大致结构,其中圆圈表示卷积神经网络最后的全连接层输出的特征值,正方形框表示各个树的分离节点,菱形框表示各个树的叶节点;
所述深度回归森林输入为卷积神经网络最后的全连接层输出的特征值,其后包括多个二叉树模型,每个二叉树包括三层:第一层为根节点,后两层为子节点;
x∈x和分别表示深度回归森林的输入和输出空间,θ表示该卷积神经网络结构的参数信息,F(x;θ)表示输入x经过该卷积神经网络后得到的特征值,表示决策树,该决策树由叶节点和分离节点组成,σ是Sigmoid函数,是索引函数,使函数F(x;θ)的第个输出与分离节点n对应,这个对应关系是随机获取的,sn(x;Θ)确定了样本x送入到该分离节点的左子树的概率,为叶节点在输出空间的高斯分布,其中和∑分别表示均值矩阵和协方差矩阵;如图4所示,表示以分离节点n为根节点的树,nl和nr分别表示分离节点n的左右孩子,和分别表示以nl和nr为根节点的左右子树,和分别表示左右子树和的叶节点的集合;
步骤2.1:分离节点函数sn(x;Θ):采用VGG-16结构作为深度回归森林的前端部分来提取特征;图3圆圈表示卷积神经网络最后的全连接层输出的特征值,将该特征值通过一个sigmoid函数归一化到0~1之间,然后随机分配到各个树的分离节点(图3正方形框)上作为分裂概率sn(x;Θ),对于每一个分离节点都有一个分离节点函数:
步骤2.2:输入样本x被送到某一个叶节点的概率每张人脸图像在每棵树的分离节点处以分裂概率被划分到左右子树,最终落入叶节点(图3菱形框)中;再将人脸图像所经过路径上的各个概率相乘,得到了一个输入样本x被送到某一个叶节点的概率为:
其中表示指示函数,当为真时,当为假时,
步骤2.3:叶节点的高斯分布落入到各个叶节点中的人脸图像对应的年龄数据符合不同的高斯分布表示不同的年龄分布结构,N代表数据集中总的图像数量,对于每一个叶节点在输出空间都拥有一个高斯分布的概率密度函数:
步骤2.4:在决策树下的条件概率函数叶节点中的高斯分布与输入样本x被送到某一个叶节点的概率构成一个混合高斯模型的结构:
步骤2.5:和表示为输入图片x基于该深度回归网络的估计年龄:决策树的输出由各个高斯分布与概率加权得到,再对多棵决策树产生的结果进行平均得到最后的年龄估计所以x和y之间的映射函数表示为:
步骤2.6:训练过程:给定一个经过预处理后的人脸数据集图像xi表示第i张图像,yi表示其对应的年龄标签,则深度回归森林的损失函数为:
步骤2.7:数据集的平均绝对误差为:
其中是第i张人脸图片的预测年龄,yi是第i张人脸图片的实际年龄;
步骤3:将所有的经过步骤1后的训练图片根据步骤2训练;
设共有N张训练图像,全都经过步骤1处理,随后将这N张训练图像输入步骤2中训练,将得到每张图像的绝对误差按从小到大进行排序;
步骤4:基于自步学习框架下的目标损失函数;
根据步骤3得到的绝对误差AE由小到大的顺序对训练集重新排列,表示重新排序后的训练集,xi′表示第i张图像,yi′表示其对应的年龄标签,令L(yi′,g(xi′,w))表示深度回归森林的损失函数,其中表示对第i张的图像xi′的估计年龄,则深度回归森林的损失函数L()表示为:
f()是二元自步正则项,参数λ控制每次加入网络训练的数量,f()表示为:
其中:
隐变量v只有0和1两个取值,0代表着该图像不被送入深度回归网络训练,1代表该图像被送入深度回归网络训练,则基于自步学习框架下的目标损失函数为:
即是:
步骤5:根据步骤4得到的目标损失函数建立基于自步学习的深度回归森林的人脸年龄估计模型;
步骤6:根据步骤3得到的重新排序后的数据集图像对步骤5得到的人脸年龄估计模型进行训练;
步骤7:根据最后训练好的caffemodol_10模型对实际人脸图像的年龄进行预测,完成人脸图像的年龄预测过程。
进一步的,所述步骤1中采用MTCNN方法人脸数据集中所有图像进行识别,提取出人脸部分并对齐,再将提取出人脸归一化为224*224*3大小的RGB图像。
进一步的,所述步骤2.6的训练过程为:
步骤2.6.1:固定叶节点的参数π,即固定参数和此时损失函数对CNN的参数θ的偏导数为:
其中第一项为:
根据上面推导可知,参数θ通过梯度下降法来学习得到;
步骤2.6.2:固定CNN的参数θ,去优化叶节点的参数π,令
通过变分边界法来解决优化问题;
在变分边界法中,原始目标函数被一系列迭代最小化的边界代替;为了得到R(π,Θ;D)的上界,运用Jensen不等式得:
其中:
表示一定值,即固定参数和对于有以下性质,能够满足Jensen不等式的条件:
定义:
所以就成了的上界,对于任何的π和有如下性质:
这两条性质构成了满足变分边界法的条件;是由均值矩阵和协方差矩阵这两部分参数构成,令μ和∑表示由所有叶节点控制这两个参数;固定∑时,定义:
则有:
这说明了也是的一个上界,令μ(t)为μ第t次迭代的值,所以ψ(μ,μ(t))是的一个上界;在下一次迭代中,选择使不等式成立的μ值μ(t+1),这说明了在确保后,通过最小化去代替最小化则可得:
ψ(μ,μ(t))关于的偏导数为:
令其中0表示零矢量或矩阵,可得:
同理,固定μ时,定义:
令则可得:
ξ(∑,∑(t))关于的偏导数为:
令可得:
在得到和的更新规则后,在上进行k-均值聚类,以获得叶节点子集,IIi表示分配给yi的聚类值,根据聚类结果得到初始值和即:
根据上面推导可知,参数π可以通过变分边界法来学习;
通过两个学习步骤2.6.1和步骤2.6.2交替执行,共同优化特征学习和年龄估计的模型,当达到规定迭代次数时停止迭代。
进一步的,搜书步骤6的具体方法为:
1)取训练集中的前10%N数量的图像进行训练,得到一个caffemodel_1模型,再将剩余90%N的图像经过步骤3在caffemodel_1模型的基础上重新排序;
2)然后再取前10%N数量的图像与已取出的10%N数量的图像混合,一起在caffemodel_1模型的基础上进行训练,得到一个caffemodel_2模型,再将剩余80%N的图像经过步骤3在caffemodel_2的基础上重新排序;
3)然后再取前10%N数量的图像与已取出的20%N数量的图像混合,一起在caffemodel_2模型的基础上进行训练,得到一个caffemodel_3模型,再将剩余70%N的图像经过步骤3在caffemodel_3的基础上重新排序;
4)以此类推,直到所有的图像全部送入训练,此时得到caffemodel_10模型。
本发明的创新之处在于:
解决人脸年龄估计的关键是学习人脸面部特征和真实生物学年龄之间的非线性映射函数,由于人脸面部特征的变化是很复杂的,所以将人脸图片划分为简单图片和困难图片,本发明在深度回归森林算法的基础上,引入了自步学习,在自步学习框架下,先将简单图片先送入网络训练,再逐步加入困难图片一起训练,直至全部样本都训练完毕,该方法通过这样的训练策略保证了提取的面部特征具有强大的表示能力,并且可以一步一步地提高深度回归森林的学习鲁棒性。
附图说明
图1为本发明算法模型示意图;
图2为VGG-16结构示意图;
图3为本发明深度回归森林示意图;
图4为一颗树的具体结构示意图。
具体实施方式
本发明基于自步学习的深度回归森林的人脸年龄估计方法,它的实现包含以下步骤:
步骤1:对数据集进行预处理;
对Moprh II(http://www.faceaginggroup.com/morph/)人脸数据库利用MTCNN进行人脸特征点检测,得到5个面部特征点;根据得到的5个面部特征点定位结果对图像进行归一化到224*224*3的RGB图像;最后得到经过预处理后的带有年龄标签的55130张人脸图像。
步骤2:构建深度回归森林;
图3表示深度回归森林的大致结构,其中圆圈表示卷积神经网络最后的全连接层输出的特征值,正方形框表示各个树的分离节点,菱形框表示各个树的叶节点;
所述深度回归森林输入为卷积神经网络最后的全连接层输出的特征值,其后包括多个二叉树模型,每个二叉树包括三层:第一层为根节点,后两层为子节点;
x∈x和分别表示深度回归森林的输入和输出空间,θ表示该卷积神经网络结构的参数信息,F(x;θ)表示输入x经过该卷积神经网络后得到的特征值,表示决策树,该决策树由叶节点和分离节点组成,σ是Sigmoid函数,是索引函数,使函数F(x;θ)的第个输出与分离节点n对应,这个对应关系是随机获取的,sn(x;Θ)确定了样本x送入到该分离节点的左子树的概率,为叶节点在输出空间的高斯分布,其中和分别表示均值矩阵和协方差矩阵;如图4所示,表示以分离节点n为根节点的树,nl和nr分别表示分离节点n的左右孩子,和分别表示以nl和nr为根节点的左右子树,和分别表示左右子树和的叶节点的集合;
1)分离节点函数sn(x;Θ):采用VGG-16结构作为深度回归森林的前端部分来提取特征;图3圆圈表示卷积神经网络最后的全连接层输出的特征值,将该特征值通过一个sigmoid函数归一化到0~1之间,然后随机分配到各个树的分离节点(图3正方形框)上作为分裂概率sn(x;Θ),对于每一个分离节点都有一个分离节点函数:
2)输入样本x被送到某一个叶节点的概率每张人脸图像在每棵树的分离节点处以分裂概率被划分到左右子树,最终落入叶节点(图3菱形框)中;再将人脸图像所经过路径上的各个概率相乘,得到了一个输入样本x被送到某一个叶节点的概率为:
其中表示指示函数,当为真时,当为假时,
3)叶节点的高斯分布落入到各个叶节点中的人脸图像对应的年龄数据符合不同的高斯分布表示不同的年龄分布结构,N代表数据集中总的图像数量,对于每一个叶节点在输出空间都拥有一个高斯分布的概率密度函数:
4)在决策树下的条件概率函数叶节点中的高斯分布与输入样本x被送到某一个叶节点的概率构成一个混合高斯模型的结构:
5)和表示为输入图片x基于该深度回归网络的估计年龄:决策树的输出由各个高斯分布与概率加权得到,再对多棵决策树产生的结果进行平均得到最后的年龄估计所以x和y之间的映射函数表示为:
6)训练过程:给定经过预处理后的人脸数据集Morph II,令xi表示第i张图像,yi表示其对应的年龄标签,N=55130,则深度回归森林的损失函数为:
①固定叶节点的参数π(即固定参数和),此时损失函数对CNN的参数θ的偏导数为:
其中第一项为:
根据上面推导可知,参数θ可以通过梯度下降法来学习;
②固定CNN的参数θ,去优化叶节点的参数π,令
然后通过变分边界法来解决这个优化问题;在变分边界法中,原始目标函数被一系列迭代最小化的边界代替;为了得到的上界,运用Jensen不等式得:
其中:
表示一定值(即固定参数和),对于有以下性质,能够满足Jensen不等式的条件:
定义:
所以就成了的上界,对于任何的π和有如下性质:
这两条性质构成了满足变分边界法的条件;是由均值矩阵和协方差矩阵这两部分参数构成,令μ和Σ表示由所有叶节点控制这两个参数,固定Σ时,定义:
则有:
这说明了也是的一个上界,令μ(t)为μ第t次迭代的值,所以ψ(μ,μ(t))是的一个上界;在下一次迭代中,选择使不等式成立的μ值μ(t+1),这说明了在确保后,可以通过最小化去代替最小化则可得:
ψ(μ,μ(t))关于的偏导数为:
令其中0表示零矢量或矩阵,可得:
同理,固定μ时,定义:
令则可得:
ξ(∑,∑(t))关于的偏导数为:
令可得:
在得到和的更新规则后,在上进行k-均值聚类,以获得叶节点子集,IIi表示分配给yi的聚类值,根据聚类结果得到初始值和即:
根据上面推导可知,参数π可以通过变分边界法来学习;
两个学习步骤①和②交替执行,并进行代码实现,本发明实在Caffe深度学习框架下实现的,实验平台使用的是GTX1080Ti,共同优化特征学习和年龄估计的模型,当达到规定迭代次数t=80000时停止迭代,训练时长约为16~18小时;
7)最后,数据集的平均绝对误差为:
其中是第i张人脸图片的预测年龄,yi是第i张人脸图片的实际年龄;
步骤3:将所有的经过步骤1后的训练图片根据步骤2训练;
Morph II数据集共有N=55130张图像,全都经过步骤1处理,随后将这N张训练图像输入步骤2中训练,将得到每张图像的绝对误差按从小到大进行排序;
步骤4:基于自步学习框架下的目标损失函数;
根据步骤3得到的绝对误差AE由小到大的顺序对训练集重新排列,表示重新排序后的训练集,xi′表示第i张图像,yi′表示其对应的年龄标签,令L(yi′,g(xi′,w))表示深度回归森林的损失函数,其中表示对第i张的图像xi′的估计年龄,则深度回归森林的损失函数L()表示为:
f()是二元自步正则项,参数λ控制每次加入网络训练的数量,f()表示为:
其中:
隐变量v只有0和1两个取值,0代表着该图像不被送入深度回归网络训练,1代表该图像被送入深度回归网络训练,则基于自步学习框架下的目标损失函数为:
即是:
步骤5:根据步骤4得到的目标损失函数建立基于自步学习的深度回归森林的人脸年龄估计模型;
步骤6:根据步骤3得到的重新排序后的Moth II数据集图像对步骤5得到的人脸年龄估计模型进行训练;
1)取训练集中的前10%N数量的图像进行训练,得到一个caffemodel_1模型,再将剩余90%N的图像经过步骤3在caffemodel_1模型的基础上重新排序;
2)然后再取前10%N数量的图像与已取出的10%N数量的图像混合,一起在caffemodel_1模型的基础上进行训练,得到一个caffemodel_2模型,再将剩余80%N的图像经过步骤3在caffemodel_2的基础上重新排序;
3)然后再取前10%N数量的图像与已取出的20%N数量的图像混合,一起在caffemodel_2模型的基础上进行训练,得到一个caffemodel_3模型,再将剩余70%N的图像经过步骤3在caffemodel_3的基础上重新排序;
4)以此类推,直到所有的图像全部送入训练,此时得到caffemodel_10模型。
步骤7:根据最后训练好的caffemodol_10模型对实际人脸图像的年龄进行预测,完成人脸图像的年龄预测过程。实验结果:得到的人脸年龄平均绝对误差值MAE=1.13,较之前基于数据集Morph II的最好人脸年龄平均绝对误差值1.96降低了约42.6%。具体的实验参数如下:
图片大小:224*224*3
损失函数参数:λ=0.001
训练批次大小:16
学习率:0.1
迭代次数:80000。
Claims (4)
1.一种基于自步学习的人脸年龄估计方法,该方法包括:
步骤1:对数据集进行预处理;
获取人脸数据集,并标定对应的实际年龄;并对获得的人脸数据集中所有图像进行识别,提取出人脸部分并对齐,再将提取出人脸归一化,得到预处理后的带年龄标签的人脸样本图像;
步骤2:构建深度回归森林;
所述深度回归森林输入为卷积神经网络最后的全连接层输出的特征值,其后包括多个二叉树模型,每个二叉树包括三层:第一层为根节点,后两层为子节点;
和分别表示深度回归森林的输入和输出空间,θ表示该卷积神经网络结构的参数信息,F(x;θ)表示输入x经过该卷积神经网络后得到的特征值,表示决策树,该决策树由叶节点和分离节点组成,σ是Sigmoid函数,是索引函数,使函数F(x;θ)的第个输出与分离节点n对应,这个对应关系是随机获取的,sn(x;Θ)确定了样本x送入到该分离节点的左子树的概率,为叶节点在输出空间的高斯分布,其中和分别表示均值矩阵和协方差矩阵;表示以分离节点n为根节点的树,nl和nr分别表示分离节点n的左右孩子,和分别表示以nl和nr为根节点的左右子树,和分别表示左右子树和的叶节点的集合;
步骤2.1:分离节点函数sn(x;Θ):采用VGG-16结构作为深度回归森林的前端部分来提取特征;输入层为卷积神经网络最后的全连接层输出的特征值,将该特征值通过一个sigmoid函数归一化到0~1之间,然后随机分配到各个树的分离节点上作为分裂概率sn(x;Θ),对于每一个分离节点都有一个分离节点函数:
步骤2.2:输入样本x被送到某一个叶节点的概率每张人脸图像在每棵树的分离节点处以分裂概率被划分到左右子树,最终落入叶节点中;再将人脸图像所经过路径上的各个概率相乘,得到了一个输入样本x被送到某一个叶节点的概率为:
其中表示指示函数,当为真时,当为假时,
步骤2.3:叶节点的高斯分布落入到各个叶节点中的人脸图像对应的年龄数据符合不同的高斯分布表示不同的年龄分布结构,N代表数据集中总的图像数量,对于每一个叶节点在输出空间都拥有一个高斯分布的概率密度函数:
步骤2.4:在决策树下的条件概率函数叶节点中的高斯分布与输入样本x被送到某一个叶节点的概率构成一个混合高斯模型的结构:
步骤2.5:和表示为输入图片x基于该深度回归网络的估计年龄:决策树的输出由各个高斯分布与概率加权得到,再对多棵决策树产生的结果进行平均得到最后的年龄估计所以x和y之间的映射函数表示为:
步骤2.6:训练过程:给定一个经过预处理后的人脸数据集图像xi表示第i张图像,yi表示其对应的年龄标签,则深度回归森林的损失函数为:
步骤2.7:数据集的平均绝对误差为:
其中是第i张人脸图片的预测年龄,yi是第i张人脸图片的实际年龄;
步骤3:将所有的经过步骤1后的训练图片根据步骤2训练;
设共有N张训练图像,全都经过步骤1处理,随后将这N张训练图像输入步骤2中训练,将得到每张图像的绝对误差按从小到大进行排序;
步骤4:基于自步学习框架下的目标损失函数;
根据步骤3得到的绝对误差AE由小到大的顺序对训练集重新排列,表示重新排序后的训练集,xi′表示第i张图像,yi′表示其对应的年龄标签,令L(yi′,g(xi′,w))表示深度回归森林的损失函数,其中表示对第i张的图像xi′的估计年龄,则深度回归森林的损失函数L()表示为:
f()是二元自步正则项,参数λ控制每次加入网络训练的数量,f()表示为:
其中:
隐变量v只有0和1两个取值,0代表着该图像不被送入深度回归网络训练,1代表该图像被送入深度回归网络训练,则基于自步学习框架下的目标损失函数为:
即是:
步骤5:根据步骤4得到的目标损失函数建立基于自步学习的深度回归森林的人脸年龄估计模型;
步骤6:根据步骤3得到的重新排序后的数据集图像对步骤5得到的人脸年龄估计模型进行训练;
步骤7:根据最后训练好的caffemodol_10模型对实际人脸图像的年龄进行预测,完成人脸图像的年龄预测过程。
2.如权利要求1所述的一种基于自步学习的人脸年龄估计方法,其特征在于所述步骤1中采用MTCNN方法人脸数据集中所有图像进行识别,提取出人脸部分并对齐,再将提取出人脸归一化为224*224*3大小的RGB图像。
3.如权利要求1所述的一种基于自步学习的人脸年龄估计方法,其特征在于所述步骤2.6的训练过程为:
步骤2.6.1:固定叶节点的参数π,即固定参数和此时损失函数对CNN的参数θ的偏导数为:
其中第一项为:
根据上面推导可知,参数θ通过梯度下降法来学习得到;
步骤2.6.2:固定CNN的参数θ,去优化叶节点的参数π,令
通过变分边界法来解决优化问题;
在变分边界法中,原始目标函数被一系列迭代最小化的边界代替;为了得到的上界,运用Jensen不等式得:
其中:
表示一定值,即固定参数和对于有以下性质,能够满足Jensen不等式的条件:
定义:
所以就成了的上界,对于任何的π和有如下性质:
这两条性质构成了满足变分边界法的条件;是由均值矩阵和协方差矩阵这两部分参数构成,令μ和Σ表示由所有叶节点控制这两个参数;固定Σ时,定义:
则有:
这说明了也是的一个上界,令μ(t)为μ第t次迭代的值,所以ψ(μ,μ(t))是的一个上界;在下一次迭代中,选择使不等式成立的μ值μ(t+1),这说明了在确保后,通过最小化去代替最小化则可得:
ψ(μ,μ(t))关于的偏导数为:
令其中0表示零矢量或矩阵,可得:
同理,固定μ时,定义:
令则可得:
ξ(Σ,Σ(t))关于的偏导数为:
令可得:
在得到和的更新规则后,在上进行k-均值聚类,以获得叶节点子集,表示分配给yi的聚类值,根据聚类结果得到初始值和即:
根据上面推导可知,参数π可以通过变分边界法来学习;
通过两个学习步骤2.6.1和步骤2.6.2交替执行,共同优化特征学习和年龄估计的模型,当达到规定迭代次数时停止迭代。
4.如权利要求1所述的一种基于自步学习的人脸年龄估计方法,其特征在于所述步骤6的具体方法为:
1)取训练集中的前10%N数量的图像进行训练,得到一个caffemodel_1模型,再将剩余90%N的图像经过步骤3在caffemodel_1模型的基础上重新排序;
2)然后再取前10%N数量的图像与已取出的10%N数量的图像混合,一起在caffemodel_1模型的基础上进行训练,得到一个caffemodel_2模型,再将剩余80%N的图像经过步骤3在caffemodel_2的基础上重新排序;
3)然后再取前10%N数量的图像与已取出的20%N数量的图像混合,一起在caffemodel_2模型的基础上进行训练,得到一个caffemodel_3模型,再将剩余70%N的图像经过步骤3在caffemodel_3的基础上重新排序;
4)以此类推,直到所有的图像全部送入训练,此时得到caffemodel_10模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634750.7A CN110516537B (zh) | 2019-07-15 | 2019-07-15 | 一种基于自步学习的人脸年龄估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634750.7A CN110516537B (zh) | 2019-07-15 | 2019-07-15 | 一种基于自步学习的人脸年龄估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516537A true CN110516537A (zh) | 2019-11-29 |
CN110516537B CN110516537B (zh) | 2022-03-15 |
Family
ID=68623285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910634750.7A Active CN110516537B (zh) | 2019-07-15 | 2019-07-15 | 一种基于自步学习的人脸年龄估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516537B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160161A (zh) * | 2019-12-18 | 2020-05-15 | 电子科技大学 | 一种基于噪声剔除的自步学习人脸年龄估计方法 |
CN111414875A (zh) * | 2020-03-26 | 2020-07-14 | 电子科技大学 | 基于深度回归森林的三维点云头部姿态估计系统 |
CN111444787A (zh) * | 2020-03-12 | 2020-07-24 | 江西赣鄱云新型智慧城市技术研究有限公司 | 一种性别约束的全智能化人脸表情识别方法及系统 |
CN113989229A (zh) * | 2021-10-28 | 2022-01-28 | 杭州图谱光电科技有限公司 | 一种基于随机森林和卷积神经网络的细胞计数方法 |
CN114241179A (zh) * | 2021-12-06 | 2022-03-25 | 电子科技大学 | 一种基于自步学习的视线估计方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862118B (zh) * | 2023-01-29 | 2023-05-23 | 南京开为网络科技有限公司 | 基于高斯分布假设和mae损失的人脸年龄估计方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016107638A1 (en) * | 2014-12-29 | 2016-07-07 | Keylemon Sa | An image face processing method and apparatus |
CN108491766A (zh) * | 2018-03-05 | 2018-09-04 | 中山大学 | 一种端到端的基于深度决策森林的人群计数方法 |
US20190035149A1 (en) * | 2015-08-14 | 2019-01-31 | Metail Limited | Methods of generating personalized 3d head models or 3d body models |
CN109993090A (zh) * | 2019-03-25 | 2019-07-09 | 浙江大学 | 基于级联回归森林和图像灰度特征的虹膜中心定位方法 |
-
2019
- 2019-07-15 CN CN201910634750.7A patent/CN110516537B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016107638A1 (en) * | 2014-12-29 | 2016-07-07 | Keylemon Sa | An image face processing method and apparatus |
US20190035149A1 (en) * | 2015-08-14 | 2019-01-31 | Metail Limited | Methods of generating personalized 3d head models or 3d body models |
CN108491766A (zh) * | 2018-03-05 | 2018-09-04 | 中山大学 | 一种端到端的基于深度决策森林的人群计数方法 |
CN109993090A (zh) * | 2019-03-25 | 2019-07-09 | 浙江大学 | 基于级联回归森林和图像灰度特征的虹膜中心定位方法 |
Non-Patent Citations (2)
Title |
---|
WEI S: ""Deep Regression Forests for Age Estimation"", 《ARXIV》 * |
董兰芳: ""基于深度学习与随机森林的人脸年龄与性别分类研究"", 《计算机工程》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160161A (zh) * | 2019-12-18 | 2020-05-15 | 电子科技大学 | 一种基于噪声剔除的自步学习人脸年龄估计方法 |
CN111160161B (zh) * | 2019-12-18 | 2022-03-15 | 电子科技大学 | 一种基于噪声剔除的自步学习人脸年龄估计方法 |
CN111444787A (zh) * | 2020-03-12 | 2020-07-24 | 江西赣鄱云新型智慧城市技术研究有限公司 | 一种性别约束的全智能化人脸表情识别方法及系统 |
CN111444787B (zh) * | 2020-03-12 | 2023-04-07 | 江西赣鄱云新型智慧城市技术研究有限公司 | 一种性别约束的全智能化人脸表情识别方法及系统 |
CN111414875A (zh) * | 2020-03-26 | 2020-07-14 | 电子科技大学 | 基于深度回归森林的三维点云头部姿态估计系统 |
CN113989229A (zh) * | 2021-10-28 | 2022-01-28 | 杭州图谱光电科技有限公司 | 一种基于随机森林和卷积神经网络的细胞计数方法 |
CN114241179A (zh) * | 2021-12-06 | 2022-03-25 | 电子科技大学 | 一种基于自步学习的视线估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110516537B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516537A (zh) | 一种基于自步学习的人脸年龄估计方法 | |
Kong et al. | Multi-stream hybrid architecture based on cross-level fusion strategy for fine-grained crop species recognition in precision agriculture | |
CN109948029A (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
CN108304826A (zh) | 基于卷积神经网络的人脸表情识别方法 | |
CN109034034A (zh) | 一种基于强化学习算法优化卷积神经网络的静脉识别方法 | |
CN110363253A (zh) | 一种基于卷积神经网络的热轧带钢表面缺陷分类方法 | |
CN106919951A (zh) | 一种基于点击与视觉融合的弱监督双线性深度学习方法 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
Sikandar et al. | Decision tree based approaches for detecting protein complex in protein protein interaction network (PPI) via link and sequence analysis | |
Bakhshi et al. | Fast automatic optimisation of CNN architectures for image classification using genetic algorithm | |
Chen et al. | Binarized neural architecture search for efficient object recognition | |
Gao et al. | A mobile application for plant recognition through deep learning | |
CN109978074A (zh) | 基于深度多任务学习的图像美感和情感联合分类方法及系统 | |
CN111062511B (zh) | 基于决策树与神经网络的水产养殖病害预测方法及系统 | |
CN110889335B (zh) | 基于多通道时空融合网络人体骨架双人交互行为识别方法 | |
CN110188621A (zh) | 一种基于ssf-il-cnn的三维人脸表情识别方法 | |
CN111160161B (zh) | 一种基于噪声剔除的自步学习人脸年龄估计方法 | |
Liu et al. | Plant disease detection based on lightweight CNN model | |
CN108985385A (zh) | 基于生成对抗学习的快速弱监督目标检测方法 | |
CN116612386A (zh) | 基于分级检测双任务模型的辣椒病虫害识别方法及系统 | |
Cong et al. | On Adam trained models and a parallel method to improve the generalization performance | |
Islam et al. | An approach to evaluate classifiers for automatic disease detection and classification of plant leaf | |
Greggio et al. | Efficient greedy estimation of mixture models through a binary tree search | |
CN115730631A (zh) | 联邦学习的方法和装置 | |
CN111008616A (zh) | 一种基于卷积神经网络和深度核网络的视频行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |