CN105718898A

CN105718898A - 基于稀疏无向概率图模型的人脸年龄估计方法、系统

Info

Publication number: CN105718898A
Application number: CN201610045986.3A
Authority: CN
Inventors: 耿新; 杨旭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-01-22
Filing date: 2016-01-22
Publication date: 2016-06-29
Anticipated expiration: 2036-01-22
Also published as: CN105718898B

Abstract

本发明公开了一种基于稀疏无向概率图模型的人脸年龄估计方法，属于机器学习和模式识别技术领域。本发明创新性地利用无向概率图构建了一个年龄分布预测模型，并且在模型的优化训练目标中加入合适的稀疏性正则项去约束模型参数。本发明还公开了一种基于稀疏无向概率图模型的人脸年龄估计系统。相比现有技术，本发明最大的两个优点在于：1.可以从复杂的图像特征中学习到更为丰富的信息去预测年龄分布，并且使用词向量对这些信息进行更为紧凑的编码。2.本方面利用了图像稀疏性的先验，加入了稀疏性正则项去约束模型参数，使得学习出来的模型有更好的泛化性。

Description

基于稀疏无向概率图模型的人脸年龄估计方法、系统

技术领域

本发明涉及一种人脸年龄估计方法，尤其涉及一种基于稀疏无向概率图模型的人脸年龄估计方法，属于机器学习和模式识别技术领域。

背景技术

基于人脸图像的自动年龄估计的应用日趋广泛，主要包括以下几个方面：(1)基于年龄的人机交互系统：在普通人机交互系统的基础上引入人类年龄自动估计算法，根据用户的年龄不同而采用不同的交互界面或交互方式；(2)基于年龄的访问控制系统：用来防止未成年人访问不适宜的网页或内容、在自动售货机上购买烟酒产品、进入酒吧等不适宜的场所等；(3)电子商务：根据图像等估计客户的大致年龄，对不同年龄段的客户采用不同的营销策略；(4)刑事侦查：根据视频监控等拍下的犯罪嫌疑人图像资料判断嫌疑人的大致年龄，缩小排查范围。

利用计算机进行人脸年龄估计，即首先通过照相机或者摄像头获取人脸图像，由特征抽取算法提取人脸图像的特征，然后将其输入到一个训练好的年龄估计模型中，即可输出图像的估计年龄。

人脸年龄估计的主要困难之一是现存的人脸数据库在许多年龄上缺少充足的训练数据(人脸图像)，且目前的年龄估计算法又不能充分利用这些数据；另外，目前的算法不能在给出年龄预测的同时给出该预测的置信度，不利于进一步的决策。为了解决上述问题，Geng等人提出了年龄分布模型算法BFGS-LLD。标记分布将样本的单标记扩展到一个标记分布，对多类的学习有很大的帮助，尤其解决了类间相互关联和某些类训练数据不足的问题。相近年龄上的人的脸部特征是非常相似的，这是因为人脸的成长是一个缓慢且平稳的过程，因此，可以利用某个年龄的相近年龄的人脸图像帮助该年龄的模型的学习，将现有技术中采用的一幅图像对应一个年龄的方法，改为一幅图像对应一个关于年龄的标记分布的方法。

一幅真实年龄为α的人脸图像，其适当的年龄标记分布需满足以下两个条件：1)在标记分布中，年龄α对应的描述度是最大的；2)其他年龄对应的描述度的大小随着与α距离的增加而降低，使得与实际年龄越接近的年龄对标记分布的贡献越大。

年龄分布模型算法是从Geng等人2010年在国际会议AAAI’10上发表的论文“FacialAgeEstimationbyLearningfromLabelDistribution”中提出的标记分布学习LLD(LearningfromLabeldistributions)方法中抽象出需要最小化的目标函数，并求解目标函数的梯度，然后利用BFGS优化算法。该算法由Broyden,Fletcher,Goldfarb,Shanno于1970年同时提出，因而命名为BFGS算法，可参见Shanno的论文Conditioningofquasi-Newtonmethodsforfunctionminimization)进行求解。

上述即为年龄分布模型算法BFGS-LLD，虽然这个方法取得了不错的效果，但还是有两个问题。其一是对于图像数据，其提取的图像特征往往非常复杂，而BFGS-LLD是基于最大熵模型的方法，而最大熵模型是一个较为简单的参数模型，它不能够学习到足够的信息来预测年龄分布。第二个问题是这个模型没有利用图像的稀疏性的先验，而在之前的众多研究和实践中，对于图像特征，稀疏性已经被证实为一个很有用的先验，但是之前提出的年龄标记分布模型不能够利用这样的有效的先验知识，所以其学习到得的预测模型缺乏说服力与可信度。

发明内容

本发明所要解决的技术问题在于克服现有技术不足，提供一种基于稀疏无向概率图模型的人脸年龄估计方法、系统，利用无向概率图模型来构建年龄预测模型，并通过稀疏性正则项来约束模型参数，使得学习到的模型的泛用性更强，年龄估计的精度更高。

本发明基于稀疏无向概率图模型的人脸年龄估计方法，包括训练阶段和估计阶段，

所述训练阶段包括以下步骤：

步骤1、获取一组带有真实年龄标记的人脸图像；对每一幅人脸图像，提取其人脸图像特征，并根据真实年龄为其赋予一个符合高斯分布的初始年龄分布，这些带有初始年龄分布的人脸图像构成训练集；所述初始年龄分布的均值为其真实年龄，方差为预设的初始方差；

步骤2、利用所述训练集中人脸图像的人脸图像特征、年龄分布分别作为无向概率图模型的输入以及相应的输出，以目标函数最小为目标，对所述无向概率图模型进行训练，得到年龄分布预测模型；所述目标函数为初始年龄分布与模型预测年龄分布之间的相似度与稀疏正则项的加权和，所述稀疏正则项可使得年龄分布预测模型中隐藏层的单元尽可能稀疏；

所述估计阶段包括以下步骤：

步骤3、提取待估计人脸图像的人脸图像特征，将其输入所述年龄分布预测模型，

得到一个与待估计人脸图像对应的年龄分布输出，把这个年龄分布中取得最大描述度时对应的年龄作为最终估计年龄。

优选地，所述无向概率图模型为包括输入层，隐藏层以及分布层的三层结构，其数学表达具体如下：

p (y_{j} = 1 | x; θ) = \frac{\exp (b_{j}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{j r}) + 1]}{Σ_{k = 1}^{l} \exp (b_{k}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{k r}) + 1]}

其中，θ为模型参数集合，其包括b_k，u_kr；i为人脸图像数索引；j为年龄；r为隐藏层的隐藏单元索引；R为隐藏单元个数。

优选地，所述初始年龄分布与模型预测年龄分布之间的相似度为初始年龄分布与模型预测年龄分布之间的KL散度。

进一步地，所述目标函数具体如下：

L (θ) = Σ_{i = 1}^{n} Σ_{j = 1}^{l} d_{x^{(i)}}^{j} \ln \frac{d_{x^{(i)}}^{j}}{p (y_{j}^{(i)} = 1 | x^{(i)}; θ)} + {λΣ}_{r = 1}^{R} Σ_{i = 1}^{n} Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1) d_{x^{(i)}}^{j},

其中，θ为模型参数集合，i为人脸图像数索引，n为人脸图像总数，j为年龄，l为最大的年龄，r为隐藏层的隐藏单元索引，R为隐藏单元个数，代表第i幅人脸图像的年龄j的置信度，x⁽ⁱ⁾为第i幅人脸图像的特征，h_r为隐藏单元，λ为加权系数，为预测模型计算的第i幅人脸图像的年龄j的置信度；隐藏单元的后验概率p(h_r＝1|x,y_j＝1)的和为稀疏正则项，其中隐藏单元的后验概率公式为：

p (h_{r} = 1 | x, y_{j} = 1) = \frac{\exp (w_{r}^{T} X + u_{j r})}{\exp (W_{r}^{T} x + u_{j r}) + 1} .

根据相同的发明思路还可以得到本发明基于稀疏无向概率图模型的人脸年龄估计系统，包括人脸图像特征提取模块和年龄分布预测模型，所述人脸图像特征提取模块用于提取人脸图像的人脸图像特征，并将所提取的人脸图像特征输入所述年龄分布预测模型；所述年龄分布预测模型通过以下方法预先训练得到：

步骤2、利用所述训练集中人脸图像的人脸图像特征、年龄分布分别作为无向概率图模型的输入以及相应的输出，以目标函数最小为目标，对所述无向概率图模型进行训练，得到年龄分布预测模型；所述目标函数为初始年龄分布与模型预测年龄分布之间的相似度与稀疏正则项的加权和，所述稀疏正则项可使得年龄分布预测模型中隐藏层的单元尽可能稀疏。

所述无向概率图模型为包括输入层，隐藏层以及分布层的三层结构，其数学表达具体如下：

p (y_{j} = 1 | x; θ) = \frac{\exp (b_{j}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{j r}) + 1]}{Σ_{k = 1}^{l} \exp (b_{k}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{k r}) + 1]}

进一步地，所述目标函数具体如下：

L (θ) = Σ_{i = 1}^{n} Σ_{j = 1}^{l} d_{x^{(i)}}^{j} \ln \frac{d_{x^{(i)}}^{j}}{p (y_{j}^{(i)} = 1 | x^{(i)}; θ)} + {λΣ}_{r = 1}^{R} Σ_{i = 1}^{n} Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1) d_{x^{(i)}}^{j},

p (h_{r} = 1 | x, y_{j} = 1) = \frac{\exp (w_{r}^{T} X + u_{j r})}{\exp (W_{r}^{T} x + u_{j r}) + 1} .

相比现有技术，本发明技术方案具有以下有益效果：

(1)本发明应用年龄分布模型算法把人脸图像对应的年龄标记分布而不是单一的年龄作为输入的一部分，不仅能够有助于对其真实年龄的学习，而且对于真实年龄附近的年龄的学习也是有帮助的，可以有效缓解年龄估计问题中数据不充足的问题。

(2)本发明应用了无向概率图来构建标记分布模型，此模型分为3层：特征层，隐藏层以及标记分布层。相比之前的基于最大熵模型的标记分布模型，本发明的隐藏层可以学习到词向量，词向量可以用更为紧凑的方式对信息进行编码。所以对于复杂的人脸图像特征，本发明可以用词向量提取出更多的有用信息来进行年龄分布预测。

(3)在很多研究中，对于图像数据，稀疏性已经被证明是一种非常好的约束，在本发明中利用了稀疏性正则项来约束参数，使得学习到的模型的泛用性更强，从而使学习到的年龄分布更为精确。

(4)本发明的输出是一个关于年龄的标记分布,不仅可以给出预测的年龄值，还可以利用描述度给出该预测的置信度，方便进一步决策。

附图说明

图1为无向概率图模型结构示意图；

图2为本发明的训练与预测流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

正如背景技术部分阐明的，现有BFGS-LLD人脸年龄估计模型由于采用最大熵模型，其不能够学习到足够的信息来预测年龄分布，且没有利用图像的稀疏性的先验知识来扩展模型的泛用性，因此在年龄估计精度上仍存在不足。针对其所存在的问题，本发明创新性地利用无向概率图构建了一个年龄分布预测模型，并且在模型的优化训练目标中加入合适的稀疏性正则项去约束模型参数。本发明相对于BFGS-LLD，最大的两个优点在于：1.可以从复杂的图像特征中学习到更为丰富的信息去预测年龄分布，并且使用词向量对这些信息进行更为紧凑的编码。2.本方面利用了图像稀疏性的先验，加入了稀疏性正则项去约束模型参数，使得学习出来的模型有更好的泛化性。

为了便于公众理解，下面对本发明技术方案进行进一步详细说明。

首先，获取一组带有真实年龄标记的人脸图像；对每一幅人脸图像，提取其人脸图像特征，例如ActiveAppearanceModel(AAM)、AgingpatternSubspace(AGES)、AgeManifold、HOG、BIF特征等人脸图像特征，并根据真实年龄为其赋予一个符合高斯分布的初始年龄分布，这些带有初始年龄分布的人脸图像构成训练集；然后利用训练集对无向概率图模型进行训练。所述无向概率图模型的构建过程如下：

设X＝R^d为输入空间，Y＝{y₁,y₂,...,y_l}为有限类标记集合；

给定人脸图像训练集S＝{(x⁽¹⁾,D⁽¹⁾),(x⁽²⁾,D⁽²⁾),...,(x⁽ⁿ⁾,D⁽ⁿ⁾)}，其中x⁽ⁱ⁾∈X为一个样本实例，是与样本x⁽ⁱ⁾相关的随机变量y∈Y的分布。本发明的目标是学习一个条件概率分布函数p(y|x)，对于样本x⁽ⁱ⁾，希望分布函数p(y|x⁽ⁱ⁾)与D⁽ⁱ⁾尽可能相似，其中x∈X,y∈Y，设p(y|x)是一个参数模型，则可表示p(y|x；θ)，其中θ为模型参数。

本模型的无向概率图如附图1。

基于此无向概率图模型的标记分布参数模型为：

p (y_{j} = 1 | x; θ) = \frac{\exp (b_{j}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{j r}) + 1]}{Σ_{k = 1}^{l} \exp (b_{k}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{k r}) + 1]} - - - (1)

基于此无向概率图模型的隐藏单元后验概率为：

p (h_{r} = 1 | x, y_{j} = 1) = \frac{\exp (w_{r}^{T} x + u_{j r})}{\exp (w_{r}^{T} x + u_{j r}) + 1} - - - (2)

则我们的目标是希望本模型计算的年龄分布与真实的年龄分布尽可能相似，且同时希望概率图模型中隐藏层的单元尽可能稀疏，则本发明需要最小化的目标函数应为初始年龄分布与模型预测年龄分布之间的相似度与稀疏正则项的加权和，其中，初始年龄分布与模型预测年龄分布之间的相似度度量可采用欧式距离、Sorensen距离、KL散度、Jeffrey散度等度量形式，本发明优选采用KL散度。稀疏正则项应可使得年龄分布预测模型中隐藏层单元尽可能的稀疏，即使得尽量多的隐藏单元取值为0，从而使得隐藏层所提取的特征更加紧凑，这样对于每一个新输入的人脸照片，我们都会得到一个稀疏表示。稀疏正则项的具体形式可采用隐藏单元后验概率p(h_r＝1|x,y_j＝1)的和，也可以采用该后验概率的平方和，或者采用该后验概率在取对数后的和(此项亦可对应于该后验概率的连乘)等。式(3)显示了本发明优选的目标函数：

L (θ) = Σ_{i = 1}^{n} Σ_{j = 1}^{l} d_{x^{(i)}}^{j} \ln \frac{d_{x^{(i)}}^{j}}{p (y_{j}^{(i)} = 1 | x^{(i)}; θ)} + {λΣ}_{r = 1}^{R} Σ_{i = 1}^{n} Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1) d_{x^{(i)}}^{j} - - - (3)

(3)式中，等号右边第一项为本模型预测的年龄分布与真实年龄分布的KL散度，等号右边第二项为稀疏正则项，将(1)式和(2)式带入(3)式就是最终的目标函数，其中b_k，u_kr都是需要学习的模型参数。

经过简单的计算，最小化(3)式等同于最大化下式：

L (θ) = Σ_{i = 1}^{n} Σ_{j = 1}^{l} d_{x^{(i)}}^{j} \ln p (y_{j}^{(i)} = 1 | x^{(i)}) - {λΣ}_{r = 1}^{R} Σ_{i = 1}^{n} Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1) d_{x^{(i)}}^{j} - - - (4)

本发明使用随机梯度下降算法来求解该模型的参数，在使用随机梯度下降算法时，需要计算目标函数对参数的导数。其中，lnp(y_j＝1|x)对各参数的导数如下：

\frac{\partial \ln p (y_{j} = 1 | x)}{\partial b_{k}} = 1_{j = k} - p (y_{k} = 1 | x) - - - (5)

\frac{\partial \ln p (y_{j} = 1 | x)}{\partial u_{k r}} = [1_{j = k} - p (y_{k} = 1 | x)] \frac{\exp (ω_{r}^{T} x + u_{k r})}{\exp (ω_{r}^{T} x + u_{h}) + 1} - - - (6)

\frac{\partial \ln p (y_{j} = 1 | x)}{\partial ω_{m r}} = [\frac{\exp (ω_{r}^{T} x + u_{k r})}{\exp (ω_{r}^{T} x + u_{k r}) + 1} - Σ_{k = 1}^{l} p (y_{k} = 1 | x) \frac{\exp (ω_{r}^{T} x + u_{k r})}{\exp (ω_{r}^{T} x + u_{k r}) + 1}] x_{m} - - - (7)

注意(5)式中1_j＝k是一个指示函数，当j＝k时该函数返回1，否则返回0；(7)式中的x_m是指特征x中的第m个元素。对各参数的求导如下：

\frac{\partial Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1)}{\partial u_{k r}} = 1_{(j = k)} p (h_{r} = 0 | x, y_{j} = 1) p (h_{r} = 1 | x, y_{j} = 1) - - - (8)

\frac{\partial p (h_{r} = 1 | x, y_{j} = 1)}{\partial ω_{r}} = p (h_{r} = 1 | x, y_{j} = 1) p (h_{r} = 1 | x, y_{j} = 1) x_{m} - - - (9)

本发明基于稀疏无向概率图模型的人脸年龄估计方法，包括训练阶段和估计阶段，其流程参见附图2。

下面结合具体实例介绍该方法具体是如何实现：

在MORPH数据库(约55000张人脸图像)上实现本发明基于自适应标记分布的人类年龄估计方法。采用十折交叉验证方法，将全部特征数据随机分成大致均等的十折，且保证每个人的人脸图像特征在同一折中。每次取一折作为测试集(即待估计人脸图像集)，其余九折作为训练集，共训练十次，取平均结果作为本发明方法性能的评价标准。在每一折验证中，具体步骤为：

训练步骤：

(1)在训练集中获取人脸图像。MORPH数据库使用BIF(基于仿生特征，Guo等人在CVPR’09上发表的文章“Humanageestimationusingbio-inspiredfeatrues”提出)算法进行特征提取，每张图像的特征维度为4376，在提取完特征后，利用MFA(Yan等人在PAMI‘07发表的“GraphEmbeddingandExtensions：AGeneralFrameworkforDimensionalityReduction”)算法对训练集数据降维，去除冗余和噪声等，得出维度为200的人脸图像特征。

(2)初始化模型参数和训练集的初始年龄标记分布。不失一般性，用随机数生成模型的参数，这里使用了均值为取值范围为[-0.5,0.5]的均匀分布；对所有训练集人脸图像，以其真实年龄为均值，以初始设定的方差为方差生成高斯分布，作为其对应的初始年龄标记分布(这里设定方差为3)。

(3)将得到的训练集的人脸图像特征向量和年龄标记高斯分布分别作为模型的输入以及相应的输出，应用随机梯度下降算法最小化输入标记分布与模型预测标记分布之间的KL散度与稀疏性正则项的和，得到预测年龄标记分布；所述的最小化的目标函数为：

L (θ) = Σ_{i = 1}^{n} Σ_{j = 1}^{l} d_{x^{(i)}}^{j} \ln \frac{d_{x^{(i)}}^{j}}{p (y_{j}^{(i)} = 1 | x^{(i)}; θ)} + Σ_{r = 1}^{R} Σ_{i = 1}^{n} Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1) d_{x^{(i)}}^{j};

其中θ为模型参数集，i为人脸图像数索引，x⁽ⁱ⁾为第i个人脸图像实例；y⁽ⁱ⁾为x⁽ⁱ⁾的预测年龄分布，为第i张图片的模型计算的分布中的第j个描述度，为x⁽ⁱ⁾的真实年龄分布的第j个描述度，h_r为第r个隐藏单元；

(5)使用梯度下降算法优化目标函数直至收敛，得出利用训练集学习到的最终的年龄分布预测模型；

预测步骤：

(6)获取测试集中的待估计的人脸图像，通过BIF对人脸图像进行特征提取，并利用对训练集降维时的转换矩阵对测试集进行降维，得到测试集人脸图像特征向量；

(7)将测试集中待估计人脸图像特征向量输入到最终预测年龄标记分布模型中，得到与测试集人脸图像对应的预测年龄标记分布的输出，把分布中取得最大描述度时对应的年龄作为对测试集人脸图像的估计年龄。

附表1为采用BFGS-LLD算法和IIS-LLD算法的对比结果

附表1中，MAE为平均绝对误差(MeanAbsoluteError)，BFGS-LLD(由Geng等人2014年在CVPR’14发表的论文“Headposeestimationbasedonmultivariatelabeldistribution”中提出)和本发明提出的SUG-LLD(sparsityundirectedgraphical-LLD)两算法在MORPH数据库上十倍交叉验证的结果，同时给出了标准差。可以看出，本发明在年龄估计上取得了很好的效果：平均绝对误差(MAE)较之BFGS-LLD算法的4.872岁降低为3.839岁。本发明预测效果的大幅改进得益于3层无向概率图的应用，估计精度可以达到与人类类似的水平，具备说服力和可信度。

Claims

1.一种基于稀疏无向概率图模型的人脸年龄估计方法，包括训练阶段和估计阶段，其特征在于，

所述训练阶段包括以下步骤：

所述估计阶段包括以下步骤：

步骤3、提取待估计人脸图像的人脸图像特征，将其输入所述年龄分布预测模型，得到一个与待估计人脸图像对应的年龄分布输出，把这个年龄分布中取得最大描述度时对应的年龄作为最终估计年龄。

2.如权利要求1所述人脸年龄估计方法，其特征在于，所述无向概率图模型为包括输入层，隐藏层以及分布层的三层结构，其数学表达具体如下：

p (y_{j} = 1 | x; θ) = \frac{\exp (b_{j}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{j r}) + 1]}{Σ_{k = 1}^{l} \exp (b_{k}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{k r}) + 1]}

3.如权利要求2所述人脸年龄估计方法，其特征在于，所述初始年龄分布与模型预测年龄分布之间的相似度为初始年龄分布与模型预测年龄分布之间的KL散度。

4.如权利要求3所述人脸年龄估计方法，其特征在于，所述目标函数具体如下：

L (θ) = Σ_{i = 1}^{n} Σ_{j = 1}^{l} d_{x^{(i)}}^{j} \ln \frac{d_{x^{(i)}}^{j}}{p (y_{j}^{(i)} = 1 | x^{(i)}; θ)} + {λΣ}_{r = 1}^{R} Σ_{i = 1}^{n} Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1) d_{x^{(i)}}^{j}

p (h_{r} = 1 | x, y_{j} = 1) = \frac{\exp (w_{r}^{T} x + u_{j r})}{\exp (w_{r}^{T} x + u_{j r}) + 1} .

5.一种基于稀疏无向概率图模型的人脸年龄估计系统，包括人脸图像特征提取模块和年龄分布预测模型，所述人脸图像特征提取模块用于提取人脸图像的人脸图像特征，并将所提取的人脸图像特征输入所述年龄分布预测模型；其特征在于，所述年龄分布预测模型通过以下方法预先训练得到：

6.如权利要求5所述人脸年龄估计系统，其特征在于，所述无向概率图模型为包括输入层，隐藏层以及分布层的三层结构，其数学表达具体如下：

p (y_{j} = 1 | x; θ) = \frac{\exp (b_{j}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{j r}) + 1]}{Σ_{k = 1}^{l} \exp (b_{k}) Π_{r = 1}^{R} [\exp (w_{r}^{T} x + u_{k r}) + 1]}

7.如权利要求6所述人脸年龄估计系统，其特征在于，所述初始年龄分布与模型预测年龄分布之间的相似度为初始年龄分布与模型预测年龄分布之间的KL散度。

8.如权利要求7所述人脸年龄估计系统，其特征在于，所述目标函数具体如下：

L (θ) = Σ_{i = 1}^{n} Σ_{j = 1}^{l} d_{x^{(i)}}^{j} \ln \frac{d_{x^{(i)}}^{j}}{p (y_{j}^{(i)} = 1 | x^{(i)}; θ)} + {λΣ}_{r = 1}^{R} Σ_{i = 1}^{n} Σ_{j = 1}^{l} p (h_{r} = 1 | x^{(i)}, y_{j}^{(i)} = 1) d_{x^{(i)}}^{j},

p (h_{r} = 1 | x, y_{j} = 1) = \frac{\exp (w_{r}^{T} x + u_{j r})}{\exp (w_{r}^{T} x + u_{j r}) + 1} .