CN102306281A

CN102306281A - 一种多模态人类年龄自动估计方法

Info

Publication number: CN102306281A
Application number: CN201110195665A
Authority: CN
Inventors: 耿新; 方尔庆; 谷鹏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-07-13
Filing date: 2011-07-13
Publication date: 2012-01-04
Anticipated expiration: 2031-07-13
Also published as: CN102306281B

Abstract

本发明公开一种多模态人类年龄自动估计方法，先获取用于训练的具有不同年龄段的人脸图像和语音数据，分别抽取特征作为训练用的人脸图像集和语音数据集；再从输入设备分别获取待估计的人脸图像和语音分别抽取图像特征和语音特征；然后判断类别分别参数是否训练好，若否，则用第一步得到的数据集应用IIS-LLD算法进行训练，然后得到一个基于人脸图像的类别分布函数的最佳参数和一个基于语音的类别分布函数的最佳参数；若是，则将得到的最佳参数分别代入，得到对应于该组数据的基于人脸图像的类别分布和基于语音的类别分布；将得到的类别分布结合得到一个新的类别分布；从得到的新的类别分布中选取对该样本描述程度最大的年龄即可。

Description

一种多模态人类年龄自动估计方法

技术领域

本发明涉及利用计算机对人类年龄进行自动估计的方法，特别涉及一种多模态人类年龄自动估计方法。

背景技术

目前尚未发现利用计算机通过结合人脸图像和语音对人类年龄进行自动估计的技术。但存在一些利用数字人脸图像或语音对人的身份进行识别的技术，如本发明申请人拥有的另一项发明专利“基于选择性多本征空间集成的数字人脸图像识别方法”(专利号ZL 200410041173.4)。数字人脸图像识别及语音识别与本发明有着一定的联系，即都是利用数字人脸图像或语音寻求与图像或语音中人物有关的有用信息。在申请号为200910031218.2名称为基于数字人脸图像的人类年龄自动估计方法中尝试了通过数字人脸图像进行人类年龄估计的方法，但是较为复杂，而且因为仅通过人脸图像所以准确度也还有待提高。

年龄是人的重要属性，决定了人的行为、观念及应遵守的规则。人类年龄自动估计技术使得智能系统根据用户的年龄提供相应服务成为可能。在我国社会人口老龄化和越来越重视保护未成年人的大背景下，该项技术的应用显得尤为重要与迫切，蕴含着极大的经济和社会效益。当前多数情况下采取的年龄估计或验证方式要么依赖于人的主观估计，如酒吧、网吧等场所拒绝未成年人入内，要么依赖于相关证件如护照通关等。这些方式固有的速度慢、花费高、不友好、不可靠、易伪造等缺点可以通过自动年龄估系统的应用彻底改观。并且，原来很多年龄估计和验证不易实施的地方也可以应用该项技术实现覆盖，比如可根据用户年龄自动选择屏蔽某些有害信息的互联网浏览器，为不同年龄用户提供特色服务的自动服务终端等。因此基于此项技术开发的相关产品将具有十分广阔的市场前景。另外，在保护未成年人和关爱老年人等方面，该项技术的应用还具有良好的社会效益。

目前的考古学或法医学中研究人类年龄估计的方法主要基于人死亡后骨骼和牙齿的相关证据进行估计，这些证据无法进行不侵入人体的采集，所以很难应用于日常生活中。所以亟待找出一种类似人们在日常生活中估计他人年龄的方式一样，方便快捷且不唐突又准确的估计年龄的方法。

发明内容

为了解决现有技术仅通过采集人脸图像进行年龄估计，精确度不够高的缺点，本发明提供一种多模态人类年龄自动估计方法，让计算机以类似于人的方式即观察人脸和听人的声音对人类年龄作出准确估计的自动化方法，该方法的估计精度可达到与人类似的水平。而且本发明比单一依赖于人脸图像或语音的估计方法能够达到更高的精度。

本发明的技术方案为：一种多模态人类年龄自动估计方法，步骤为：

第一步，获取用于训练的具有不同年龄段的人脸图像和语音数据分别抽取图像特征和语音特征作为训练用的人脸图像集和语音数据集；

第二步，从输入设备分别获取待估计的人脸图像和语音分别抽取图像特征和语音特征；

第三步，分别判断基于人脸图像的类别分布参数和基于语音的类别分别参数是否训练好，若否，则执行第四步；若是，则执行第五步；

第四步，分别用第一步得到的人脸图像集和语音数据集应用IIS-LLD算法进行训练，然后分别得到一个基于人脸图像的类别分布函数的最佳参数和一个基于语音的类别分布函数的最佳参数；

第五步，将第四步中得到的最佳参数分别代入基于人脸图像的类别分布函数和基于语音的类别分布函数中，得到对应于该组数据的基于人脸图像的类别分布P₂(y)和基于语音的类别分布P₁(y)；

第六步，将第五步中得到的基于人脸图像的类别分布P₂(y)和基于语音的类别分布P₁(y)按照P(y)＝λP₁(y)+(1-λ)P₂(y)结合得到一个新的类别分布P(y)，其中λ为权重；

第七步，从第六步中得到新的类别分布P(y)中选取对该样本描述程度最大的年龄，该年龄即为系统作出的估计年龄。

所述的IIS-LLD算法具体的算法流程为：输入是给定的训练集

和特征函数g_k(x)，输出是条件概率密度函数p(y|x；θ)，初始化模型参数向量θ⁽⁰⁾，通过i＝1进行第一次迭代，通过等式(1)求出δ_y，k，这里的δ_y，k和Δ表示的是通过一个值，初始值加上δ_y，k得到θ⁽¹⁾，通过不断的迭代，以不等式T(θ⁽ⁱ⁾)-T(θ^(i-1))＜ε为条件，用来判断i取何值时，不等式收敛于ε，最终确定θ⁽ⁱ⁾这个模型参数，最后可以通过公式

得到一个年龄分布，判断出哪个标签表示的年龄的程度最深，标签表示程度最深的就是离真实年龄最近的年龄；

等式(1)为

\underset{i}{Σ} P_{i} (y) g_{k} (x_{i}) - \underset{i}{Σ} p (y | x_{i}; θ) g_{k} (x_{i}) \exp (δ_{y, k} s (g_{k} (x_{i})) g^{#} (x_{i})) = 0

其中，g^#(x_i)＝∑_k|g_k(x_i)|，s(g_k(x_i))是g_k(x_i)的符号；P_i(y)表示的是年龄标签分布。

本发明与现有的人工年龄估计方式或者考古学和法医学中采用的侵入式方式相比具有明显的优势：本方法完全自动化，不需人的干预，且速度快，准确度高，可以应用于需要年龄估计的绝大多数场合。本方法仅仅依赖人的面部图像和语音数据就能对其年龄作出估计，这与日常生活中人们估计别人年龄的方式类似，因此能够很方便的在日常应用中实施而不会让人感觉麻烦或者反感，甚至可以在被估计者不知道的情况下实施，从而实现很多人性化的应用。本发明尤其在现有人工方式难以实现的地方极为有用。比如互联网浏览器，通过加装以此方法为基础的软件，可以实现自动估计用户年龄，根据用户是否成年决定是否屏蔽某些信息。再比如可以以此方法为基础制造烟酒自动售货机，根据顾客年龄决定是否出售相应商品。而且，本发明比单模态自动年龄估计方式，如仅仅依靠人脸图像或语音等方式进行自动年龄估计能够达到更高的精度。因此，这种自动年龄估计技术能够直接应用于界面友好的智能系统中，使其具有与人类似的年龄估计能力。

附图说明

图1是基于数字人脸图像和语音的人类年龄自动估计系统工作流程图。

图2是类别分布示例。

图3为各方法的累积分数值曲线。

具体实施方式

下面结合附图和最佳实施例对本发明进行详细说明。

提供一种基于数字人脸图像和语音的自动年龄估计方法。在对该方法具体步骤进行描述之前，首先给出相关定义：(a)样本：一组图像或语音数据；(b)类别标签：即一个样本对应的年龄；(c)类别分布：给定一个样本图像或语音，由每个可能的类别标签描述该样本的程度所构成的一种分布；(d)目标年龄：系统所能够估计的年龄范围，如0到70岁。

IIS-LLD(Improved Iterative Scaling-Learning from Label Distribution)算法正是Geng等人为了解决在训练数据不足的情况下更好的进行基于人脸图像的年龄估计问题而提出的，具体参见X.Geng，K.Smith-Miles，and Z.H.Zhou，″Facial AgeEstimation by Learning from Label Distribution，″in 24th AAAI Conference onArtificial Intelligence，Atlanta，GA，2010，pp.451-456.。人脸特征在相近的年龄中是非常相似的，这是因为人脸成长的过程是一个逐渐而缓慢的过程，因此，可以利用相近年龄的特征数据来帮助对某个特定年龄的学习。在传统分类算法中，一个样本对应于一个类别标签，而在IIS-LLD算法中，对应于一个样本的不是一个类别标签，而是一个类别分布(Label Distribution)。在本发明中所述的样本即为图像数据或语音数据，类别标签即表示的年龄。对应于每一个类别标签y有一个实数P(y)∈[0，1]用以表示该类别标签准确描述该样本的程度，一个样本对应的所有类别标签的P(y)值之和为1。例如，在图2中，横坐标表示某个样本的所有可能的类别标签y_i，其中i＝1～5，纵坐标P(y_i)表示每一个类别标签能正确描述该样本的程度，且对于一个样本x(图像或语音)来说，若已知其类别分布，该样本的目标年龄即为该样本的类别分布中P(y)值最大的类别标签y，如图2所对应的样本，P(y₂)最大，因此该样本的估计年龄为y₂。Geng等人提出了IIS-LLD算法用来解决基于标签分布的学习问题。令

表示输入空间，其中X表示输入空间，表示特征向量，d表示维度。可能的类别标签的有限集Y＝{y₁，y₂，...，y_c}，其中c为第c个类别标签；那么基于标签分布的学习问题可以如下描述：给定训练集S＝{(x₁，P₁(y))，(x₂，P₂(y))，…，(x_n，P_n(y)}，其中x_i∈X表示一个样本，P_i(y)是与x_i相关的随机变量y∈Y的分布，i＝1…n，表示共有n个样本。学习的目标是得到一个条件分布p(y|x)，。假定p(y|x)是一个参数模型p(y|x，θ)，其中θ是模型参数向量。给定训练集S，IIS-LLD算法的目标是在给定样本x_i的情况下，找到一个能够得到与P_i(y)相似的分布的模型参数向量θ。这里使用相对熵(Kullback-Leibler divergence)来衡量两个分布的相似度。IIS-LLD算法流程如下所示，是整个多模态人类年龄自动估计的核心，通过该算法编写出程序产生一个训练模型，只要过来一幅人脸图片就会估计出人脸的年龄；

输入：训练集特征函数g_k(x)

输出：条件概率密度函数p(y|x；θ)

1初始化模型参数向量θ⁽⁰⁾；

2i←0

3repeat

4i←i+1；

5根据等式(1)求δ_y，k；

6θ⁽ⁱ⁾←θ^(i-1)+Δ；

7until T(θ⁽ⁱ⁾)-T(θ^(i-1))＜ε；

8

p (y | x, θ) &LeftArrow; \frac{1}{Z} \exp (Σ_{k} θ_{y, k}^{(i)} g_{k} (x));

其中

T (θ) = \underset{i}{Σ} \log \underset{y}{Σ} \exp (\underset{k}{Σ} θ_{y, k} g_{k} (x_{i}));

等式(1)：

\underset{i}{Σ} P_{i} (y) g_{k} (x_{i}) - \underset{i}{Σ} p (y | x_{i}; θ) g_{k} (x_{i}) \exp (δ_{y, k} s (g_{k} (x_{i})) g^{#} (x_{i})) = 0

其中g^#(x_i)＝∑_k|g_k(x_i)|，s(g_k(x_i))是g_k(x_i)的正负号；

其中输入是给定的训练集

p (y | x, θ) &LeftArrow; \frac{1}{Z} \exp (Σ_{k} θ_{y, k}^{(i)} g_{k} (x));

得到一个年龄分布，判断出哪个标签表示的年龄的程度最深，标签表示程度最深的就是离真实年龄最近的年龄。

等式(1)为

\underset{i}{Σ} P_{i} (y) g_{k} (x_{i}) - \underset{i}{Σ} p (y | x_{i}; θ) g_{k} (x_{i}) \exp (δ_{y, k} s (g_{k} (x_{i})) g^{#} (x_{i})) = 0

其中，g^#(x_i)＝∑_k|g_k(x_i)|，s(g_k(x_i))是g_k(x_i)的符号；P_i(y)表示的是年龄标签分布。给定样本x，那么g_k(x)为x的某个语音或图像特征，如语速(speech rate)等等；θ_y，k为待求解的未知参数；其中Z＝∑_yexp(∑_kθ_y，kg_k(x))为规范化因子。

在本发明中，假定用高斯分布来将训练集中样本的单类别标签转化成类别分布，训练迭代次数为70，ε设置为1e-7。

下面结合实施例1来进行进一步的分析

实施例1

要结合人脸图像和语音来进行年龄估计，理论上需要这样一种数据库，该数据库中的人既有脸部图像数据，又有与之对应的语音数据。但在实际中这样的数据采集十分困难，目前已知的也并没有这样的数据库，而单独的人脸库或语音库是存在的，本实施例所用数据为：FG-NET人脸库网址为：http://www.fgnet.rsunit.com/，包含了82个已知年龄的人的共1002副人脸图像，年龄范围为0-69岁；TIMIT语音库网址为：http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp？catalogId＝LDC93S1，包含了630个人的美式英语语音，每个人有10句简短的美式英语录音，其中有1人年龄未知，为无效数据。需要注意的是，虽然语音数据总数较多，但实际上，这里的每个人的10句语音录制的年份都是一样的，也就是说每个人只在一个年龄上有训练数据而在其他年龄上没有，因此训练数据严重不足。在本实验中，人为将FG-NET人脸库与TIMIT语音库进行结合，综合考虑性别，年龄等因素，“制造出”既有人脸图像数据又有语音数据的“假人”，如：TIMIT语音库中有一个25岁的男性说话者的语音数据S1，而FG-NET人脸库中有一个25岁的男性的数据I1，则将他们人工“结合”，即假定这两组数据来自同一个“假人”P1，依据这个原则，本实验中共制造出50个这样的“假人”，这些“假人”的年龄范围为21-58岁，年龄分布如表格1所示。

表格1本实验中用到的“假人”年龄分布

年龄	人数	年龄	人数	年龄	人数	年龄	人数
								21	2	31	1	41	2	51	0
22	2	32	2	42	2	52	2
								23	6	33	1	43	0	53	1
24	3	34	0	44	1	54	2
								25	5	35	0	45	1	55	2
26	0	36	2	46	1	56	0
								27	2	37	0	47	0	57	0
28	2	38	1	48	0	58	1
								29	1	39	3	49	0
30	2	40	0	50	0

1.1特征抽取

对于图像数据，本文对所有可用的1002副人脸图像使用Tim Cootes等人的外观模型(appearance model)抽取工具进行特征抽取，外观模型由Edwards，Lanitis以及Coots于1998年在”Image Vision and Computing，Vol16(3)，pp.203-211”发表的文章”Statistical models of face images-improvingspecificity”中提出，抽取工具下载网址为：

http://personalpages.manchester.ac.uk/staff/timothy.f.cootes/software/am_tools_d oc/index.html，共抽取262个外观模型参数。对于语音数据，使用Praat脚本进行特征抽取，Praat脚本下载地址：http://www.fon.hum.uva.nl/praat/，共抽取特征参数157个，如表格2所示。

表格2本实验中用到的语音特征

2实验结果

分别对人脸图像和语音数据使用IIS-LLD算法进行年龄估计，在此过程中通过LLD算法调整θ⁽ⁱ⁾，达到调整模型的目的；调整实验参数就是调整人脸图像和语音所占的权值大小，取各自最好结果再进行结合以期改进年龄估计效果。MAE指的是年龄估计的平均绝对误差(Mean Absolute Error)。

令表示输入空间，可能的类别标签的有限集Y＝{y₁，y₂，...，y_c}在这里我们把年龄看成是一个数值。

给定训练集S＝{(x₁，P₁(y))，(x₂，P₂(y))，…，(x_n，P_n(y)}，在这里x_i表示的是从人脸图像抽取的特征，y是年龄，P_i(y)表示的是这个年龄的概率有多大，其实在这里是表示这个年龄的程度；当训练好了一个模型，过来一张图片被抽取过特征x_i，然后通过特征x_i和训练集上训练出的每个年龄分布去比较，找到P_i(y)最大的那个就是最接近真实年龄的那个。

基于人脸图像的年龄估计实验

测试集即为50个“假人”的人脸图像数据。实验主要通过调整训练集数据规模以及降低外观模型参数维数来改进算法性能。由于外观模型参数本身已经使用主成分分析按照特征重要性由高到低排序，因此降维只需要去掉排在后面的维度。

由于测试集中人的年龄范围为21-58岁，而FG-NET人脸库中人的年龄范围为0-69岁，Lanitis等人的实验表明，基于特定年龄的分类器比普通的分类器分类效果要好。因此，仅使用所有训练数据中年龄范围为21-58岁的数据进行训练，可能会得到更好的结果。本实验也证明了Lanitis等人的结论，在本实验中，使用21-58岁年龄范围内的数据进行训练比使用所有可用数据进行训练得到的结果要好，平均绝对误差MAE最低为7.56年。

2.1基于语音的年龄估计实验

TIMIT共有630个说话者的语音数据，其中每个人有10组数据，其中1人年龄未知，为无效数据，因此共有629×10＝6290组数据。测试集为选定的50个“假人”的数据，其中每个假人有10组数据，任选其中1组共50组作为测试集，因为IIS-LLD算法是与个人无关的，剩下的数据均可作为训练集。与人脸图像的年龄估计实验类似，选定其中年龄在21-58岁范围内的数据作为训练集。

在进行人脸图像特征抽取时，抽取的特征是使用主成分分析(PrincipalComponant Analysis，简称PCA)按照特征的重要性由高到低排序的。与人脸图像特征不同，在进行语音特征抽取时，各语音特征与年龄之间的关系非常复杂，有些可能与年龄存在着很强的关系，而有些语音特征可能与年龄之间没有关系，这些语音特征就成了噪声，因此，必须通过一定的方法对语音特征进行降维。常用的降维方法有PCA和LDA(线性判别分析，Linear Discriminant Analysis)。实验表明，当使用LDA将语音特征降至24维时，实验结果最好，对50组“假人”数据进行年龄估计的平均绝对误差最低为5.96年。

2.2人脸-语音结合实验

分别对语音数据和人脸图像使用IIS-LLD算法和各自实验中结果最好的参数，分别得到一个分布P₁(y)和P₂(y)，令P(y)＝λP₁(y)+(1-λ)P₂(y)，调整P(y)中语音和图像的权重，在实验中，λ从0开始，以步长0.02增长至1，结果表明，在λ＝0.42，1-λ＝0.58时结果最好，平均绝对误差为5.14年。表格3为λ，1-λ取一些典型值时的实验结果。

表格3语音-人脸结合实验

λ(语音)	0	0.20	0.40	0.42	0.46	0.50	0.60	0.80	1
										1-λ(图像)	1	0.80	0.60	0.58	0.54	0.50	0.40	0.20	0
MAE	7.56	6.74	5.26	5.14	5.34	5.64	5.60	6.16	5.96

从上面的实验可以看出，用IIS-LLD算法将语音数据和人脸图像结合进行年龄估计比单独使用人脸图像或语音数据进行年龄估计结果都要好，平均绝对误差最低为5.14年，比单独使用语音数据的结果低14％，比单独使用人脸图像的结果低32％。

从结果中可以看出，当MAE取最小值5.14时，λ＝0.42，1-λ＝0.58，λ＜1-λ。这说明，在进行自动年龄估计时，可能人脸图像数据比语音数据更重要，也就是说年龄与脸部特征之间的关系比年龄与语音特征之间的关系更强。但是实验结果还表明，仅使用人脸图像(λ＝0)时，MAE＝7.56年，而仅使用语音(λ＝1)时，MAE＝5.96年，结果反而比仅使用人脸图像时要好。这可能是由语音的训练集远远大于人脸的训练集造成的。

各方法在误差从0-14岁的累计分数(cumulative scores)值如图3所示。这里的累积分数指的是在对50个“假人”进行年龄估计时，绝对误差在某一范围内的人数总和。从图中可以看出，使用语音-人脸结合方法进行年龄估计效果是最好的，在50组结果中，年龄估计误差为0的有10人，占总人数的20％；年龄估计误差在5岁以内的有34人，占总人数的68％，年龄估计误差在10岁以内的有42人，占总人数的84％。

本文基于IIS-LLD算法，首次提出了一种将人脸图像与语音数据结合进行年龄估计的方法，实验结果表明，该方法比单独使用语音或单独使用人脸图像进行年龄估计能达到更好的效果。

在本文中，用到的测试数据为将相互独立的人脸库和语音库结合起来的数据，虽然在“结合”时综合考虑了年龄和性别因素，但是在实际应用中，年龄估计用到的数据最好是来自同一个个体。

系统输出的估计年龄可视不同的实际应用而触发相应的操作。例如，当系统应用于基于年龄的人机交互系统时，较大的估计年龄可能使得系统以较大的字符显示操作界面，以照顾老年人的视力，相反，较小的估计年龄可能使得系统采用较为活泼和鲜艳的界面，以适应年轻人的喜好。再比如，当系统应用于屏蔽不良网上信息时，估计年龄如果属于未成年范围，系统将阻止用户浏览不适合未成年人的信息。

通过以上描述可以看出，本发明方法仅仅依赖于一张人脸图像以及对应的语音即可对其中人物的年龄作出判断。该方法基于一种类别分布的分类方法，该方法能够解决在现有情况下训练数据不足的问题，而且将人脸图像和语音结合起来进行年龄估计，比仅仅依靠人脸图像或语音进行年龄估计能够达到更高的精度。经测试，本发明方法能够达到与人类对陌生人的年龄估计能力类似的精度。

Claims

1.一种多模态人类年龄自动估计方法，其特征在于，步骤为：

2.如权利要求1所述的多模态人类年龄自动估计方法，其特征在于，所述的IIS-LLD算法具体的算法流程为：输入是给定的训练集

p (y | x, θ) &LeftArrow; \frac{1}{Z} \exp (Σ_{k} θ_{y, k}^{(i)} g_{k} (x));

等式(1)为

\underset{i}{Σ} P_{i} (y) g_{k} (x_{i}) - \underset{i}{Σ} p (y | x_{i}; θ) g_{k} (x_{i}) \exp (δ_{y, k} s (g_{k} (x_{i})) g^{#} (x_{i})) = 0