CN108460334A

CN108460334A - 一种基于声纹和人脸图像特征融合的年龄预测系统及方法

Info

Publication number: CN108460334A
Application number: CN201810063645.8A
Authority: CN
Inventors: 徐枫; 陈建武; 肖谋
Original assignee: Beijing Yi Intelligent Technology Co Ltd
Current assignee: Beijing Yi Intelligent Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-08-28

Abstract

本发明公开了一种基于声纹和人脸图像特征融合的年龄预测系统及方法，旨在现有技术中单独的采用声纹识别或人脸识别来预测年龄存在局限性而导致年龄预测存在误差的问题；本申请中通过融合了声音和人脸建立性别分类器，再根据性别分类器对数据集进行性别分类，分类之后训练得到基于性别的年龄预测分类器，不仅结合了声音与人脸的综合识别来实现年龄预测，解决了单独的声音或人脸造成年龄预测偏差的问题，同时还通过性别分类器对男女数据集进行区分，更进一步地增加了年龄预测的准确性；本申请适用于年龄预测相关领域。

Description

一种基于声纹和人脸图像特征融合的年龄预测系统及方法

技术领域

本发明涉及本发明涉及人脸属性识别技术、声纹识别技术和语音交互技术领域，特别涉及一种基于声纹和人脸图像特征融合的年龄预测系统及方法。

背景技术

现有大数据挖掘发展越来越成熟，根据不同用户对其年龄等进行分段分析，用于更加人性化的人机交互、图像及视频检索、智能监控、人口统计等有重要意义。人脸属性识别技术以及声纹识别技术都发展到了一定的程度。

一、人脸属性识别技术：

随着计算机视觉的理论和应用研究快速发展，传统的性别识别方法已不能满足如今的需求，基于计算机的生物特征识别技术应运而生。生物特征识别技术包括：指纹、虹膜、人脸、声音、手势等，在这些特征里，人脸特征潜力巨大。每一张人脸都包含着丰富的信息，利用这些信息我们可以进行年龄、性别、身份等研究；每一张人脸具有唯一性，即使双胞胎也存在面部特征差异；人脸特征提取具有友好性，在对象未知的情况下进行特征提取。除此之外，基于人脸的性别年龄识别方法具有获取方便快捷、识别过程并发、识别结果直观、应用成本低性价比高等多种优势。

在性别识别方面：最早20世纪80年代，Golomb训练的全联结的二层神经网络；其后，Cottrell先对样本进行主分类分析(PCA)，然后训练BP(BackPropagation)神经网络；Gutta提出了采用混合分类器，把径向基神经网络和C4.5决策树算法结合起来，最高识别率96％；Moghaddam引入基于RBF(径向基函数)的SVM分类器，SVM达到96.6％正确率。Viola和Jones提出AdaBoost算法，在4500张图像达到78％正确率。清华大学的武勃等采用基于查找表的弱分类器，在FERET的图像中正确率达到88％。

在年龄估计方面：最早在1994年Young和Niels提出通过人脸进行年龄估计，将年龄分为小孩、年轻人和老年人；其后，Hayashi提出基于Hough变换的皱纹纹理和人脸图像肤色分析识别方法；Zhou提出Boosing作为回归方法进行年龄估计；Geng提出衰老模式子空间方法；Wei把年龄内部信息考虑在内，使用相关成分分析法(RCA)进行调整，并用LLPP及MFA算法进行降维处理。

除此之外，CVPR、ICIP、ECCV、ICPR等一些国际上比较权威的会议，每年都会出现一定数量的高质量的相关研究成果。

虽然已经在人脸属性方面取得了大量的研究成果，但是这些方法会受到实际应用场景的多种因素的影响，影响因素有：因为人脸是非刚性物体，不同的姿态、不同的光照、不同的表情会使同一张人脸有多样的变化，会给识别带来困扰；年龄对脸部特征带来影响，不同时期的人脸有很大的差异性；人脸也会受到遮挡的影响，比如有无眼镜、有无胡须、长短发等。

二、声纹识别技术：

声纹识别是一种生物识别技术，它利用人的话音中存在着的与身份相关的特性识别身份，也称为说话人识别(Speaker Recognition)。声纹识别根据语音波形中反映说话人生理和行为特征的语音参数自动鉴别说话人身份的一项技术，需要对因说话人的发音器官、发音通道和发音习惯而产生的个性差异提取特征。声纹因具备简单、方便、准确、经济及可扩展性良好等诸多优势。

其中特征提取和模式匹配是声纹识别的关键技术。基于特征提取，学者们提出了多种特征参数，包括线性预测编码系数(LPC)、线性预测倒谱系数(LPCC)、基于人耳听觉原理的梅尔频率倒谱系数(MFCC)等等。1995年，ReyrioMs釆用Mel倒谱和差分Mel倒谱相结合的方法；1996年，Colombi将由倒谱和差分倒谱相结合而组成的混合特性参数；2006年，Jungpa等人将分形维数与差分LPC倒谱参数相结合；2010年，Hossan、Memon、Gregory等提出基于DCT-II改进的MFCC，该方法融合了MFCC、delta-deltaMFCC和DCT-II三种特征；Davenport等利用神经网络和小波分析提取声学语音特征；还有人提出了基于离散小波变换和感知频域滤波的特征参数。

对于模式匹配过程，目前的研究方法有动态时间规整(DWT)、矢量量化(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)和人工神经网络等(ANN)等。Reynolds和Qiiatieri等针对GMM对于训练集合的依赖性问题提出了通用背景模型(UBM)；Wu提出一种a积分混合高斯模型(a-GMM)的匹配算法，此外，还有人提出将支持向量机(SVM)与GMM结合的算法。

虽然人脸属性识别技术以及声纹识别技术都发展到了一定的程度，但是利用声音识别运用在年龄识别领域依旧存在一些问题：无法将说话人的个性信息和说话内容有效的分开；说话人的特征不是固定不变的，说话人的发音常与环境、说话人的情绪、说话人的健康状况有密切联系；语音易被模仿；声音环境中的各种噪声和干扰，声音在线路传输时，会受到线路噪声的影响，不同的通信线路的噪声造成的影响也不同。

同时，现有的年龄分类器大多预测偏差大因为没有考虑性别与年龄之间的影响，男生和女生的脸部特征差异较大。具体体现为：

皮肤：女性的皮肤多光滑细腻，脸部线条柔和男性的皮肤就相对而言就粗糙的多了，在视觉上会感觉刚毅，线条较直；

额头：男性上颅骨扁平，额头突出。女性上颅骨普遍圆润，额头具有层次感；

眉毛：男性普遍眉丝粗而稀疏，显得毛糙。女性眉丝细而密，显得柔美，最典型的，平眉；

眼睛：男性眼睛容易，呈现平行四边形或者三角眼，女性眼睛边角容易圆形过度，显得柔美，而且女性普遍眼睛比男性大；

鼻子：亚洲男性普遍鼻梁细，挺，鼻翼粗厚，鼻头大。亚洲女性普遍鼻梁宽，鼻子塌，鼻翼薄，鼻头小；

嘴：男性容易唇纹多，嘴唇棱角分明。女性嘴唇薄，唇纹少；

下颚骨：男性容易宽且方正，女性容易内收。(所谓脸大脸小)下巴男性容易扁平方下巴，女性则尖下巴居多。

同年龄段的男女其人脸以及声音上差别较大，容易导致预测准确率低；比如同样18岁的男性以及女性，女性的人脸的皮肤细腻，而男性较粗糙，从而会导致男性预测出的年龄高于女性。

发明内容

本发明的目的在于：针对现有技术中单独的采用声纹识别或人脸识别来预测年龄存在局限性而导致年龄预测存在误差的问题，一种基于声纹和人脸图像特征融合的年龄预测系统及方法。

本发明采用的技术方案如下：

一种基于声纹和人脸图像特征融合的年龄预测方法，包括以下步骤：

步骤1：采集样本声音和样本人脸图像；

步骤2：通过神经网络对步骤1中的样本声音和样本人脸图像训练得到性别分类器；

步骤3：基于步骤2中的性别分类器以及步骤1中的样本声音和样本人脸图像融合训练得到年龄预测分类器。

具体地，所述步骤2中的具体步骤为：

步骤2.1：对步骤1中采集得到的样本声音和样本人脸图像进行预处理得到样本语音信号和样本图像数据；

步骤2.2：将步骤2.1中预处理后的样本语音信号和样本图像数据分别进行提取得到样本语音特征和样本图像特征；

步骤2.3：将步骤2.2中得到的样本语音特征和样本图像特征输入神经网络训练得到性别分类器。

具体地，所述步骤2.2中的具体为：

人脸图像的特征提取：将样本人脸图像通过卷积核进行卷积运算输出人脸特征图；

其中，x为一个大小为(M，N)的二维输入向量，w是大小为J*I卷积核，b为偏置，y为输出特征图，大小为M*N，激活函数用f表示；

样本声音的特征提取：提取样本声音的Mel频率倒谱系数得到样本声音特征。

具体地，所述步骤3的具体步骤为：

步骤3.1：根据性别分类器对步骤1中的样本声音和样本人脸图像进行分类得到女性样本声音、男性样本声音、女性样本人脸图像和男性样本人脸图像；

步骤3.2：对女性样本声音以及女性样本人脸图像进行训练得到女性年龄预测分类器，对男性样本声音以及男性样本人脸图像进行训练得到男性年龄预测分类器；

步骤3.3：融合女性年龄预测分类器以及男性年龄预测分类器得到年龄预测分类器。

本申请还提供了一种基于声纹和人脸图像特征融合的年龄预测系统，包括：图像采集模块、声音采集模块、控制模块、存储模块和训练识别模块；

所述图像采集模块：采集样本人脸图像；

所述声音采集模块：采集样本声音；

所述存储模块：接收并存储图像采集模块发送的采集样本人脸图像，接收并存储声音采集模块发送的样本声音；

所述训练识别模块：调用存储模块中的样本人脸图像以及样本声音进行训练识别得到性别分类器，并根据样本人脸图像以及样本声音以及性别分类器融合训练得到年龄预测分类器；

所述存储模块：接收并存储性别分类器以及年龄预测分类器；

所述控制模块：控制图像采集模块、声音采集模块、存储模块和训练识别模块的工作状态；

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本申请中通过融合了声音和人脸建立性别分类器，再根据性别分类器对数据集进行性别分类，分类之后训练得到基于性别的年龄预测分类器，不仅结合了声音与人脸的综合识别来实现年龄预测，解决了单独的声音或人脸造成年龄预测偏差的问题，同时本申请还通过性别分类器对男女数据集进行区分，更进一步地增加了年龄预测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1是本申请年龄预测方法的流程图；

图2是本申请年龄预测方法的训练分类模型流程图；

图3是本申请的年龄预测方法的性别分类流程图；

图4是本申请的年龄预测系统的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于声纹和人脸图像特征融合的年龄预测方法；

一、性别分类训练过程：

图像/语音数据：当该系统进行人机交互时，系统通过麦克风/摄像头得到的是两种数据：语音数据和图像数据。当装置为训练模式时，我们需要对得到的数据进行分别训练。当装置为识别模式时，需要对得到的数据进行性别分类；

(1)预处理：这一步主要是将原始信号经过一些特定的处理，处理成为系统可识别的信号。(2)人脸预处理：首先，是通过DLIB检测图像中的人脸。其次，将检测到的人脸进行均值滤波，滤除图像中的噪声。然后，直方图均衡化，增加图像对比度，减少光照影响。最后，几何归一化，消除人脸变形的影响，使人脸图像标准化，主要步骤：尺度校正、平移、旋转等。

(3)语音预处理：首先，采样量化，其次，预加重，通过一个高通滤波器来突出数字信号的高频部分。最后，分帧加窗，将语音分成语音片段(语音帧)，通过加窗处理，更好反映说话人的声纹特征变化。

(4)性别分类：将在识别模式下采集到的图像、语音数据放入已经训练好的基于图像的性别分类模型和基于声纹的性别分类模型中，得到性别分类结果。

分类融合：根据图像数据会得到图像性别分类结果及置信区间，同样根据语音数据得到声音性别分类结果和置信区间。此时，将置信区间较大的分类结果设为正值，如果另一种数据得到的分类结果与该分类结果一样设为正值，反之，则为负值。将两类分类结果各赋予50％权重，进行加权求和，如果求和的概率大于80％，则置信区间较大的分类结果为最终性别分类结果；如果概率小于80％大于15％，则重新收集语音数据和图像数据；如果概率小于15％，则置信区间较小的分类结果为最终分类结果；

二、年龄预测流程：

(1)图像/语音数据的采集、预处理、年龄分类、分类融合与性别分类流程的做法类似，故不在此赘述；

(2)数据分类：将采集到的图像数据/语音数据训练网络得到的性别分类器分为男性人脸(声音)和女性人脸(声音)。因为根据研究表明，男女因为性别差异人脸的面部特征和声音特征有较大的差异，需分别进行训练；

本实施例采用的卷积神经网络包含3个卷积层、2个全连接层和一些较少数量的神经元。

本装置使用的卷积神经网络结构具体如下：

1、第一层卷积层有96个大小为3*7*7大小的卷积核，步长为4，pad为2，激活函数采用ReLu，池化采用步长为2的3*3的最大池化，最后为局部相应归一化层。

2、第二层卷积层有256个大小为96*5*5大小的卷积核，步长为1，激活函数、池化和归一化与第一层一样；

3、第三层卷积层有384个大小为256*3*3大小的卷积核，激活函数、池化和归一化与第一层一样；

4、第四层全连接层，神经元个数为512；

5、第四层全连接层，神经元个数和第四层一样；

训练模型分为以下几步：

(1)预处理：为消除一些外在的人为影响，该步预处理的方式与性别分类流程图中的预处理方式一样。

(2)特征提取：这一步骤主要将预处理后的语音信号和图像数据转换为被训练的模型能处理的数学抽象数据。

(3)人脸图像的特征提取：

将输入的图像通过若干个卷积核进行卷积运算，卷积后的结果就构成了输入图像的特征图。其中的权重w和偏置b是卷积神经网络需要训练的参数。

卷积层实际上做的是一个线性的相关运算，具体公式如下：

其中，x为一个大小为(M，N)的二维输入向量，w是大小为J*I卷积核，b为偏置，y为输出特征图，大小为M*N，激活函数用f表示。

每个卷积和都会与上一层的输入图像进行卷积操作，每个卷积核都会有一个对应的输出特征图。

卷积层中权值共享，参数个数大大缩减，极大地提升了网络地训练速度。

(4)声音信号的特征提取：提取语音信号的Mel频率倒谱系数。Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)的分析基于人耳的听觉特性。因为，人耳听到的声音的高低与声音的频率并不成线性正比关系，Mel频率尺度更符合人耳的听觉特性。所谓Mel频率尺度，它的值大体上对应于实际频率的对数分布关系，具体关系可用下式表示：

Mel(f)＝2595*log(1+f/700)

实际频率f的单位是Hz，已有结论，临界频率带宽随着频率的变化而变化，并与Mel频率的增长一致。在1000Hz以下，大致呈线性分布，带宽为100Hz左右；在1000Hz以上呈对数增长。类似于临界带的划分，可以将语音频率划分呈一系列三角形的滤波器序列，即Mel滤波器组。MFCC参数的计算过程步骤如下：

(4-1)、将实际频率尺度转换为Mel频率尺度。

(4-2)在Mel频率轴上配置L个通道的三角滤波器组，L的个数由信号的截止频率决定。每一个三角形滤波器中心频在c(l)在MEL频率轴上等间隔分配。设o(l)、c(l)、h(l)分别是第L个三角滤波器的下限、中心和上限频率，则相邻三角形滤波器之间的下限、中心和上限频率有如下关系成立

C(l)＝h(l-1)＝o(l+1)

(4-3)根据语音信号幅度谱X_n(k)求每个三角形滤波器的输出

其中，l＝1，2，…，L

(5)对所有滤波器输出做对数运算，再进一步做离散余弦变换(DCT)即可得到MFCC

年龄/性别标签：即是根据提取的特征将说话和被采集人脸图像的人按照年龄段和性别进行分类并标注，便于后期模型的调整；

年龄/性别分类器：将采集到的大量的语音/图像数据输入卷积神经网络，并和已标注的数据进行比对，调整模型参数，得到较好的模型，即为分类器。

实施例二

本实施例提供了一种基于声纹和人脸图像特征融合的年龄预测系统：包括：图像采集模块、声音采集模块、控制模块、存储模块和训练识别模块；

所述图像采集模块：采集样本人脸图像；

所述声音采集模块：采集样本声音；

下面对各个模块进行详细的阐述：

图像采集模块采用多媒体设备，多媒体设备包括液晶显示屏和前置摄像头：当屏幕显示为训练模式时，前置摄像头采集用户的人脸图像数据，该数据作为训练数据；当屏幕显示为识别模式时，前置摄像头采集用户的人脸图像数据，并将数据处理后的结果显示在液晶显示屏上。

声音采集模块采用音频设备，音频设备包括麦克风和扬声器。本装置采用的是语音交互，通过扬声器提供采集模式和识别模式供给用户选择，引导用户使用该装置。麦克风用于接收用户的音频信号，音频信号分为：系统操作语音信号、语音采集信号和语音识别信号。

控制模块采用处理器，通常控制该装置的整体操作，比如显示、摄像头操作、语音交互操作、存储操作、识别操作和训练模型操作。

训练识别模块采用计算单元，包括两大模式：训练、识别模式。当模式为训练模式，通过对前置摄像头采集的人脸数据和麦克风采集的语音数据进行预处理、特征提取和训练卷积神经网络得到分类器。当模式为识别模式，对采集到的人脸数据和语音数据进行相同的预处理并用训练得到的分类器进行年龄性别分类。

存储模块采用存储器，存储器主要存储两种数据：摄像头、麦克风采集的数据和卷积神经网络得到的分类器模型，当该装置为采集模式时，需要对采集到的数据分配存储单元进行存储。当训练模式时，需要调用相应的存储单元中的数据进行模型训练，模型训练完成后将模型的参数存储到相应的存储的单元。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于声纹和人脸图像特征融合的年龄预测方法，其特征在于，包括以下步骤：

步骤1：采集样本声音和样本人脸图像；

2.如权利要求1所述的一种基于声纹和人脸图像特征融合的年龄预测方法，其特征在于，所述步骤2中的具体步骤为：

3.如权利要求2所述的一种基于声纹和人脸图像特征融合的年龄预测方法，其特征在于，所述步骤2.2中的具体为：

4.如权利要求1所述的一种基于声纹和人脸图像特征融合的年龄预测方法，其特征在于，所述步骤3的具体步骤为：

5.一种基于声纹和人脸图像特征融合的年龄预测系统，其特征在于，包括：图像采集模块、声音采集模块、控制模块、存储模块和训练识别模块；

所述图像采集模块：采集样本人脸图像；

所述声音采集模块：采集样本声音；

所述控制模块：控制图像采集模块、声音采集模块、存储模块和训练识别模块的工作状态。