CN104700843A

CN104700843A - 一种年龄识别的方法及装置

Info

Publication number: CN104700843A
Application number: CN201510060710.8A
Authority: CN
Inventors: 贾魁; 王勇进; 匡涛; 任晓楠
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2015-06-10

Abstract

本发明公开了一种年龄识别的方法及装置，包括：提取待识别声音信号中的浊音信息；对浊音信息进行特征提取，得到待识别声音信号的基频参数特征向量和梅尔频率倒谱系数特征向量；将基频参数特征向量与第一年龄识别模型进行匹配，将梅尔频率倒谱系数特征向量与第二年龄识别模型进行匹配，得到多个与年龄类别对应的第一年龄识别结果和第二年龄识别结果；将同一年龄类别对应的第一年龄识别结果和第二年龄识别结果进行加权计算，得到多个与年龄类别对应的第三年龄识别结果；将最大的第三年龄识别结果所对应的年龄类别作为待识别声音信号的年龄段识别结果提取出的基频参数和梅尔频率倒谱系数能更好地描述说话人的年龄特征，有利于提高年龄识别准确率。

Description

一种年龄识别的方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种年龄识别的方法及装置。

背景技术

声纹识别技术具有简便、准确、经济以及扩展性良好等优势，有着广泛的应用前景。声纹识别技术可应用电视中实现通过语音对电视进行操控。语音操控电视是实现电视智能化的重要一步，而智能语音助手在电视上的应用使语音电视的交互模型得到进一步升级，用户通过语音助手对电视进行操控，可以更加简单快捷地实现用户的意图。

随着影视类型的多样化，影视不仅是一种娱乐工具，其内容的积极性或消极性更是对用户的人生观和价值观产生一定的影响。例如，青少年正值价值观的形成期，影视文化对青少年的成长和发展的影响更为深远，如果能够对未成年人观看的节目进行必要的限制，可以减少个别影视内容对青少年的消极影响。一般来说，不同年龄段的用户对影视内容的偏好不同，如果智能语音助手可以根据用户的声音判断出用户的所属的年龄范围，针对一个年龄段的用户推荐该年龄段用户适宜观看的节目，那么对于用户来说会有更好的用户体验。

若要实现为不同年龄段用户推荐合适的电视节目以提高用户体验，亟待一种识别用户年龄的技术，例如基于语音的年龄识别技术。

发明内容

本发明实施例提供一种基于年龄识别模型实现的显示方法及装置，用以实现基于待识别声音进行用户年龄识别，进而为不同年龄段用户推荐合适的电视节目，提高用户体验。

本发明实施例提供了一种年龄识别方法，该方法包括：

提取待识别声音信号中的浊音信息；

对所述浊音信息进行特征提取，得到所述待识别声音信号的基频参数特征向量和梅尔频率倒谱系数特征向量；

将所述基频参数特征向量与第一年龄识别模型进行匹配，得到多个与年龄类别对应的第一年龄识别结果；

将所述梅尔频率倒谱系数特征向量与第二年龄识别模型进行匹配，得到多个与年龄类别对应的第二年龄识别结果；

将同一年龄类别对应的第一年龄识别结果和第二年龄识别结果进行加权计算，得到多个与年龄类别对应的第三年龄识别结果；

将最大的第三年龄识别结果所对应的年龄类别作为所述待识别声音信号的年龄段识别结果。

上述实施例中，将用户发出的待识别声音信号中的真正具有人体声音特征的浊音信息分离出，并从浊音信息中提取出反映说话人发音的声带震动信息的基频参数以及反映人耳感知的声道特性信息的梅尔频率倒谱系数，将基频参数与第一年龄识别模型匹配，将梅尔频率倒谱系数与第二年龄识别模型匹配，然后将匹配结果较高的年龄识别结果作为最终年龄识别结果，提高了年龄识别的准确率。

基于上述方法流程本发明实施例提供了一种年龄识别装置，包括：

获取单元，用于提取待识别声音信号中的浊音信息；

提取单元，用于对所述浊音信息进行特征提取，得到所述待识别声音信号的基频参数特征向量和梅尔频率倒谱系数特征向量；

第一匹配单元，用于将所述基频参数特征向量与第一年龄识别模型进行匹配，得到多个与年龄类别对应的第一年龄识别结果；

第二匹配单元，用于将所述梅尔频率倒谱系数特征向量与第二年龄识别模型进行匹配，得到多个与年龄类别对应的第二年龄识别结果；

处理单元，用于将同一年龄类别对应的第一年龄识别结果和第二年龄识别结果进行加权计算，得到多个与年龄类别对应的第三年龄识别结果，将最大的第三年龄识别结果所对应的年龄类别作为所述待识别声音信号的年龄段识别结果。

上述实施例中，将用户发出的待识别声音信号中的真正具有人体声音特征的浊音信息分离出，并从浊音信息中提取出反映说话人发音的声带震动信息的基频参数以及反映人耳感知的声道特性信息的梅尔频率倒谱系数，将基频参数与第一年龄识别模型匹配，将梅尔频率倒谱系数与第二年龄识别模型匹配，然后将匹配结果较高的年龄识别结果作为最终年龄识别结果，提高了年龄识别的准确率。待识别声音待识别声音待识别声音待识别声音

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为发明实施例提供的一种建立年龄识别模型的方法流程图；

图2为发明实施例提供的一种语音的产生模型的结构示意图；

图3为本发明实施例提供的一种分离浊音信息的方法流程图；

图4为本发明实施例提供的一种基于LPC预测残差的倒谱基音提取算法流程图；

图5为本发明实施例提供的一种提取MFCC系数的算法流程图；

图6为本发明实施例提供的一种GMM模型结构示意图；

图7为本发明实施例提供的一种基于年龄识别模型实现的显示方法示意图；

图8为本发明实施例提供的一种基于年龄识别进行电视节目推荐的流程图；

图9为本发明实施例提供的一种建立年龄识别模型的装置的结构示意图；

图10为本发明实施例提供的一种显示装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了解决现有技术中存在的根据用户发出的声音不能准确识别出用户的年龄，导致不能为不同年龄段的用户推荐适宜观看的电视节目，限制提高用户体验的技术问题。本发明实施例首先提供了一种建立年龄识别模型的方法及装置，通过从语音信号的浊音信息中提取出能更好地描述说话人的年龄特征的声音特征参数，即基频参数和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)，其中，基频参数反映了说话人发音的声带震动信息，梅尔频率倒谱系数反映了人耳感知的声道特性信息，基于基频参数和梅尔频率倒谱系数训练出的年龄识别模型，能更好地描述说话人的年龄特征，实现年龄识别准确率的提高，其中，每一类年龄识别模型都包括多个年龄段的年龄识别模型。

本发明实施例还提供了一种基于年龄识别模型实现的年龄识别方法和装置，从用户发出的声音信号中提取基频参数和梅尔频率倒谱系数，将基频参数与上述根据基频参数训练得到的某一年龄段的年龄识别模型进行匹配，获得第一年龄识别结果，将梅尔频率倒谱系数与上述根据梅尔频率倒谱系数训练得到的某一年龄段的年龄识别模型进行匹配，获得第二年龄识别结果，将匹配度最高的年龄识别结果作为用户的声音所属的年龄范围，根据识别出的年龄范围为用户推荐适宜的电视节目，能够给不同年龄段的用户带来更好的用户体验。下面针对具体的实施例对本发明实施例提供的一种建立年龄识别模型的方法及装置，以及一种基于年龄识别模型实现的显示方法和装置进行详细说明。

实施例1

如图1所示的本发明实施例提供一种建立年龄识别模型的方法，该方法包括：

步骤101，获取待训练语音信号；

步骤102，根据待训练语音信号的短时能量和短时平均过零率，得到待训练语音信号中的浊音信息；

步骤103，对待训练语音信号中的浊音信息进行特征提取，得到待训练语音信号的基频参数特征向量；

步骤104，对待训练语音信号中的浊音信息进行特征提取，得到待训练语音信号的和梅尔频率倒谱系数特征向量；

步骤105，对基频参数特征向量进行高斯混合模型GMM训练得到第一年龄识别模型；

步骤106，对梅尔频率倒谱系数特征向量进行GMM模型训练得到第二年龄识别模型。

在本实施例步骤101中，待训练语音信号，是从语音库中获得的语音信号，语音库存储有不同年龄范围的男、女语音数据，可以分为儿童语音库(13岁以下)，青少年语音库(14～18)、青年语音库(19～40)、中年语音库(41～65)、老年语音库(65岁以上)，每个语音库中的语音数据包括男性语音数据和女性语音数据。

一般情况下，语音的产生是激励源和声道共同作用的结果。语音信号的模型包括三部分：激励源、声道模型和辐射模型。激励源分为浊音和清音两个分支，如图2所示，浊音时其激励源为周期脉冲发生器，清音时则为随机噪声发生器。人类的语音大致可以分为清音和浊音两部分，清音和浊音这两类语音有很大的不同，浊音的声音段以相对高的能量分布为特征，更重要的是具有语音基音的周期性，在频域上有共振峰结构，而且能量大部分集中在低频段内。清音的振幅比较小，波形随机变化，没有规律性，非常类似于白噪声的时域波形，清音的形成是在声道中的一定部位被压缩后，压迫空气以足够高的速度通过这些压缩部位，产生涡流，从而产生了清音。

浊音信息一般有相对固定频率，这个频率就是基音频率F0，基音频率与说话人以及发音有很大关系，考虑到浊音中包含很多语音信息，能真正代表说话人的声音特征。通常在10～30ms的短时间范围内，浊音段可以看作是一个准稳态过程，即具有短时性。因此，本发明实施例步骤102采用短时能量和过零率来对语音信号中的浊音段与非浊音段进行分离，保留浊音信息是可行的。

优选的，步骤102中也可以同过其他方式来获取浊音信息，在本实施例中具体包括：对待训练语音信号进行加窗分帧处理，得到每一帧待训练语音信号的短时能量；根据第一阈值以及每一帧待训练语音信号的短时能量，分离出静音信号帧和语音信号帧；去除静音信号帧，保留语音信号帧，并计算语音信号帧的短时平均过零率；根据第二阈值以及语音信号帧的短时平均过零率，从语音信号帧中分离出清音信号帧和浊音信号帧；去除清音信号帧，保留浊音信号帧。

具体的，如图3所示的一种分离浊音信息的流程，先将语音信号中的语音段和静音段分离出，然后再将语音段中的浊音段和清音段分离出，最终检测出语音信号的浊音信息。

语音段和静音段的区别往往体现在短时能量上，短时能量是对语音信号进行分帧处理后，计算得出的每一帧的能量。短时能量是随机参数，在静音段、清音段和浊音段，分别具有不同的概率密度函数，一般浊音的短时能量最大，清音能量次之，静音的短时能量最小。通过设定合适的短时能量阈值(η₁)，根据语音信号分帧后每一帧的短时能量就能把语音段和静音段(背景声音)区分开。但对于一些家庭场景短时强噪声比较大的情况下，还需要借助短时过零率来将噪声和浊音区别开。

语音段中的浊音段和清音段的区别体现在短时过零率上，短时过零率表示一帧语音信号中语音信号波形穿过横轴(零电平)的次数。语音信号中的高频段有高的过零率，低频段的过零率较低，也就是清音的过零率较高，浊音的过零率较低。通过设定合适的阈值(如η₂,η₃)，将过零率Z_n满足η₂<Z_n<η₃的确定为浊音段，将过零率Z_n>η₃的确定为清音段。过零率阈值的选取需要通过实验选取合适的值。

为了更清楚的说明本发明实施例的检测浊音信息的方法，本发明实施例给出了计算短时能量和短时过零率的方法，具体为：

设语音的波形时域信号为x(l)，对该语音信号进行加窗分帧处理后得到第n帧语音信号x_n(m)如下式：

x_n(m)＝w(m)·x(n+m)，(0≤m≤N-1) 公式(1)

其中，m为采样点数，n＝0,1T,2T,...,T为帧移长度，N为帧长，即总的采样点数，w(m)为可移动的有限长度的窗函数。为了减少时域信号加窗引起的频谱能量泄漏，可采用不同的截取函数对信号进行截短，截短函数称为窗函数，简称为窗。

根据公式(1)，语音信号的短时能量E_n定义为：

E_{n} = Σ_{m = 0}^{N - 1} x_{n}^{2} (m)

公式(2)

语音信号x_n(m)的短时过零率Z_n定义式为：

Z_{n} = \frac{1}{2} Σ_{m = 0}^{N - 1} | sgn [x_{n} (m)] - sgn [x_{n} (m - 1)] |

公式(3)

公式(3)中，sgn[]是符号函数，即：

sgn [x] = \{\begin{matrix} 1 & (x &GreaterEqual; 0) \\ - 1 & (x < 0) \end{matrix}

公式(4)

上述方法流程将短时能量和短时过零率这两个参数结合起来分离浊音和非浊音，计算量小，可以有效地提取语音信号中的浊音信息，将不反映人的发声特征的背景音段，以及振幅比较小，波形随机变化，没有规律性，类似于白噪声的静音段去除，通过短时过零率还可将强噪声和浊音区别开，实现了将真正具有人体声音特征的浊音信息分离出来，以提高年龄识别的准确率。

获得语音信号中的浊音信息之后，需要对浊音信息进行特征提取，得到用于进行年龄识别模型训练的特征值，本发明实施例中选择了两种最能体现说话人年龄特征的两种特征参数，基频参数和梅尔频率倒谱系数，根据这两种参数来计算得到两类用于进行年龄识别模型训练的特征值。

基频参数F0包含了语音信号的大量有用信息，反映了说话人发浊音时声带振动的基本频率，与说话人的年龄、性别、发音时的力度及情感有关。现有的基频参数提取算法大致可以分为三类：时域分析算法，如自相关法(ACF)、短时平均幅度差法(AMDF)等；频域分析算法，如倒谱法(CEP)等；时频结合的分析算法，如小波分析算法等。本发明实施例主要采用基于LPC预测残差的倒谱基音提取算法，属于频域倒谱法中的一种，主要是利用预测残差信号来估计基音周期。利用预测残差信号来估计基音周期，由于残差信号的谱接近平坦，同时共振峰效应在残差信号中也被去除，使共振峰不会影响到基音周期的估计，检测基频信息中的基音周期的精度较高。

优选的，步骤103对待训练语音信号中的浊音信息进行特征提取，得到待训练语音信号的基频参数特征向量，包括：对待训练语音信号中的浊音信息进行线性预测编码分析，得到预测系数，根据预测系数获得逆滤波器；根据逆滤波器对待训练语音信号进行逆滤波，得到线性预测残差信号；对线性预测残差信号作离散傅里叶变换并取对数后，将待训练语音信号的高频分量置零；对高频分量置零的线性预测残差信号作逆离散傅里叶变换，得到待训练语音信号的倒谱；检测倒谱中的基频信息，得到待训练语音信号的基音周期；根据待训练语音信号的基音周期，得到基频参数特征向量。

具体的，如图4所示的基于LPC预测残差的倒谱基音提取算法流程，包括以下步骤：

步骤一：对分帧加窗并去掉静音段和清音段，保留浊音段的语音信号(浊音信号)进行线性预测编码(LPC)分析，得到预测系数，并根据预测系数得到逆滤波器；

其中，浊音信号x(n)可以表示为：

x (n) = - Σ_{i = 1}^{p} a_{i} x (n - i) + Ge (n)

公式(5)

其中，a_i为预测系数，p为预测阶数，e(n)为激励信号，G为幅度因子，n为每帧浊音信号的采样点数。

根据预测系数a_i，构成逆滤波器A(z)，其中A(z)可表示为：

A (z) = 1 - Σ_{i = 1}^{p} a_{i} z^{- i}, a_{0} = 1

公式(6)

步骤二：将浊音信号通过逆滤波器A(z)进行逆滤波，得到线性预测残差信号，其中线性预测残差信号中不包含声道响应信息，但包含完整的激励信息；

步骤三：对线性预测残差信号作DFT(Discrete Fourier Transform，离散傅里叶变换)并取对数后，对其进行低通滤波处理，将语音信号的高频分量置零后进行步骤四的逆变换；

其中，将语音信号的高频分量置零是指滤除语音信号中的高频分量，高频分量为信号频率较高的部分。

步骤四：将高频分量置零后的信号作IDFT(Inverse Discrete Fourier Transform，逆离散傅里叶变换)，得到浊音信号的倒谱，根据倒谱中的基频信息检测出浊音信号的基音周期；

步骤五：根据步骤四种得到的基音周期，获取浊音信号的基频参数，将基频参数作为特征值，组成基频参数特征向量。其中，每一帧浊音信号经过步骤一至步骤四，都可以检测出一个基音周期，根据每一帧浊音信号的基音周期，得到每一帧浊音信号的基频参数。

另外一个特征参数为梅尔频率倒谱系数(MFCC)，梅尔频率倒谱系数是基于人耳听觉域特性(如人耳感知的声道特性)提取的特征参数，在一定程度上模拟了人耳对语音的处理特点。由于人耳的滤波作用是在对数尺度上进行的，1000Hz以下为线性尺度，而1000Hz以上为对数尺度。人类的听觉特性对声音频率的感知过程是一个非线性系统，这使得人耳对低频信号比对高频信号更加敏感，根据这一原则本发明实施例引入类似人耳作用的一组滤波器组，即梅尔频率滤波器组，来提取浊音信息中的梅尔频率倒谱系数。通过梅尔频率滤波器组对浊音信号进行带通滤波并经数学变换和计算后得到的梅尔频率倒谱系数的精度较高，有利于提高年龄识别的准确率。

其中，梅尔频率与物理学上对频率的描述不同，梅尔频率与实际频率Hz也是一种非线性的对应关系可表示为：

Mel(f)＝2595lg(1+f/700) 公式(7)

优选的，步骤104对待训练语音信号中的浊音信息进行特征提取，得梅尔频率倒谱系数特征向量，包括：

对待训练语音信号进行快速傅里叶变换，将待训练语音信号由时域信号变换为频域信号；将频域信号取模并求平方之后，得到频域信号的短时能量谱；采用M个三角形滤波器组在频域对频域信号的短时能量谱进行带通滤波，得到M个离散的能量值；对M个离散的能量值取对数，得到M个梅尔域滤波器组的能量值；对M个梅尔域滤波器组的能量值进行离散余弦变换得到初始梅尔频率倒谱系数；对初始梅尔频率倒谱系数进行差分运算，得到一阶差分系数和二阶差分系数；根据一阶差分系数和二阶差分系数，得到梅尔频率倒谱系数特征向量；其中，M为大于1的正整数。

具体的，如图5所示的提取MFCC系数的算法流程，包括以下步骤：

步骤一：对分帧加窗并去掉静音段和清音段，保留浊音段的语音信号(浊音信号)进行FFT(Fast Fourier Transform，快速傅立叶变换FFT)，将浊音信号由时域信号变换为频域信号；

步骤二：将得到的频域信号取模并求平方之后，得到频域信号的短时能量谱；其中，各个帧的浊音信号变换成频域信号后，经过取模并求平方的计算过程得到各个帧的频域信号的短时能量谱；

步骤三：采用M个三角形滤波器组将各个帧的短时能量谱进行带通滤波，得到M个离散的能量值；其中，M为大于1的正整数。

步骤四：对滤波器组输出的M个离散的能量值取对数，得到M个梅尔域滤波器组的对数能量值，然后对M个梅尔域滤波器组的对数能量值进行DCT(Discrete Cosine Transform，离散余弦变换)得到初始MFCC系数；

步骤五：对初始梅尔频率倒谱系数进行一阶差分运算和二阶差分运算，得到一阶差分系数和二阶差分系数，根据一阶差分系数和二阶差分系数，得到MFCC系数；其中，一阶差分系数、二阶差分系数来表征说话人的动态特性。

步骤六：将MFCC系数作为特征值，组成MFCC系数特征向量。其中，每一帧浊音信号经过步骤一至步骤五，都可以得到具有一定维数的MFCC系数，其维数主要取决于进行带通滤波的梅尔域滤波器组中的滤波器的个数。

按照本发明实施例的方法流程，根据待训练语音信号的浊音信息获取基频参数特征向量和梅尔频率倒谱系数特征向量之后，本发明实施例选择高斯混合模型(GMM模型)作为训练模型对特征向量中的特征值进行训练，得到两类年龄识别模型，即基于基频参数得到的第一年龄识别模型，基于梅尔频率倒谱系数得到的第二年龄识别模型。高斯混合模型本质是一种多维概率密度函数且具有N个混合成分的D维GMM模型，根据多个特征矢量估计出的参数值，使得属于某年龄范围的训练语音在训练得到的该年龄范围的年龄识别模型中的概率密度最大，有利于提高基于该年龄范围的年龄识别模型进行年龄识别的准确率。

优选的，步骤105中，对基频参数特征向量进行GMM训练得到第一年龄识别模型，包括：

将所述基频参数特征向量作为所述GMM模型的训练样本，采用最大似然估计和最大期望算法估测出所述GMM模型收敛时的GMM模型参数值，根据所述GMM模型参数值得到所述第一年龄识别模型。

优选的，步骤106中，对梅尔频率倒谱系数特征向量进行GMM模型训练得到第二年龄识别模型，包括：

将梅尔频率倒谱系数特征向量作为所述GMM模型的训练样本，采用最大似然估计和最大期望算法估测出所述GMM模型收敛时的GMM模型参数值，根据所述GMM模型参数值得到所述第二年龄识别模型。

本发明实施例采用的一种GMM模型图如图6所示，该GMM模型本质是一种多维概率密度函数，是具有N个混合成分(B₁(X)，B₂(X)，…，B_N(X))的D维GMM模型，可用N个高斯成员的加权和∑来表示，即GMM模型可以用函数表示为：

p (X | γ) = Σ_{i = 1}^{N} p (ω_{i}) B_{i} (X)

公式(8)

公式(8)中，X为D维随机矢量；

公式(8)中，p(ω_i)为混合权重值，i＝1,2,…,N，并且满足：

公式(8)中，B_i(X)为D维高斯概率密度分量函数，i＝1,2,…,N，并且B_i(X)定义为：

B_{i} (X) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(X - μ_{i})}^{T} Σ_{i}^{- 1} (X - μ_{i})}

公式(9)

公式(9)中，μ_i为平均矢量，∑_i为协方差矩阵。

因此，根据公式(8)和公式(9)，GMM模型是由各个混合分量的均值矢量μ_i、协方差矩阵∑_i以及混合权重p(ω_i)组成，用来对样本的概率密度分布进行估计的模型，可进一步表示为：

γ＝{p(ω_i),μ_i,∑_i},i＝1,2,…,N 公式(10)

本发明实施例中，训练GMM模型的过程就是对训练样本进行训练，估测出一组GMM模型参数，使其能更好地描述语音数据的概率分布。其中，训练样本为上述步骤所提取的特征参数特征向量，根据估测出的一组GMM模型参数得到的GMM模型为年龄识别模型。

本发明实施例中，待训练的GMM模型由N个混合类别的均值矢量μⁱ、协方差矩阵∑_i以及混合权重p(ω_i)组成，N为大于1的整数。比如，N个混合类别分别为儿童(C)、青少年(T)、青年(Y)、中年(M)、老年(A)五类年龄段。

具体的，本发明实施例采用最大似然估计来估测GMM模型参数，使GMM模型能够更好的描述一个类别的概率分布。根据公式(10)，GMM模型γ由各个混合分量的均值矢量μ_i、协方差矩阵∑_i以及混合权重p(ω_i)组成。设训练样本矢量(可以是基频参数F0特征向量或者MFCC系数特征向量)的序列定义为X＝{x_i}，i＝1,2,…,L,其中，L为训练语音的总帧数，训练样本的似然度可以表示为：

p (X / γ) = Π_{i = 1}^{L} p (x_{i} | γ)

公式(11)

公式(11)中，训练样本的似然度p(X|γ)是参数γ的非线性函数，本发明实施例采用EM算法(Expectation-Maximization algorithm，最大期望算法)来估计一组参数γ，使得p(X|γ)最大。EM算法是一种递归最大似然算法，可以从一组训练样本中估计出GMM模型参数。先设定初始参数γ，通过EM算法估计出一个新的参数使得新的参数的似然度然后将新的模型参数作为初始模型参数进行训练，如此迭代运算直至模型收敛，根据模型收敛时的一组参数γ使得GMM模型，能更好地描述描述一个类别的概率分布。下面将分述针对不同年龄类别得到的子第一年龄识别模型和子第二年龄识别模型。

例如，如果将待训练的GMM模型训练成为儿童年龄识别模型，则需要对儿童语音训练样本进行训练，估测出一组GMM模型参数γ_C，使儿童语音样本的均值、协方差矩阵和出现的概率值最大，即儿童语音训练样本的概率分布最大，根据这一组GMM模型参数得到的儿童年龄识别模型才能更好的描述儿童语音数据的概率分布。儿童语音训练样本可以是对儿童语音库中的语音数据进行提取得到的基频参数F0特征向量或者MFCC系数特征向量，根据基频参数特征向量得到的年龄识别模型为第一儿童年龄识别模型(子第一年龄识别模型)，根据梅尔频率倒谱系数特征向量得到的年龄识别模型为第二儿童年龄识别模型(子第二年龄识别模型)。

按照同样的方法，对青少年(T)语音库中的语音数据进行特征提取得到青少年语音训练样本，对青少年语音训练样本进行训练后，估测出一组GMM模型参数γ_T，使得到的青少年年龄识别模型能够更好的描述青少年语音数据的概率分布。青少年语音训练样本可以是对青少年语音库中的语音数据进行提取得到的基频参数F0特征向量或者MFCC系数特征向量，根据基频参数特征向量得到的年龄识别模型为第一青少年年龄识别模型，根据梅尔频率倒谱系数特征向量得到的年龄识别模型为第二青少年年龄识别模型。

对青年(Y)语音库中的语音数据进行特征提取得到青年语音训练样本，对青年语音训练样本进行训练后，估测出一组GMM模型参数γ_Y，使得到的青年年龄识别模型能够更好的描述青年语音数据的概率分布。青年语音训练样本可以是对青年语音库中的语音数据进行提取得到的基频参数F0特征向量或者MFCC系数特征向量，根据基频参数特征向量得到的年龄识别模型为第一青年年龄识别模型，根据梅尔频率倒谱系数特征向量得到的年龄识别模型为第二青年年龄识别模型。

对中年(M)语音库中的语音数据进行特征提取得到中年语音训练样本，对中年语音训练样本进行训练后，估测出一组GMM模型参数γ_M，使得到的中年年龄识别模型能够更好的描述中年语音数据的概率分布。中年语音训练样本可以是对中年语音库中的语音数据进行提取得到的基频参数F0特征向量或者MFCC系数特征向量，根据基频参数特征向量得到的年龄识别模型为第一中年年龄识别模型，根据梅尔频率倒谱系数特征向量得到的年龄识别模型为第二中年年龄识别模型。

对老年(A)语音库中的语音数据进行特征提取得到老年语音训练样本，对老年语音训练样本进行训练后，估测出一组GMM模型参数γ_A，使得到的老年年龄识别模型能够更好的描述老年语音数据的概率分布。老年语音训练样本可以是对老年语音库中的语音数据进行提取得到的基频参数F0特征向量或者MFCC系数特征向量，根据基频参数特征向量得到的年龄识别模型为第一老年年龄识别模型，根据梅尔频率倒谱系数特征向量得到的年龄识别模型为第二老年年龄识别模型。

本发明实施例中，按照上述方法，根据基频参数特征向量得到的年龄识别模型为第一年龄识别模型，根据梅尔频率倒谱系数特征向量得到的年龄识别模型为第二年龄识别模型。

在本发明实施例中，首先对GMM模型进行训练，然后利用训练后的GMM对采集的用户语音样本(待识别声音)的概率密度分布进行估计，根据估计的概率值对用户的语音数据进行年龄识别。使用训练后的GMM模型对用户的语音数据进行年龄识别的具体内容参见实施例2。

上述实施例中，将语音信号中的真正具有人体声音特征的浊音信息分离出，并从浊音信息中提取出反映说话人发音的声带震动信息的基频参数以及反映人耳感知的声道特性信息的梅尔频率倒谱系数，基于基频参数和梅尔频率倒谱系数训练出的年龄识别模型，可以更好地描述说话人的年龄特征，提高了年龄识别的准确率。

实施例2

基于上述实施例建立年龄识别模型的方法，本发明实施例提供了一种如图7所示的基于年龄识别模型实现的显示方法，包括：

步骤701，获取待识别声音信号，待识别声音信号是语音收集装置在用户使用语音操控终端时检测到的；

步骤702，根据待识别声音信号的短时能量和短时平均过零率，得到待识别声音信号中的浊音信息；

步骤703，对待识别声音信号中的浊音信息进行特征提取，得到待识别声音信号的基频参数特征向量；

步骤704，对待识别声音信号中的浊音信息进行特征提取，得到待识别声音信号的梅尔频率倒谱系数特征向量；步骤703与步骤704之间无明确的顺序关系，此处只作为示例。

步骤705，将基频参数特征向量与第一年龄识别模型进行匹配，得到多个与年龄类别对应的第一年龄识别结果；

步骤706，将梅尔频率倒谱系数特征向量与第二年龄识别模型进行匹配，得到多个与年龄类别对应的第二年龄识别结果；步骤705与步骤706之间无明确的顺序关系，此处只作为示例。

步骤707，将同一年龄类别对应的第一年龄识别结果和第二年龄识别结果进行加权计算，得到多个与年龄类别对应的第三年龄识别结果；

步骤708，将最大的第三年龄识别结果所对应的年龄类别作为所述待识别声音信号的年龄段识别结果；其中，第一年龄识别模型和第二年龄识别模型是通过对获取的待训练语音信号训练得到的。

步骤701中，待识别声音信号是语音收集装置在用户使用语音操控终端时检测到的，例如，使用智能电视上的语音助手获取语音数据，在用户发出语音指令之后，通过遥控器麦克风获取用户语音信号作为待识别声音信号。

待识别声音信号经过预处理之后，执行步骤702的操作。待识别声音信号的预处理过程是指对待识别声音信号进行分帧加窗处理，例如采用8KHz、16KHz、22.05KHz以及44.1KHz等多种采样率下的wav音频格式，量化精度为16bit的单声道信号，将待识别声音信号进行分帧加窗处理，其中，帧长取16ms，即256个采样点，帧移为128个采样点，对每一帧待识别声音信号加上汉明窗，具体的分帧加窗处理采用现有技术的手段实现，在此不再赘述。

步骤702中，根据待识别声音信号的短时能量和短时平均过零率，得到待识别声音信号中的浊音信息，包括：对待识别声音信号进行加窗分帧处理，得到每一帧待识别声音信号的短时能量；根据第一阈值以及每一帧待识别声音信号的短时能量，分离出静音信号帧和语音信号帧；去除静音信号帧，保留语音信号帧，并计算语音信号帧的短时平均过零率；根据第二阈值以及语音信号帧的短时平均过零率，从语音信号帧中分离出清音信号帧和浊音信号帧；去除清音信号帧，保留浊音信号帧。实施中去除语音信号中的静音和清音部分，将不反映人的发声特征的背景音段，以及振幅比较小，波形随机变化，没有规律性，类似于白噪声的静音段去除，通过短时过零率还可将强噪声和浊音区别开，实现了将真正具有人体声音特征的浊音信息分离出来，以提高年龄识别的准确率。

步骤703中，对待识别声音信号中的浊音信息进行特征提取，得到待识别声音信号的基频参数特征向量包括：对待识别声音信号中的浊音信息进行线性预测编码分析，得到预测系数，根据预测系数获得逆滤波器；根据逆滤波器对待识别声音信号进行逆滤波，得到线性预测残差信号；对线性预测残差信号作离散傅里叶变换并取对数后，将待识别声音信号的高频分量置零；对高频分量置零的线性预测残差信号作逆离散傅里叶变换，得到待识别声音信号的倒谱；检测倒谱中的基频信息，得到待识别声音信号的基音周期；根据待识别声音信号的基音周期，得到基频参数特征向量。实施中利用预测残差信号来估计基音周期，由于残差信号的谱接近平坦，同时共振峰效应在残差信号中也被去除，使共振峰不会影响到基音周期的估计，检测基频信息中的基音周期的精度较高。

步骤704中，对待识别声音信号中的浊音信息进行特征提取，得到待识别声音信号的梅尔频率倒谱系数特征向量，包括：对待识别声音信号进行快速傅里叶变换，将待识别声音信号由时域信号变换为频域信号；将频域信号取模并求平方之后，得到频域信号的短时能量谱；采用M个三角形滤波器组在频域对频域信号的短时能量谱进行带通滤波，得到M个离散的能量值；对M个离散的能量值取对数，得到M个梅尔域滤波器组的能量值；对M个梅尔域滤波器组的能量值进行离散余弦变换得到初始梅尔频率倒谱系数；对初始梅尔频率倒谱系数进行差分运算，得到一阶差分系数和二阶差分系数；根据一阶差分系数和二阶差分系数，得到梅尔频率倒谱系数特征向量；其中，M为大于1的正整数。

实施例中，因人类的听觉特性对声音频率的感知过程是一个非线性系统，这使得人耳对低频信号比对高频信号更加敏感，根据这一原则引入类似人耳作用的梅尔域频率滤波器组，来获取梅尔频率倒谱系数，使后续变换运算得出的反映人耳感知的声道特性信息的梅尔频率倒谱系数的精度较高，有利于提高年龄识别的准确率。

上述实施例中，第一年龄识别模型和第二年龄识别模型是通过对获取的待训练语音信号训练得到，其训练过程的具体内容参见实施例1，此处不再累述。

优选的，步骤705中，将所述基频参数特征向量分别与每个年龄类别对应的子第一年龄识别模型进行匹配，得到所述待识别声音信号在所述第一年龄识别模型中的多个与年龄类别对应的第一年龄识别结果(即针对不同年龄类别的匹配概率值)；所述第一年龄识别模型包括多个年龄类别对应的子第一年龄识别模型。

优选的，步骤706中，将所述梅尔频率倒谱系数特征向量分别与每个年龄类别对应的子第二年龄识别模型进行匹配，得到所述待识别声音信号在所述第二年龄识别模型中的多个与年龄类别对应的多个第二年龄识别结果(即针对不同年龄类别的匹配概率值)；所述第二年龄识别模型包括多个年龄类别对应的子第二年龄识别模型。

本发明实施例基于GMM模型训练得到的年龄识别模型对提取到的声音特征参数(包括基频参数和梅尔频率倒谱系数)进行匹配，得到与每个年龄范围的年龄识别模型匹配的概率值，根据概率最大原则确定用户发出的待识别声音所属的年龄范围相比其他分类方法(如SVM分类法)更加可靠，有利于提高年龄识别的准确性。

具体的步骤705将提取到的基频参数特征向量与第一年龄识别模型进行匹配包括：将提取到的基频参数特征向量作为匹配样本分别与训练得到第一年龄识别模型中的N个类别的第一年龄识别模型进行匹配，将匹配样本分别在N个类别的第一年龄识别模型的条件概率值作为第一识别结果。比如，儿童第一年龄识别模型λ_C、青少年第一年龄识别模型λ_T、青年第一年龄识别模型λ_Y、中年第一年龄识别模型λ_M、老年第一年龄识别模型λ_A，得到基频参数特征向量在每一类别的第一年龄识别模型中的条件概率值，即

P_{T 1} = P ({\tilde{X}}_{f 0} | λ_{T}), P_{Y 1} = P ({\tilde{X}}_{f 0} | λ_{Y}), P_{M 1} = P ({\tilde{X}}_{f 0} | λ_{M})

和

P_{A 1} = P ({\tilde{X}}_{f 0} | λ_{A}),

将概率值P_C1，P_T1，P_Y1，P_M1和P_A1分别作为待识别声音信号与五个类别的第一年龄识别模型匹配的概率值，将这些概率值作为多个与年龄类别对应的第一年龄识别结果。

具体的步骤706将提取到的MFCC系数特征向量与第二年龄识别模型进行匹配包括：将提取到的MFCC系数特征向量作为匹配样本分别与训练得到第二年龄识别模型中的N个类别的第二年龄识别模型进行匹配，将匹配样本分别在N个类别的第二年龄识别模型的条件概率值作为第二识别结果。比如，儿童第二年龄识别模型γ_C、青少年第二年龄识别模型γ_T、青年第二年龄识别模型γ_Y、中年第二年龄识别模型γ_M、老年第二年龄识别模型γ_A，得到MFCC系数特征向量在每一类别的第二年龄识别模型中的条件概率值，即

P_{C 2} = P ({\tilde{X}}_{mfcc} | γ_{T}), P_{T 2} = P ({\tilde{X}}_{mfcc} | γ_{T}), P_{Y 2} = P ({\tilde{X}}_{mfcc} | γ_{Y}), P_{M 2} = P ({\tilde{X}}_{nfcc} | γ_{M})

和将概率值P_C2，P_T2，P_Y2，P_M2和P_A2分别作为待识别声音信号与五个类别的第二年龄识别模型匹配的概率值，将这些概率值作为多个与年龄类别对应的第二年龄识别结果。

优选的，第一年龄识别模型和第二年龄识别模型都包含N个年龄段的年龄识别模型，N为大于1的整数。按照年龄范围设定不同的年龄识别模型，以实现按照用户发出的待识别声音所属的年龄范围向用户推荐相适宜的电视节目，给不同年龄范围的用户带来更好的用户体验。

步骤707将同一年龄类别对应的第一年龄识别结果和第二年龄识别结果进行加权计算，得到多个与年龄类别对应的第三年龄识别结果，包括：将待识别声音信号与每一个年龄类别的子第一年龄识别模型匹配的第一年龄识别结果，和待识别声音信号与相应的每一个年龄类别的第二年龄识别模型匹配的第二年龄识别结果进行加权计算，将加权计算结果的值最大的那个类别的年龄范围作为第三年龄识别结果。

其中，权重值α是根据多次实验取得的最佳经验值。

通过步骤701至步骤707，将用户发出的待识别声音信号中的真正具有人体声音特征的浊音信息分离出，并从浊音信息中提取出反映说话人发音的声带震动信息的基频参数以及反映人耳感知的声道特性信息的梅尔频率倒谱系数，将基频参数与第一年龄识别模型匹配，将梅尔频率倒谱系数与第二年龄识别模型匹配，然后将匹配结果较高的年龄识别结果作为最终年龄识别结果，提高了年龄识别的准确率。

根据带识别声音的识别结果，在具体应用中可控制终端的显示，是指根据步骤707识别出的待识别声音的年龄范围，对发出该待识别声音的用户推荐电视节目。

具体的，如图8所示的一种推荐电视节目的方式，用户发出语音操控指令以后，电视节目推荐系统会接收到年龄识别模块发送的年龄识别结果，根据识别出的年龄范围，控制终端(比如电视)进入不同的显示模式。

可选的，显示模式可以分为两类，一类为未成年人显示模式，另一类是成年人显示模式。若对用户发出语音的年龄识别结果为青少年或儿童，则控制终端进入未成年人显示模式，若对用户发出语音的年龄识别结果为青年、中年或老年，则控制终端进入成年人显示模式。在未成年人显示模式下，用户可以观看为未成年人推荐的热门节目，但是被限制观看一些限制型节目或网页，未成年人用户在选择打开一些限制性节目或网页时，终端上则会出现禁止观看的提醒，这是因为电视节目推荐系统在未成年人显示模式下存储了推荐节目列表和限制节目列表。在成年人显示模式下，用户可以观看为成年人推荐的热门节目，相应的，电视节目推荐系统在成年人显示模式下存储了推荐节目列表。

其中，推荐节目列表通常是电视推荐系统根据用户基于个人喜好观看或搜索一些电视节目、广告或影片时所记录下来的观影记录，进行影视数据分析，将影视数据进行分类，如儿童、青少年、青年、中年、老年类影视数据，然后将儿童、青少年类影视数据反馈到未成年人推荐节目列表中，将青年、中年、老年类影视数据反馈到成年人推荐节目列表中，并根据新的访问量和点击数实时更新未成年人推荐节目列表和成年人推荐节目列表。

对影视数据分类的依据来自于不同年龄的用户对影视数据的需求差异。例如：儿童(13岁以下)更喜欢看动画片、大风车之类的儿童节目；青少年(14～18)则会对青春校园、搞笑、魔幻等类型的节目比较热衷；青年人群(19～40)普遍对最新最热的剧集、综艺娱乐以及实事资讯等方面的关注度比较高；中年人(41～65)对家庭伦理据、抗战剧等比较感兴趣；老年人(65岁以上)则会热衷于怀旧、养生类节目。

上述实施例中，根据识别到的用户的年龄范围，电视节目推荐系统则会向其推荐该年龄范围比较热衷的节目类型，广告种类及相应影片等个性化内容，实现电视根据用户年龄差异的个性化推荐功能。当用户根据自己的喜好进行节目查询时，电视会记录该年龄范围用户的观影记录并将其进行数据挖掘分析，便于数据的实时优化和动态更新，进一步提升用户的个性化体验。本发明的应用不应局限于语音智能电视，在智能手机以及其他语音智能产品上均有较好的应用价值，从一定程度上提升用户的智能体验。

针对上述方法流程，本发明实施例还提供一种建立年龄识别模型的装置，以及一种年龄识别装置，这些装置的具体内容可以参照上述方法实施，在此不再赘述。

实施例3

基于上述实施例建立年龄识别模型的方法，本发明实施例提供了一种如图9所示的建立年龄识别模型的装置，包括：

收集单元901，用于获取待训练语音信号；

预处理单元902，用于根据待训练语音信号的短时能量和短时平均过零率，得到待训练语音信号中的浊音信息；

第一提取单元903，用于对待训练语音信号中的浊音信息进行特征提取，得到待训练语音信号的基频参数特征向量；

第二提取单元904，用于对待训练语音信号中的浊音信息进行特征提取，得到待训练语音信号的梅尔频率倒谱系数特征向量；

第一训练单元905，用于对基频参数特征向量进行高斯混合模型GMM训练得到第一年龄识别模型；

第二训练单元906，用于对梅尔频率倒谱系数特征向量进行GMM模型训练得到第二年龄识别模型。上述实施例中，将语音信号中的真正具有人体声音特征的浊音信息分离出，并从浊音信息中提取出反映说话人发音的声带震动信息的基频参数以及反映人耳感知的声道特性信息的梅尔频率倒谱系数，基于基频参数和梅尔频率倒谱系数训练出的年龄识别模型，可以更好地描述说话人的年龄特征，提高了年龄识别的准确率。

优选的，预处理单元902具体用于：

对待训练语音信号进行加窗分帧处理，得到每一帧待训练语音信号的短时能量；根据第一阈值以及每一帧待训练语音信号的短时能量，分离出静音信号帧和语音信号帧；去除静音信号帧，保留语音信号帧，并计算语音信号帧的短时平均过零率；根据第二阈值以及语音信号帧的短时平均过零率，从语音信号帧中分离出清音信号帧和浊音信号帧；去除清音信号帧，保留浊音信号帧。实施中去除语音信号中的静音和清音部分，将不反映人的发声特征的背景音段，以及振幅比较小，波形随机变化，没有规律性，类似于白噪声的静音段去除，通过短时过零率还可将强噪声和浊音区别开，实现了将真正具有人体声音特征的浊音信息分离出来，以提高年龄识别的准确率。

第一提取单元903具体用于：对待训练语音信号中的浊音信息进行线性预测编码分析，得到预测系数，根据预测系数获得逆滤波器；根据逆滤波器对待训练语音信号进行逆滤波，得到线性预测残差信号；对线性预测残差信号作离散傅里叶变换并取对数后，将待训练语音信号的高频分量置零；对高频分量置零的线性预测残差信号作逆离散傅里叶变换，得到待训练语音信号的倒谱；检测倒谱中的基频信息，得到待训练语音信号的基音周期；根据待训练语音信号的基音周期，得到基频参数特征向量。实施中利用预测残差信号来估计基音周期，由于残差信号的谱接近平坦，同时共振峰效应在残差信号中也被去除，使共振峰不会影响到基音周期的估计，检测基频信息中的基音周期的精度较高。

优选的，第二提取单元904具体用于：

对待训练语音信号进行快速傅里叶变换，将待训练语音信号由时域信号变换为频域信号；将频域信号取模并求平方之后，得到频域信号的短时能量谱；采用M个三角形滤波器组在频域对频域信号的短时能量谱进行带通滤波，得到M个离散的能量值；对M个离散的能量值取对数，得到M个梅尔域滤波器组的能量值；对M个梅尔域滤波器组的能量值进行离散余弦变换得到初始梅尔频率倒谱系数；对初始梅尔频率倒谱系数进行差分运算，得到一阶差分系数和二阶差分系数；根据一阶差分系数和二阶差分系数，得到梅尔频率倒谱系数特征向量；其中，M为大于1的正整数。实施例中，因人类的听觉特性对声音频率的感知过程是一个非线性系统，这使得人耳对低频信号比对高频信号更加敏感，根据这一原则引入类似人耳作用的梅尔域频率滤波器组，来获取梅尔频率倒谱系数，使后续变换运算得出的反映人耳感知的声道特性信息的梅尔频率倒谱系数的精度较高，有利于提高年龄识别的准确率。

优选的，所述GMM模型是由各个混合分量的均值矢量、协方差矩阵以及混合权重组成；

所述第一训练单元905具体用于：

所述第二训练单元906具体用于：

将梅尔频率倒谱系数特征向量作为所述GMM模型的训练样本，采用最大似然估计和最大期望算法估测出所述GMM模型收敛时的GMM模型参数值，根据所述GMM模型参数值得到所述第二年龄识别模型。高斯混合模型本质是一种多维概率密度函数且具有N个混合成分的D维GMM模型，根据多个特征矢量估计出的参数值，使得属于某年龄范围的训练语音在训练得到的该年龄范围的年龄识别模型中的概率密度最大，有利于提高基于该年龄范围的年龄识别模型进行年龄识别的准确率。

实施例4

基于上述实施例建立年龄识别模型的方法，本发明实施例提供了一种如图10所示的基于年龄识别模型实现的装置，包括：

获取单元1001，用于提取待识别声音信号中的浊音信息；

提取单元1002，用于对所述浊音信息进行特征提取，得到所述待识别声音信号的基频参数特征向量和梅尔频率倒谱系数特征向量；

第一匹配单元1003，用于将所述基频参数特征向量与第一年龄识别模型进行匹配，得到多个与年龄类别对应的第一年龄识别结果；

第二匹配单元1004，用于将所述梅尔频率倒谱系数特征向量与第二年龄识别模型进行匹配，得到多个与年龄类别对应的第二年龄识别结果；

处理单元1005，用于将同一年龄类别对应的第一年龄识别结果和第二年龄识别结果进行加权计算，得到多个与年龄类别对应的第三年龄识别结果，将最大的第三年龄识别结果所对应的年龄类别作为所述待识别声音信号的年龄段识别结果。

其中，第一年龄识别模型和第二年龄识别模型是通过对获取的待训练语音信号训练得到的。上述实施例中，将用户发出的待识别声音信号中的真正具有人体声音特征的浊音信息分离出，并从浊音信息中提取出反映说话人发音的声带震动信息的基频参数以及反映人耳感知的声道特性信息的梅尔频率倒谱系数，将基频参数与第一年龄识别模型匹配，将梅尔频率倒谱系数与第二年龄识别模型匹配，然后将匹配结果较高的年龄识别结果作为最终年龄识别结果，提高了年龄识别的准确率。

第一年龄识别模型和第二年龄识别模型都包含N个年龄段的年龄识别模型，N为大于1的整数。按照年龄范围设定不同的年龄识别模型，以实现按照用户发出的待识别声音所属的年龄范围向用户推荐相适宜的电视节目，给不同年龄范围的用户带来更好的用户体验。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图具有这些改动和变型在内。

Claims

1.一种年龄识别的方法，其特征在于，包括：

提取待识别声音信号中的浊音信息；

将所述基频参数特征向量与第一年龄识别模型进行匹配，得到多个与年龄类别对应的第一年龄识别结果；将所述梅尔频率倒谱系数特征向量与第二年龄识别模型进行匹配，得到多个与年龄类别对应的第二年龄识别结果；

2.如权利要求1所述的方法，其特征在于，通过以下方式获取所述第一年龄识别模型：

通过对每个年龄类别对应的训练样本中的基频参数特征向量进行高斯混合GMM模型训练，采用最大似然估计和最大期望算法估测出所述GMM模型收敛时的GMM模型参数值，根据所述GMM模型参数值得到每个年龄类别对应的子第一年龄识别模型；

通过以下方式获取所述第二年龄识别模型：

通过对每个年龄类别对应的训练样本中的梅尔频率倒谱系数特征向量进行GMM模型训练，采用最大似然估计和最大期望算法估测出所述GMM模型收敛时的GMM模型参数值，根据所述GMM模型参数值得到每个年龄类别对应的子第二年龄识别模型。

3.如权利要求2所述的方法，其特征在于，将所述基频参数特征向量与第一年龄识别模型进行匹配，得到多个与年龄类别对应的第一年龄识别结果，包括：

将所述基频参数特征向量分别与每个年龄类别对应的子第一年龄识别模型进行匹配，得到所述待识别声音信号在所述第一年龄识别模型中的多个与年龄类别对应的第一年龄识别结果；

将所述梅尔频率倒谱系数特征向量与第二年龄识别模型进行匹配，得到多个与年龄类别对应的第二年龄识别结果，包括：

将所述梅尔频率倒谱系数特征向量分别与每个年龄类别对应的子第二年龄识别模型进行匹配，得到所述待识别声音信号在所述第二年龄识别模型中的多个与年龄类别对应的多个第二年龄识别结果。

4.如权利要求1所述的方法，其特征在于，所述提取待识别声音信号中的浊音信息，包括：

对所述待识别声音信号进行加窗分帧处理，得到每一帧待识别声音信号的短时能量；

根据所述每一帧待识别声音信号的短时能量和设定的第一阈值，得到静音信号帧和语音信号帧；

去除所述静音信号帧，对所述语音信号帧进行预处理得到所述语音信号帧的短时平均过零率；

根据所述短时平均过零率和第二阈值，得到清音信号帧和浊音信号帧；

去除所述清音信号帧，根据所述浊音信号帧的浊音信息，得到所述待识别声音信号中的浊音信息。

5.如权利要求1所述的方法，其特征在于，所述对所述浊音信息进行特征提取，得到所述待识别声音信号的基频参数特征向量，包括：

将所述浊音信息进行线性预测编码分析，得到预测系数；

根据所述预测系数组建逆滤波器；

使用所述逆滤波器对所述浊音信息进行逆滤波，得到线性预测残差信号；

将所述线性预测残差信号依次经过离散傅里叶变换、取对数、低通滤波、逆离散傅里叶变换得到所述浊音信息的倒谱；

根据所述浊音信息的倒谱中的基频信息，得到所述浊音信息的基频参数；

根据所述浊音信息的基频参数得到所述基频参数特征向量。

6.如权利要求1所述的方法，其特征在于，所述对所述浊音信息进行特征提取，得到所述待识别声音信号的梅尔频率倒谱系数特征向量，包括：

将所述浊音信息进行快速傅里叶变换，得到所述浊音信息的频域信号；

将所述频域信号取模并求平方，得到所述频域信号的短时能量谱；

将所述短时能量谱进行带通滤波，得到多个离散的能量值；

将所述多个离散的能量值进行取对数、离散余弦变换，得到初始梅尔频率倒谱系数；

将所述初始梅尔频率倒谱系数进行差分运算，得到梅尔频率倒谱系数；

根据所述梅尔频率倒谱系数得到所述梅尔频率倒谱系数特征向量。

7.一种年龄识别装置，其特征在于，包括：

获取单元，用于提取待识别声音信号中的浊音信息；

8.如权利要求7所述的装置，其特征在于，

所述第一匹配单元，具体用于将所述基频参数特征向量分别与每个年龄类别对应的子第一年龄识别模型进行匹配，得到所述待识别声音信号在所述第一年龄识别模型中的多个与年龄类别对应的第一年龄识别结果；所述第一年龄识别模型包括多个年龄类别对应的子第一年龄识别模型；

所述第二匹配单元，具体用于将所述梅尔频率倒谱系数特征向量分别与每个年龄类别对应的子第二年龄识别模型进行匹配，得到所述待识别声音信号在所述第二年龄识别模型中的多个与年龄类别对应的多个第二年龄识别结果；所述第二年龄识别模型包括多个年龄类别对应的子第二年龄识别模型。

9.如权利要求7所述的装置，其特征在于，

所述获取单元，具体用于对所述待识别声音信号进行加窗分帧处理，得到每一帧待识别声音信号的短时能量；

10.如权利要求7所述的装置，其特征在于，

所述提取单元通过以下方式得到所述待识别声音信号的基频参数特征向量：

将所述浊音信息进行线性预测编码分析，得到预测系数；

根据所述预测系数组建逆滤波器；

根据所述浊音信息的倒谱中的基频信息，得到所述浊音信息的基频参数；根据所述浊音信息的基频参数得到所述基频参数特征向量；和/或，

所述提取单元通过以下方式得到所述待识别声音信号的梅尔频率倒谱系数特征向量：

将所述短时能量谱进行带通滤波，得到多个离散的能量值；