CN101685634A

CN101685634A - 一种儿童语音情感识别方法

Info

Publication number: CN101685634A
Application number: CN200810148844A
Authority: CN
Inventors: 李立志; 韩笑蕾; 贾晓光; 郭亮杰; 徐锡涛
Original assignee: Shanghai Shengtao Intelligent Technology Co Ltd
Current assignee: Aesthetic culture media (Shanghai) Co., Ltd.
Priority date: 2008-09-27
Filing date: 2008-09-27
Publication date: 2010-03-31
Anticipated expiration: 2028-09-27
Also published as: CN101685634B

Abstract

一种儿童语音情感识别方法，包括训练语音库建立、分类器训练和情感识别，所述分类器训练包括：提取儿童语音情感特征，该步骤包括：对模拟语音信号进行包括采样和去噪等基本信号处理在内的预处理；之后对经过预处理的情感语句做HHT变换，获得情感语音的Hilbert谱；根据所述情感语音的Hilbert谱进行音强特征提取、语调特征提取、音色特征提取和节奏特征提取，获得情感特征；对提取到的情感特征进行降维，获得不同情感空间的四元特征；对训练语音库样本集都做上述计算，得到一系列的自然情感状态的四元特征在情感空间i上的投影，从而构成情感特征投影集；用所述情感特征投影集中的数据进行SVM/HMM混合系统分类训练。

Description

一种儿童语音情感识别方法

技术领域

本发明涉及语音识别，特别是涉及到基于儿童语音的语音情感识别方法。

背景技术

目前市场上的针对儿童的智能电子产品可以播放歌曲、语句也可以通过应答模式进行简单的对话，但是这种电子产品和学习机所发出的声音都十分的机械、单调和不自然，使得它们只能作为冰冷的工具，人性化功能较差，而不能被孩子们完全接受，现有电子产品的应答模式也不能根据儿童的情绪变化和不同性格的儿童做出相应的情感和风格的调整，只能用机械的声音播放预先设定好的答案，因此人机交互效果不佳。

而当前针对语音情感识别的研究中虽然有在语音识别过程中进行情感识别以及在语音合成中加入情感信息的方法，如申请号为01116524.3，名为“具有情感的语音-语音翻译系统和方法”的中国专利公开了一种具有情感的语音-语音翻译系统，包括：语音识别装置，用于对语言A的语音表示进行识别，形成语言A的文本表示；机器翻译装置，用于将语言A的文本表示翻译成语言B的文本表示；文本——语音生成装置，用于根据语言B的文本表示生成语言B的语音表示，所述具有情感的语音——语音翻译系统的特征在于还包括：情感表述参数检测装置，用于从语言A的语音表示中提取情感表述参数；以及情感表述参数映射装置，用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B，并将映射结果作用于文本——语音生成装置，使其产生可以传达情感的语音输出。但是，该方法只是从语言A中提取表示情感的参数并将之机械地映射到目标语言B，而并不对语音所携带的情感信息的类型做出分析和判断。并且其使用的情感识别方法是基于文本以及根据文本进行分词后对以词汇为单位的语音数据进行判断。情感识别的方式很受局限，效果也很有限。

并且，语音识别中的分类技术中，如被广泛采用的各种基于神经网络的分类器，其训练过程需要大量具有已知情感类别的语音样本，而现有技术中对于训练样本的获取方式为令专业的演义人士按照预定情感类别进行“表演”，或者在公众场所随机采集，再加上采集者对于发音者情感类别的判断。这种采样方式一者使样本的分布广泛性受到很大影响，因为专业演员的数量有限，且故意做作出来的“表演”与真实情感流露的语音是有差距的；二者上述语音采样基本都取自成人，而成年人的感情比较复杂，往往在一句话中包涵了多种情感，这些情感交织在一起，给分类造成困难，也不利于神经网络的训练。

再者，现有技术中在进行语音情感分析时，一般首先进行分帧假设，即采用长度有限的窗函数来截取语音信号形成分析帧，从而将语音信号分割成一帧帧加过窗的短时信号，然后再把每一个短时语音帧看作平稳随机过程，之后按帧从数据区提取数据进行处理提取特征参数，从而得出由每一帧参数组成的语音特征参数的时间序列。根据所述时间序列进行分类器训练或用于识别。基于分帧假设的方法一方面增加了算法的复杂性，使识别速度缓慢，另一方面由于每个个体的语速和发音特性之间的差别，基于时间窗分帧往往会破坏语音与语义的整体配合关系，从而不利于语音识别，特别是不利于与语义相关度较大的情感识别。

同时，现有技术中也并没有专门针对儿童特有的声音特点和感情特征进行研究，并专门进行儿童语音情感分析和情感语音合成的方法。

发明内容

因此，本发明要解决的问题是：克服现有儿童智能电子产品的上述缺陷，提供一种新的基于儿童语音的情感识别和合成技术，使得面向儿童的智能电子产品可以具有高度的人性化、智能化，更容易被儿童所接受。

为解决上述问题，本发明提供了一种儿童语音情感识别方法，其包括训练语音库建立、分类器训练和情感识别，其特征在于，所述分类器训练包括以下步骤：

(S10)提取儿童语音情感特征，该步骤包括：

前端处理：对模拟语音信号进行包括采样和去噪等基本信号处理在内的预处理；之后对经过预处理的情感语句做HHT变换，获得情感语音的Hilbert谱；

根据所述情感语音的Hilbert谱进行以下特征提取：音强特征提取、语调特征提取、音色特征提取和节奏特征提取，获得情感特征；

(S20)对提取到的情感特征进行降维，获得不同情感空间的四元特征；

(S30)四元特征情感转换计算，对训练语音库样本集都做上述计算，得到一系列的自然情感状态的四元特征在情感空间i上的投影，从而构成情感特征投影集；

(S40)用所述情感特征投影集中的数据进行SVM/HMM混合系统分类训练。

本发明的有益效果在于，对儿童语音中的情感进行了理想分类，对活泼、羞涩的儿童，分别制定了一套儿童情感语音识别与合成系统。构造了基于儿童语音情感识别的SVM/HMM混合系统，既可以对静态数据进行分类，又可以对动态数据进行建模。可以对儿童语音进行实时的自动情感识别。不对语音进行短时平稳假设，从长时间上把握情感特性，更符合情感在语音中的分布特性。从声音三要素：响度、音色、音调着手，加之语速特征，提取了有效的情感特征。统计了自然情感特征映射到其他不同情感空间中的聚类状态模型，进行建立情感一对多映射模型。提高了合成语音的自然度，让机器发出的声音具有情感，提高人机交互效果。

该基于儿童语音的情感识别和合成技术，可以自动通过不同性格的儿童声音中所带的情感进行识别，并可以根据文语转换系统文本上所标注的情感标签，自动的对不带感情的语音从音强、音色、语调、语速上进行相应的情感修正，最终合成带有感情色彩的情感语句。

附图说明

图l是本发明语音情感识别方法的流程示意图；

图2是本发明语音情感识别方法的情感特征提取示意图；

图3是本发明语音情感识别方法的HHT变换方法示意图；

图4是本发明语音情感识别方法用于训练或识别的切换示意图。

具体实施方式

本发明的语音情感识别方法包括建立语音数据库，进行情感分类器训练和语音情感识别三个部分，如图1到图4所示。

其中，语音库的建立主要是针对儿童的语音进行，包括语音采集和分类。

一般来说，婴儿从l岁左右开始学会说话，之后随着年龄的增长人的声音会发生变化，并出现一个由童音向成人声音过渡的阶段，即“变声期”，每个个体“变声期”出现的时间不同，大多在12至17岁之间，持续时间为六个月至一年。声带在“变声期”会有很大变化，因此本发明所述的儿童是指进入变声期以前的男孩或女孩。同时，为了保证采样的可靠性，太小的孩子会有发音不清的问题，因此，较佳地是针对3-11岁的儿童进行语音采集，采集的内容可日常会话(包括普通话和地方方言)。采集方式可以是让儿童在特定语境下按情感类别进行主动表达，但更好的方式是在儿童自然生活的过程中进行采集。

之后，要对采集的语音信息进行分类，建立情感语音数据库。建立语音库之初，对采集后的数据进行分类要由人工来完成，这在现有技术中任何基于学习的分类和识别方法中都需如此。由于在儿童期，男女声音差别不大，都是童音，因此不需要对性别进行分类，但是根据发明人的多年研究，不同性格特征的儿童在情感表达中语音起伏的差别却很大，因此首先将儿童分为活泼性格和羞涩性格两类，并以此为基础进行情感语音数据库的第一级分类，将其分为活泼儿童情感语音数据子库和羞涩儿童情感语音数据子库。

之后，分别对活泼儿童情感语音数据子库和羞涩儿童情感语音数据子库中的语音数据进行情感分类。例如，可将儿童情感分为：惊奇、骄傲、兴奋、快乐、心虚、伤心、厌恶、焦急、恐惧、生气、平静(自然)共11类。要说明的是，此分类仅作为本发明的一较佳实施例，但并不以此为限。

在从语音数据库中提取语音信息时，首先进行性格类型判断，在从活泼儿童情感语音数据子库和羞涩儿童情感语音数据子库中获取语音数据后，分别给语音数据添加不同的性格标签，如图1所示，分别添加标签K1、K2，之后分别针对具有不同标签的不同性格的儿童分别进行分类器训练。而在语音情感识别的过程中，则可以首先对一条待识别语音进行性格判断，然后根据判断出的儿童性格类型用训练好的系统进行相应的识别。

情感分类器的训练是根据语音数据库中的数据进行，并可在之后的识别过程中进行不断修正，所述语音数据库亦可动态调整。情感分类器的训练包括以下步骤：

S10：提取儿童语音情感特征：因为语音情感在一句话中是连续变化的，因此，优选的实施方式是在预处理阶段对语音的分析不再做短时平稳假设，即不进行分帧，而是将整句语音的采样值作为一个时间序列进行分析；但对于语音较长的语句，可以按照韵律规律划分成多个语音段。情感可以从声音的大小(响度)、基音曲线(语调)、声门特征(音色)和语速表现出来，因此从这四方面提取情感特征，具体的提取过程包括：

(S11)前端处理：首先对模拟语音信号进行包括采样和去噪等基本信号处理在内的预处理；之后对经过预处理的情感语句做HHT(Hilbert-Huang变换)变换，在Huang变换部分，把语音分解成一系列能量降序、频率降序、波长变长的固有模态(IMF)，只选取包含情感信息的前P个固有模态，随后对这P个IMF做Hilbert变换，并由此导出作为时域函数的瞬时幅值(能量)和瞬时频率，从而得到各个IMF的时间-频率-幅值分布，即情感语音的Hilbert谱；

(S12)音强特征提取：对情感语音的IMF计算Teager能量算子(TEO)，然后取模，提取幅度信息，用来表征响度特征；

(S13)语调特征提取：对Hilbert谱计算Teager能量算子(TEO)，取模后，根据设定的幅度域值确定出浊音段与清音段，随后对无声段和清音段进行插值，得到基音曲线全局变化趋势，用来表征语调特征；

(S14)声门(音色)特征提取：从浊音段估计声门波导数信号，由牛顿-高斯型非线性估计方法获得7个残出组成的分段函数的LF模型表示声门波导数的粗糙部分，然后从声门波导数估计值中减去次粗糙结构，得到精细结构分量，对精细分量做HHT变换，提取没有被一般的声门波形状所表现的特征；

(S15)节奏特征提取：对情感语音的IMF计算语速，用以表征语速信息；

S20：对提取到的情感特征进行降维，例如采用KPCA(核主元分析)方法，对所提取的不同情感的4部分特征分别进行降维，选取累计量大于满意数值的前M阶累计量作为不同情感的训练特征，这不同情感对应的4部分训练特征，命名为不同情感空间的四元特征；

S30：四元特征情感转换计算，

(1)同一句话中，自然情感状态的四元特征为基准(Ie)在各个情感空间i中的四元特征的投影值，每四元特征都有M阶；

(2)对所有的训练库样本集都做上述计算，得到一系列的自然情感状态的四元特征在情感空间i上的投影，作为情感特征投影集；

S40：用SVM/HMM混合系统对训练特征进行训练。SVM是很好的静态分类器，HMM则可以对动态数据进行建模，其中SVM的核函数选择不加限制，因为他们的效果大体相同，只是识别速度略有不同，随后用Gauss函数模型化后验概率，把SVM的分类距离映射为HMM中Viterbi算法所需要的后验概率，例如：

P (y = i / f) = \frac{p (f / y = i) p_{1}}{p (f / y = 1) p_{1} + p (f / y = 2) p_{2} + . . . + p (f / y = 11) p_{11}} - - - (1)

f是SVM距离，y是分类标签，值为1到11(代表11种情绪：惊奇、骄傲、兴奋、快乐、心虚、伤心、厌恶、恐惧、生气、焦急、平静)。由式依次可以分别计算出第i情感的p(f/y＝i)。每个类的条件概率p(f/y＝i)都被模型化为一个Gauss函数，式中：

p (f / y = i) = \frac{1}{\sqrt{2 π σ_{i}^{2}}} \exp \frac{- {(f - μ_{i})}^{2}}{2 σ_{i}^{2}}, i = 1, . . ., 11 - - - (2)

S50：用不同情感的四元特征和情感特征投影集对SVM/HMM混合系统进行训练，并依次得到四元特征和情感特征投影集对应的聚类状态模型及各自的决策树；

S60：用训练好的识别系统完成对实时输入的儿童语音的情感识别。

下面对各个步骤进行详细说明，参见图2、图3。

<HHT变换之Huang变换>

其中，步骤S11的前端处理中，预处理的方法中可包括利用FIR低通滤波器进行滤波，以滤除信号中的高次谐波和随机干扰成分，被滤除的成分是奇异模态，从而避免了随后EMD筛选中因奇异模态影响造成的模态混叠，以便在被筛选出的模态信号中得到完整的有用信号。预处理的实现方法亦可使用现有技术语音识别方法中的预处理通用方法，例如，普通PC机的声卡即可用于实现预处理。设对每条(句)语音信号，预处理后得到原始语音信号时间序列X(t)，HHT变换首先对语音情感信号进行EMD(经验模态分析，Empirical ModeDecomposition)分解，把非平稳的语音情感信号X(t)分解成为六个平稳的IMF(固有模态函数，Intrinsic Mode Functions)窄带信号分量。关于HHT变换的详细内容可参见文献[1]：Norden E.Huang，Zheng Shen，Steven R.Long，The empiricalmode decomposition & the Hilbert spectrum for nonlinear and non-stationary timeseries analysis，Proceed of the Royal Society of London Series A：Mathematicaland Physical Sciences，454：903-995，1998。

EMD分解基于如下假设：

(1)语音情感信号至少有两个极值，一个极大值和一个极小值；

(2)语音情感信号特征时间尺度是由极值间的时间间隔确定的；

(3)如果语音情感信号中缺乏极值点，但存在缺陷点，可通过微分、分解、再积分的方法获得IMF。

根据IMF提取的标准，本发明的一个实施例中，分别根据语音情感信号的极大值和极小值使用三次样条插值来实现EMD分解。具体步骤如下：

(1)确定语音情感信号的局部极大值X_max和局部极小值X_min。

(2)分别根据X_max和X_min做三次样条插值确定原始语音情感信号X(t)的上包络和下包络，这样在上下包络之间是原始语音情感信号X(t)。

(3)根据上下包络，求出原始语音情感信号X(t)的局部均值m₁₁(t)，原始语音情感信号与局部均值的差值记为h₁₁＝X(t)-m₁₁(t)。

(4)以h₁₁代替X(t)，重复以上步骤(1)到(3)，直到h_1，k-1与h_1，k之间的方差小于一设定值即认为h_1，k是一IMF分量，令c₁＝h_1，k，r₁(t)＝X(t)-c₁，X(t)＝r₁(t)。

(5)重复以上步骤(1)到(4)，直到r_n或c_n比预定值小；或者剩余r_n(t)变成单调函数时，原始信号的EMD分解结束。

最后得到：

X (t) = Σ_{i = 1}^{n} c_{i} (t) + r_{n} (t) - - - (3)

这样，获得了n个IMF模式分量c_i(t)和剩余信号r_n(t)。分解得到的IMF模式分量代表了原始情感信号中包含的不同时间尺度的特征信号，并且都是窄带信号，使得瞬时频率具有了真实的物理意义，因此可以利用EMD分解作为语音情感识别用新的情感特征。

语音情感信号分解出来的第一个IMF是振幅最大、频率最高、波长最短的波动，依次下去的各内在模函数，振幅逐渐变小、频率逐渐变低、波长越来越长，这种变化趋势一直延续到频率已经很低最后一个IMF。而一般来说，最后一个IMF要比倒数第二个IMF的波动振幅大，这种异常现象是EMD中经常会出现的情况，但它只可能出现在较低频的部分，不会影响整体的变化趋势。

语音情感信号分解出来的IMF的这种分布状况，是由IMF的本性决定的，它总是把最主要的信号先提取出来，也就是说，由EMD方法分解出来的头几个IMF，集中了原序列中最显著的信息。实际上，由实验统计数据上分析来看，从第六个IMF开始，波动的振幅基本上都小于4mm，依EMD方法的本性而言，只要有多余1个波的波动存在，EMD就能够把它提取出来。对于具体的语音情感信号，这些振幅很小、频率极低、波长很大的波动可能是事实存在的物理现象，也可能是由于数据采样率不够高造成的噪声信号。基于以上几点考虑，本发明优选只提取前六个IMF用作语音情感分析，有效的避免了这种异常。

应用于语音情感识别中的Hilbert-Huang变换方法分析质量很大程度上取决于EMD分解的质量。而EMD分解由于采用三次样条插值来获得信号的瞬时平均，使得这种方法存在特殊的边缘效应，严重的会影响整个信号。因此，优选地，要在HHT分解过程中，使用一定手段抑制EMD分解由于采用三次样条插值所产生的边缘效应。

三次样条曲线具有光滑的一次微分和连续的二次微分特点。由于所分析的语音情感信号的有限长度、情感信号的两端点不能确定是极值，那么在进行三次样条插值的时候，必然使得信号的上下包络在信号的两端附近严重扭曲。在情感信号的高频分量部分，由于时间尺度小，极值间的距离小，端部的边缘效应仅局限在信号两端很小的部分。但对于低频分量，由于其时间尺度大，极值间的距离大，端部的边缘效应就传播到情感信号的内部，特别是原始语音情感信号比较短的时候，会严重影响EMD分解的质量，使得分解出来的IMF分量没有实际的物理意义。对于单分量信号端部效应的影响较小、对于多分量复杂信号，特别是需要作多次前述EMD分解步骤前三步的时候，边缘效应会放大，严重淹没信号的端部特征。

根据三次样条插值的特点，必须在极大值和极小值数据集两端增加极大值和极小值点。但是，由于原始情感语音信号的两端点可能不是极值点，必须进行合理的预测。为此，就必须在每次平滑过程中正确的确定添加极值点的位置和振幅。

确定的方法是根据原始语音情感信号的极大值和极小值数据集的规律，预测附加的极值点。例如一种预测极值点的方法是：根据原始语音情感信号的极大值和极小值数据集，用其左右四分之一的数据的间距均值和两端点幅值或全局统计平均幅值，分别定出极大值和极小值数据集的左右两端需增加的极值点的位置和幅值，并确保所构成的新的极大值和极小值数据集的最大间距大于等于原始语音情感信号的长度。

<HHT变换之Hilbert变换>

Hilbert变换是一种线性变换，可以用线性系统描述，当输入信号是平稳随机过程时，输出信号也应该是平稳随机过程；Hilbert变换强调局部属性，用它可以得到瞬时频率，这就避免了用Fourier变换时为拟合原语音情感信号序列而产生的许多多余的、事实上并不存在的高、低频成分。对IMF进行Hilbert变换的如下，设：I(t)为一IMF分量，则

\hat{I} (t) = \frac{1}{π} {&Integral;}_{- \infty}^{\infty} \frac{I (τ)}{t - τ} dτ - - - (4)

式中，积分在t＝τ处为奇点，运算中取其柯西主值，并记为：

\hat{I} (t) = \frac{1}{π} P {&Integral;}_{- \infty}^{\infty} \frac{I (τ)}{t - τ} dτ - - - (5)

定义I(t)的解析信号z(t)为：

z (t) = I (t) + i \hat{I} (t) = a (t) e^{iθ (t)} - - - (6)

a (t) = {[I^{2} (t) + \hat{I^{2}} (t)]}^{\frac{1}{2}} - - - (7)

θ (t) = \arctan \frac{\hat{I (t)}}{I (t)} - - - (8)

式(7)和(8)是极坐标系中的表达形式，他们明确地表达了瞬时振幅和瞬时相位，很好地反映了数据的瞬时性。在此基础上定义瞬时频率为：

由上看出，经过Hilbert变换得到的振幅和频率都是时间的函数，如果把振幅显示在频率-时间平面上，就可以得到Hilbert谱。

关于Hilbert变换的算法实现在现有技术中有许多成熟的方法，在此不再赘述。上述叙述只是为了说明其原理，以利于对本发明的思想有更好的理解。

通过Hilbert变换求得模态信号的瞬时频率，即可求得前六个模态信号的瞬时时频分布和能量分布，从而可把其作为特征向量，用于情感识别中SVM的训练和识别。

<情感特征提取和情感空间的建立>

本发明的情感特征提取主要包括以下四个特征：

其中，Teager能量算子的定义公式为：ψ[s(n)]＝s²(n)-s(n+1)s(n-1)，其中，ψ(·)为Teager能量算子，s(n)为待计算的采样信号序列。

(S13)语调特征提取：对所述IMF的Hilbert谱计算Teager能量算子(TEO)，取模后，根据设定的幅度域值确定出浊音段与清音段，之后对无声段和清音段进行插值，得到基音曲线全局变化趋势，用来表征语调特征；

(S14)声门(音色)特征提取：从浊音段估计声门波导数信号，由牛顿-高斯型非线性估计方法获得分段函数的LF(Liljencrants-Fant)模型表示声门波导数(glottal flow derivative)的粗糙部分，例如，但并不局限于此，可取7个残出组分的分段函数的LF，然后从声门波导数估计值中减去次粗糙结构，得到精细结构分量，对精细分量做HHT变换，提取没有被一般的声门波形状所表现的特征；

(S15)节奏特征提取：对情感语音的IMF计算语速，用以表征语速信息。

其中，Teager能量算子的定义，运算以及特性可以参见文献[2]：J.F.Kaiser，“On a Simple Algorithm to Calculate the`Energy′of a Signal”，ICASSP-90，pp.381-384，1990。以及参考文献[3]：J.F.Kaiser，Some Useful Properties of Teager′sEnergy Operator″，ICASSP-93，Vol.3，pp.149-152，1993。本领域技术人员根据上述文献以及现有技术的其它公开，当可实现上述算法。

设上述提取到的四种特征分别为：音强特征T₁，语调特征T₂，音色特征T₃和节奏特征T₄。依次对语音库中每种情感的每条语句获取其特征T_i ^k。其中，i表示第i个特征，k表示该语句属于第k种情感。

由于这样得到的每种特征的维度较高，因此在步骤S20中对提取到的情感特征进行降维，可以使用采用主元分析方法，如KPCA(核主元分析)或PCA(主元分析)方法，对所提取的不同情感的部分特征分别进行降维，选取累计量大于满意数值的前M阶累计量作为不同情感的训练特征，其中所述“满意数值”可以根据实际应用情况而选定。降维后的不同情感语句对应的4部分特征，共同构成一个特征向量，记为不同情感空间的四元特征。

S30：四元特征情感转换计算，由上述说明可知，每一句语音中，自然情感状态的四元特征对应情感空间i的一个向量。设每四元特征都有M阶；将之变换为基准(Ie)在各个情感空间i中的四元特征的投影值。对所有的训练库样本集都做上述计算，则可得到一系列的自然情感状态的四元特征在情感空间i上的投影，记为归一化四元特征，将这些投影的集合记为情感特征投影集。

首先，针对SVM/HMM混合系统的特点，进行步骤S40，用SVM/HMM混合系统对训练特征进行预处理。其中SVM(支持向量机)的核函数选择不加限制，例如可选sigmoid函数，随后用Gauss函数模型化后验概率，把SVM的分类距离映射为HMM中Viterbi算法所需要的后验概率，例如：

P (y = i / f) = \frac{p (f / y = i) p_{1}}{p (f / y = 1) p_{1} + p (f / y = 2) p_{2} + . . . + p (f / y = 11) p_{11}} - - - (1)

f是四元特征向量的SVM距离，y是分类标签，值为1到11(代表11种情绪：惊奇、骄傲、兴奋、快乐、心虚、伤心、厌恶、恐惧、生气、焦急、平静)。由式依次可以分别计算出第i情感的p(f/y＝i)。每个类的条件概率p(f/y＝i)都被模型化为一个Gauss函数，式中：

p (f / y = i) = \frac{1}{\sqrt{2 π σ_{i}^{2}}} \exp \frac{- {(f - μ_{i})}^{2}}{2 σ_{i}^{2}}, i = 1, . . ., 11 - - - (2)

S50：用不同情感的四元特征和情感特征投影集对SVM/HMM混合系统进行训练，并依次得到四元特征和情感特征投影集对应的聚类状态模型及各自的决策树。关于SVM/HMM混合系统及其训练方法，在现有技术中有诸多论述，上述仅为其一种实施方式，本发明的此步骤的核心思想为使用SVM/HMM混合系统作为分类器，而该SVM/HMM混合系统分类器的任何现有实现方法均可应用于此，而不会超出本发明的范围。

<儿童语音的情感识别>

分类器训练好之后，即可以投入使用，进行步骤S60：用训练好的识别系统完成对实时输入的儿童语音的情感识别。

参见图4，对儿童语音进行情感识别的方法为对于每一条待识别的情感语音，同样进行预处理HHT变换和特征提取，从而获得归一化四元特征；之后对所述归一化四元特征进行预处理，使之映射到SVM/HMM混合系统所需的HMM后验概率，之后根据所述归一化四元特征和后验概率应用训练好的SVM/HMM混合系统进行分类。其中，对于待识别语音的数据处理方法与上述步骤S10至S40相同，不再赘述。

此外，本发明的算法还可以进行逆向应用，即用于儿童情感语音的合成。此时首先根据上述情感特征投影集进行聚类，得出每一种情感的聚类状态模型，对每一条具体儿童语音的情感合成包括以下步骤：

对于一待合成的情感语句，首先在文语系统中检测情感标签i，所述情感标签i可以是预先指定，亦可以是通过语义分析方法进行判断获取；

构造该语句的中性语音，并根据本发明的方法从中性语音中提取归一化四元特征；

通过情感特征投影集对应的聚类状态模型，把自然情感的归一化四元特征投影到情感空间i中去；

用映射后的归一化四元特征合成情感标签指定的情感语句。

以上对本发明的描述是说明性的，而非限制性的，本专业技术人员理解，在权利要求限定的精神与范围之内可对其进行许多修改、变化或等效，但是它们都将落入本发明的保护范围内。

Claims

1、一种儿童语音情感识别方法，包括训练语音库建立、分类器训练和情感识别，其特征在于，所述分类器训练包括以下步骤：

(S10)提取儿童语音情感特征，该步骤包括：

根据HHT变换和所述情感语音的Hilbert谱进行以下特征提取：音强特征提取、语调特征提取、音色特征提取和节奏特征提取，获得情感特征；

2、根据权利要求1所述的儿童语音情感识别方法，其特征在于，所述训练语音库建立是针对变声期之前的儿童进行语音信息采样，并将儿童语音分为来自活泼性格和羞涩性格儿童两类，针对不同性格的儿童分别进行分类器训练和情感识别。

3、根据权利要求2所述的儿童语音情感识别方法，其特征在于，所述训练语音库的建立是将儿童语音分为惊奇、骄傲、兴奋、快乐、心虚、伤心、厌恶、焦急、恐惧、生气、平静11类情感。

4、根据权利要求1所述的儿童语音情感识别方法，其特征在于，所述步骤S10中对经过预处理的情感语句做HHT变换的步骤包括：对情感语句进行EMD分解，得到一系列能量降序、频率降序、波长变长的固有模态，并提取其前P个固有模态；对所述P个固有模态做Hilbert变换，获得作为时域函数的瞬时幅值和瞬时频率，从而得到各个固有模态的时间-频率-幅值分布，其记为情感语音的Hilbert谱。

5、根据权利要求4所述的儿童语音情感识别方法，其特征在于，所述EMD分解取前6个固有模态，即所述P为6。

6、根据权利要求4所述的儿童语音情感识别方法，其特征在于，所述EMD分解采用三次样条插值来获得信号的瞬时平均，并在极大值和极小值数据集两端增加极大值和极小值点，其方法为：根据原始语音情感信号的极大值和极小值数据集，用其左右四分之一的数据的间距均值和两端点幅值或全局统计平均幅值，分别定出极大值和极小值数据集的左右两端需增加的极值点的位置和幅值，其中，所构成的新的极大值和极小值数据集的最大间距大于等于原始语音情感信号的长度。

7、根据权利要求1所述的儿童语音情感识别方法，其特征在于，

所述音强特征提取方法为：对情感语音的固有模态计算Teager能量算子，然后取模，提取幅度信息，用来表征音强特征；

所述语调特征提取方法为：对情感语音的固有模态的Hilbert谱计算Teager能量算子，取模后，根据设定的幅度域值确定出浊音段与清音段，之后对无声段和清音段进行插值，得到基音曲线全局变化趋势，用来表征语调特征；

所述音色特征提取方法为：从所述浊音段估计声门波导数信号，由牛顿-高斯型非线性估计方法获得分段函数的LF模型表示声门波导数的粗糙部分，然后从声门波导数估计值中减去次粗糙结构，得到精细结构分量，对精细分量做HHT变换，提取没有被一般的声门波形状所表现的特征，作为音色特征；

所述节奏特征提取方法为：对情感语音的固有模态计算语速，用以表征节奏特征。

8、根据权利要求1所述的的儿童语音情感识别方法，其特征在于，所述情感识别包括以下步骤：

对待识别的语音信息重复步骤(S10)到(S30)，以获得该语音信息的四元情感特征，将所述四元情感特征输入所述SVM/HMM混合系统分类器，以获得情感分类。

9、根据权利要求1所述的的儿童语音情感识别方法，其特征在于，所述方法还包括一语音合成步骤，所述语音合成步骤包括：

根据所述情感特征投影集进行聚类，得出每一种情感的聚类状态模型；

对于一待合成的情感语句，获得其情感标签i，所述情感标签i可以是预先指定，亦可以是通过语义分析方法进行判断获取；

构造所述情感语句的中性语音，并进行步骤(S10)到(S30)以获取其四元特征；

通过情感特征投影集对应的聚类状态模型，把自然情感的四元特征投影到情感空间i中去；

用映射后的四元特征合成情感标签指定的情感语句。