CN104240720A

CN104240720A - 一种基于多重分形和信息融合的语音情感识别方法

Info

Publication number: CN104240720A
Application number: CN201310252634.1A
Authority: CN
Inventors: 刘宏; 张文娟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2014-12-24

Abstract

本发明公开了一种基于多重分形和信息融合的语音情感识别方法，本方法为：1)从语音库中提取语音样本数据，建立一语音样本训练集合和一语音样本测试集合；2)利用所选非线性特征从语音样本训练集合中提取用于语音情感识别的非线性特征值；非线性特征包括：语音信号多重分形谱，语音信号广义hurst指数；3)对语音样本训练集合进行预处理，然后将非线性特征值作为各弱分类器的输入，对每一弱分类器进行训练；4)将训练后的各弱分类器集成为一强分类器，然后利用语音样本测试集合中语音样本信号对该强分类器进行测试；5)利用测试后的强分类器对新语音信号进行分类，识别出语音信号对应的情感类别。本发明大大提高了语音信号识别的准确性。

Description

一种基于多重分形和信息融合的语音情感识别方法

技术领域

本发明涉及一种语音信号非线性特征抽取及基于非线性特征的语音情感识别方法，尤其涉及一种基于多重分形和信息融合的语音情感识别方法。本发明属于信息技术领域。

背景技术

语音信号中的情感是判别人类情感的重要依据之一，语音信号中包含了大量的非语义信息和按照发音规则产生的语义信息，通常在语义信息和非语义信息中分别包含着语言信息和说话人的情感因素，传统的语音识别仅限于语音语义传达的准确性，忽视了语音信号中的情感信息，并且语音的情感信息特征在传统的语音信号处理技术中通常被当作差异噪声和模式变动而处理掉，实际上利用语音信号中的情感信息来提高人们之间信息交流和传递的效果，是非常有研究意义的。

语音情感识别技术主要涉及两个方面的内容：一是语音信号预处理和特征提取，二是语音情感信号识别模型建立。一般来说，语音信号预处理为对原始语音信号经高通滤波器预处理，并且经过分帧和加窗，从而过滤掉原始信号中的噪音。

语音信号情感特征可以分为基于语言学特征信息和基于声学参数的特征信息，其中基于声学参数的特征信息包括基音周期、短时能量、短时过零率、LPCC、MFCC、共振峰、MEL子带能量等，通过这些声学特征的原始值、均值、差分值、最大值、最小值、方差等可以抽取出多个可用于情感识别的特征信号。但是语音信号的产生是一个复杂的非平稳、非线性过程，其中存在着混沌机制，传统的声学特征缺乏描述语音信号混沌特征的能力。

语音信号的建模方法包括线性建模方法和非线性建模方法，其中线性建模方法包括K近邻法、主元分析法等，非线性建模方法包括隐马尔科夫方法(HMM)，支持向量机方法(SVM)，神经网络方法等，目前语音识别的主要问题在于，语音能够抽取的特征信号较多，并且可以采用多种方法，各种信号组合和各种方法都各有利弊，虽然采用多种不同的信号组合和不同的方法都可以进行识别，但是普遍存识别准确率较低等问题。

发明内容

本发明的目的就是针对上述介绍的各种信号提取方法和建模方法存在的利弊，提供一种基于多重分形和信息融合的语音情感识别方法，通过建立一个综合的高效率的语音情感识别模型识别语音情感信息。

本发明利用分形作为描述混沌特征的重要手段，引入多重分形谱、广义hurst指数等多个语音信号非线性特征，通过这些特征的最大值、最小值、均值，上四分位值、下四分位值、中值、方差可以抽取出多个用于情感识别的非线性特征信号。

本发明的技术方案为：

一种基于多重分形和信息融合的语音情感识别方法，其步骤为：

1)从语音库中提取语音样本数据，建立一语音样本训练集合和一语音样本测试集合；

2)利用所选非线性特征从所述语音样本训练集合中提取用于语音情感识别的非线性特征值；其中，所述非线性特征包括：语音信号多重分形谱，语音信号广义hurst指数；

3)对所述语音样本训练集合进行预处理，然后将所述非线性特征值作为各弱分类器的输入，对每一弱分类器进行训练；

4)将训练后的各弱分类器集成为一强分类器，然后利用所述语音样本测试集合中语音样本信号对该强分类器进行测试；

5)利用测试后的该强分类器对新语音信号进行分类，识别出语音信号对应的情感类别。

进一步的，所述非线性特征值包括：语音信号多重分形谱的最大值、最小值、均值、上四分位值、下四分位值、中值、方差，语音信号广义hurst指数的最大值、最小值、均值、上四分位值、下四分位值、中值、方差。

进一步的，采用多重分型理论及消除趋势分析法提取所述非线性特征值。

进一步的，获取所述非线性特征值的方法为：

41)对语音训练样本集合中的每一语音训练样本构造一语音信号累加序列；

Y (i) = Σ_{i = 1}^{i} (x (t) - \overset{&OverBar;}{x}), i = 1,2, . . ., n - - - (1)

42)对该语音信号累加序列按照从前到后和从后到前的顺序划分为2M个区间；

43)对于每个区间的点，通过最小二乘法计算该语音信号累加序列的局部趋势并提取方差；

F^{2} (s, v) &equiv; \frac{1}{s} Σ_{i = 1}^{s} {Y [(v - 1) s + i] - y_{v} (i)}^{2} - - - (2)

对v＝M+1，M+2，...，2M，

F^{2} (s, v) &equiv; \frac{1}{s} Σ_{i = 1}^{s} {Y [2 M - (v - M) s + i] - y_{v} (i)}^{2} - - - (3)

44)对所有区间上的方差取平均值，得到一q阶波动函数；

F_{q} (s) = {\frac{1}{2 M} Σ_{v = 1}^{2 M} F^{2} {(v, s)}^{q / 2}} 1 / q, q &Element; R - - - (4)

45)拟合每一阶波动函数的双对数曲线的斜率，得到广义hurst指数；

46)根据该广义hurst指数计算当前语音训练样本的语音情感信号的多重分形谱；

τ(q)＝qH(q)-1

\{\begin{matrix} α = \frac{dτ (q)}{dq} \\ f (α) = q \cdot a (q) - τ (q) \end{matrix} - - - (5)

47)分别提取多重分形谱和广义hurst指数的最大值、最小值、均值、上四分位值、下四分位值、中值、方差作为语音识别的非线性特征值。

进一步的，采用adaboost方法对训练后的各弱分类器进行集成，得到所述强分类器。

进一步的，通过adabosst信息融合的方法融合各弱分类器，得到所述强分类器，其方法为：

61)根据所述非线性特征值建立一样本空间；

62)从该样本空间中找出m组训练数据，每组训练数据的权重初始化为1/m；然后用弱学习算法对每一弱分类器分别迭代运算T次，每次运算后都按照预测结果更新训练数据权重分布，对于预测失败的训练样本增大其权重；

63)各弱分类器通过反复迭代，分别得到一个预测函数序列f₁，f₂，L，f_T，每个预测函数赋予一个权重，预测结果越好的函数，其对应权重越大；T次迭代之后，将预测函数加权得到一强预测函数，即所述强分类器。

进一步的，每一次迭代运算过程中，弱学习算法利用m组训练数据训练每一弱分类器t，得到一预测序列g(x_i)的预测误差e_t；然后根据预测误差e_t计算该序列g(x_i)的权重然后根据权重a_t调整下一轮训练样本的权重；其中，x_i是训练数据，i代表训练数据时间序列的点。

进一步的，采用公式

\begin{matrix} D_{t + 1} (i) = \frac{D_{t} (i)}{B_{t}} * \exp (- a_{t} y_{i} g_{t} (x_{i})) & (i = 1,2, K, m) \end{matrix}

调整弱分类器t下一轮训练样本的权重；其中，g_t(x_i)是弱分类器t的分类结果，D_t+1(i)是弱分类器t下一轮训练数据的权重，D_t(i)是弱分类器t当前轮训练数据的权重，y_i代表正确的分类结果。

进一步的，所述弱分类器包括SVM和BP神经网络。

进一步的，采用交叉验证方法选择SVM的最佳参数，并使用一语音样本测试集合检测训练后的SVM神经网络语音情感分类器的正确率。

与现有技术相比，本发明的积极效果为：

本发明采用了基于非线性特征信号和BP，SVM等非线性分类方法识别语音信号情感特征，并进一步采用adaboost综合识别方法融合BP，SVM等非线性分类器，得到了较好的语音信号情感特征分类结果，大大提高了语音信号识别的准确性。

附图说明

图1广义hurst指数计算；

图2基于wolf方法的李亚普诺夫指数计算方法；

图3语音信号非线性特征提取；

图4SVM语音信号情感识别；

图5BP神经网络语音信号情感识别；

图6基于adaboost的综合识别系统。

具体实施方式

下面结合附图对本发明进行进一步详细描述。

本发明为一种基于非线性分析的语音情感识别方法，其中：

步骤1：语音情感库采用北京航空航天大学的普通话语音库，该语音库包括悲伤、愤怒、惊奇、恐惧、喜悦、厌恶和平静七类语音类别，选取愤怒、喜悦、悲伤、平静各180个语音样本，共720个语音样本进行情感识别。其中，前260个语音样本用于训练识别模型，后180个语音样本用于测试识别模型性能。

步骤2：语音信号的混沌特征采用李亚普诺夫指数进行判别，如图2所示，Lyapunov指数是指两个初始值所产生的轨道的发散或收敛率，可以用来定量描述两个非线性动力系统中非常靠近的初始值产生的轨道随时间推移按指数方式分离这一现象。Lyapunov反映动力系统整体的混沌量水平，可以判断系统是否混沌，如果系统具有正的Lyapunov指数，则该系统为混沌系统。

步骤3：非线性特征采用多重分型理论及消除趋势分析法MF-DFA(参考：叶吉祥等在《计算机工程与应用》2012年48期论文《多重分形在语音情感识别中的研究》中介绍的方法计算语音信号非线性特征)，如图3所示，该方法构成由多个标度指数(如广义Hurst指数、多重分形谱等)的奇异测度所组成的集合，用谱函数描述不同层次的分型特征。

步骤3-1：对语音训练样本集合中的每一语音训练样本x(t)，x(t)长度为n。依据公式(1)构造语音信号累加序列Y(i)。

其中，为x(t)序列均值，把序列y(i)按照从前到后和从后到前的顺序划分成等长为s的2*M个区间，即M＝n/s，s为区间长度，i代表时间序列的点。

步骤3-2：对于每个区间v＝1，2，..，2M的点，通过最小二乘法计算序列y(i)的局部趋势，其中y_v(i)y_v(i)是通过对每个区间的点进行多项式拟合得到的，最后提取方差。对v＝1，2，...，M，通过最小二乘法拟合l阶多项式P_v计算数据的局部趋势函数y_v(i)并且提取方差。计算过程如公式(2)所示。对v＝M+1，M+2，...，2M，采用公式(3)。

步骤3-3：对所有区间上的方差取平均值，依据公式(4)得到q阶波动函数F_q(s)。

步骤3-4：对于每个q，拟合log(F_q(s))和log(s)的双对数曲线的斜率，得到广义hurst指数H(q)，如图1所示。

步骤3-5：通过H(q)和基于Reny广义维数的质量指数τ(q)通过表达式计算当前语音训练样本的语音情感信号的多重分形谱，依据公式(5)得到多重分形谱f(a)。

步骤3-6：分别提取多重分形谱和广义hurst指数的最大值、最小值、均值，上四分位值、下四分位值、中值、方差作为语音识别的非线性特征值，即共7对，14个非线性特征值组成奇异测度集合。

步骤4：在对语音信号进行预处理和非线性特征值提取的基础上，分别采用SVM和BP神经网络识别语音样本。预处理一般为对原始语音信号经高通滤波器滤波，并且经过分帧和加窗，从而过滤掉原始信号中的噪音，并为后续处理做好准备。

步骤4-1：在提取出240个语音样本的非线性特征值之后，随机选择其中的180个样本作为训练样本集，后60个样本作为测试样本集。

步骤4-2：使用SVM方法识别语音情感样本，其中SVM使用台湾林仁智教授开发的libsvm工具箱，该工具箱台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进、修改以及在其它操作系统上应用，并且该软件可以设置SVM参数、核函数等。如图4所示，在提取了情感语音信号的非线性特征值之后，利用libsvm提供的的训练函数svmtrain，并设置函数相应参数，输入训练集情感特征(包括常用的和非线性的)和对应的情感类别，输出训练好的模型model。识别阶段，采用同样是由libsvm提供的识别函数svmpredict，输入测试集的情感特征和对应的情感类别以及训练好的模型model，设置参数，函数输出为测试集的识别结果。

步骤4-2-1使用训练样本训练SVM，首先采用交叉验证方法(cross validation方法)选择SVM最佳参数，在选择合适的核函数基础上，使用SVM进行训练。

步骤4-2-2在训练SVM的基础上，使用SVM分类测试样本语音情感，并且统计识别正确率。

步骤4-3：使用BP神经网络识别语音样本情感，得到语音情感信号的识别类别，如图5所示，BP神经网络使用三层BP神经网络，其中输入层节点数和非线性特征信号维数相同，输出层节点数4，输出代表识别类别。

步骤4-3-1使用训练数据训练BP神经网络，从而使神经网络具有语音信号情感分类的功能。

步骤4-3-2使用训练好的BP神经网络识别语音信号情感，并且统计识别正确率。

步骤5：在SVM，BP分类的基础上，使用adaboost方法集成各弱分类器得到强分类器，在本专利中，弱分类器分别为SVM分类器和BP神经网络分类器，强分类器是指通过adabosst信息融合的方法融合SVM和BP等分类器得到的综合分类器。Adaboost方法如图6所示。Adaboost的思想是合并多个“弱”分类器的输出以产生有效分类。其主要步骤为：首先给出弱学习算法和样本空间(x，y)(即将要进行训练的特征，每一个语音样本信号对应的多个非线性特征值映射到一个多维的特征空间，adaboost方法称为样本空间)，从样本空间中找出m组训练数据，每组训练数据的权重都是1/m。然后用弱学习算法对每一弱分类器分别迭代运算T次，每次运算后都按照预测结果更新训练数据权重分布，对于预测失败的训练个体增大其权重，下一次迭代运算时更加关注这些训练个体。弱分类器通过反复迭代得到一个预测函数序列f₁，f₂，L，f_T，每个预测函数赋予一个权重，预测结果越好的函数，其对应权重越大。T次迭代之后，最终强预测函数H(即强分类器)由各预测函数加权得到。利用该强分类器对新的语音信号的特征(即非线性特征)进行分类，识别出语音情感信息。

步骤5-1弱分类器预测。弱学习算法利用m组训练数据训练第t个弱分类器，得到预测序列g(x_i)的预测误差e_t。

\begin{matrix} e_{t} = Σ_{t}^{m} D_{t} (i) & ifg (x_{i}) &NotEqual; y_{i} & (i = 1,2, K, m) \end{matrix}

其中，D_t(i)是训练数据权重，y_i代表正确的分类结果，x_i是训练数据，这个公式的意思：分类不正确的训练数据的权重之和就是预测误差。

步骤5-2计算每一预测序列的权重。根据预测序列g(x_i)的预测误差e_t计算序列的权重a_t

a_{t} = \frac{1}{2} In (\frac{1 - e_{t}}{e_{t}})

步骤5-3测试数据权重调整。根据预测序列权重a_t调整下一轮训练样本的权重。

\begin{matrix} D_{t + 1} (i) = \frac{D_{t} (i)}{B_{t}} * \exp (- a_{t} y_{i} g_{t} (x_{i})) & (i = 1,2, K, m) \end{matrix}

其中，g_t(x_i)是弱分类器t的分类结果，D_t+1(i)就是弱分类器t下一轮训练数据的权重。

步骤5-4强分类函数。训练T轮后得到T组弱分类函数f(g_t，a_t)，由T组弱分类函数f(g_t，a_t)组合得到了强分类函数h(x)。

h (x) = sign (Σ_{t = 1}^{T} α_{t} \cdot f (g_{t}, a_{t}))

分类结果：

从北京航空航天大学的普通话语音库作为分析数据，选取愤怒、喜悦、悲伤、平淡各180个语音样本，共720个语音样本选择其中的360个样本作为训练样本集，后180个样本作为测试样本集，各种方法的语音情感识别正确率如表1所示。

表1 语音情感识别正确率

	愤怒	喜悦	悲伤	平静
					BP线性特征	78.63％	77.73％	79.07％	78.30％
SVM线性特征	80.17％	79.21％	78.23％	79.21％
					BP非线性特征	83.22％	81.65％	79.38％	80.14％
SVM非线性特征	84.14％	83.28％	80.06％	79.88％
					Adaboost融合	85.42％	82.98％	81.62％	82.79％

Claims

1.一种基于多重分形和信息融合的语音情感识别方法，其步骤为：

2.如权利要求1所述的方法，其特征在于所述非线性特征值包括：语音信号多重分形谱的最大值、最小值、均值、上四分位值、下四分位值、中值、方差，语音信号广义hurst指数的最大值、最小值、均值、上四分位值、下四分位值、中值、方差。

3.如权利要求1或2所述的方法，其特征在于采用多重分型理论及消除趋势分析法提取所述非线性特征值。

4.如权利要求3所述的方法，其特征在于获取所述非线性特征值的方法为：

44)对所有区间上的方差取平均值，得到一q阶波动函数；

5.如权利要求1所述的方法，其特征在于采用adaboost方法对训练后的各弱分类器进行集成，得到所述强分类器。

6.如权利要求5所述的方法，其特征在于通过adabosst信息融合的方法融合各弱分类器，得到所述强分类器，其方法为：

61)根据所述非线性特征值建立一样本空间；

7.如权利要求6所述的方法，其特征在于每一次迭代运算过程中，弱学习算法利用m组训练数据训练每一弱分类器t，得到一预测序列g(x_i)的预测误差e_t；然后根据预测误差e_t计算该序列g(x_i)的权重然后根据权重a_t调整下一轮训练样本的权重；

其中，x_i是训练数据，i代表训练数据时间序列的点。

8.如权利要求7所述的方法，其特征在于采用公式

\begin{matrix} D_{t + 1} (i) = \frac{D_{t} (i)}{B_{t}} * \exp (- a_{t} y_{i} g_{t} (x_{i})) & (i = 1,2, K, m) \end{matrix}

9.如权利要求1或5或6所述的方法，其特征在于所述弱分类器包括SVM和BP神经网络。

10.如权利要求9所述的方法，其特征在于采用交叉验证方法选择SVM的最佳参数，并使用一语音样本测试集合检测训练后的SVM神经网络语音情感分类器的正确率。