CN108682432A

CN108682432A - 语音情感识别装置

Info

Publication number: CN108682432A
Application number: CN201810455164.1A
Authority: CN
Inventors: 邓立新; 王思羽
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-10-19
Anticipated expiration: 2038-05-11
Also published as: CN108682432B

Abstract

一种语音情感识别装置，所述装置包括：获取单元，适于获取待处理的语音信号；预处理单元，适于对所获取的语音信号进行预处理，得到预处理后的语音信号；参数提取单元，适于提取预处理后的语音信号的特征参数；所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差；采用所提取的特征参数组成对应的特征矢量序列，得到所述语音信号对应的特征矢量序列；识别单元，适于采用支持向量机对所述语音信号对应的特征矢量序列进行训练和识别，得到对应的语音情感识别结果。上述的方案，可以提高语音情感识别的准确率。

Description

语音情感识别装置

技术领域

本发明涉及语音识别技术领域，具体地涉及一种语音情感识别装置。

背景技术

随着信息技术的高速发展和人类对计算机的依赖性不断的增强，人机交互的能力越来越受到研究者的重视。实际上人机交互中需要解决的问题与人与人交流中的重要因素是一致的，最关键的都是“情感智能”的能力。

目前，关于情感信息处理的研究正在不断地深入中，语音信号中的情感信息处理的研究越来越受到人们的重视。其中的语音情感识别，指利用信号处理技术和模式识别的方法来对语音信号处理和识别，来判断语音属于哪一类情感的技术。

但是，现有的语音情感识别方法，存在着识别准确率低的问题。

发明内容

本发明解决的技术问题是如何提高语音情感识别的准确率。

为解决上述技术问题，本发明实施例提供了一种语音情感识别装置，所述装置包括：

获取单元，适于获取待处理的语音信号；

预处理单元，适于对所获取的语音信号进行预处理，得到预处理后的语音信号；

参数提取单元，适于提取预处理后的语音信号的特征参数；采用所提取的特征参数组成对应的特征矢量序列，得到所述语音信号对应的特征矢量序列；所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差；

识别单元，适于采用支持向量机对所述语音信号对应的特征矢量序列进行训练和识别，得到对应的语音情感识别结果。

可选地，所述预处理单元，适于对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。

可选地，所述预处理单元，适于对于预处理后得到的多个帧进行遍历，获取遍历到的当前帧；计算遍历到的当前帧及其后连续的预设数量的帧的短时能量；当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时，计算遍历到的当前帧与下一帧之间的短时能量的比值；当确定计算得到的比值大于或等于预设的阈值时，确定遍历到的当前帧为所述语音信号的语音起始帧。

可选地，所述预处理后的语音信号的短时能量及其衍生参数，包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。

可选地，所述预处理后的语音信号的基音频率及其衍生参数，包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)！＝0的相邻两帧对应的浊音间差分基音；其中，F(i)表示第i帧的基音频率，F(i+1)表示第i+1帧的基音频率。

可选地，所述预处理后的语音信号的音质特征共振峰及其衍生参数，包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率最小值和第二共振峰频率比率均值。

可选地，述对MFCC求取的20阶的Mel倒谱系数，包括1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC。

可选地，所述参数提取单元，适于分别采用如下的公式计算得到1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC：

其中，f_Mel表示MFCC的频率，f_Mid-Mel表示Mid-MFCC的频率，f_I-Mel表示I-MFCC的频率，f表示实际频率。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

上述的方案，通过对预处理后的语音信号，提取包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数和对MFCC求取的20阶的Mel倒谱系数在内的特征参数，所提取的对MFCC求取的20阶的Mel倒谱系数的特征参数覆盖全频域，与仅覆盖低频的MFCC参数相比，可以提高中、高频域的识别精度，从而可以提高语音情感识别的准确率，提升用户的使用体验。

进一步地，在对所述语音信号进行端点检测时，首先计算遍历到的当前帧及其后连续的预设数量的帧的短时能量，当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时，计算遍历到的当前帧与下一帧之间的短时能量的比值，并当确定计算得到的比值大于或等于预设的阈值时，确定遍历到的当前帧为所述语音信号的语音起始帧，因首先对包括当前帧在内的连续的预设数量的帧进行短时能量是否均大于或等于初始无声段语音信号的短时能量的判断，可以减少甚至避免毛刺干扰对端点检测产生的影响，故可以提高端点检测的准确性。

附图说明

图1是本发明实施例中的一种语音情感识别方法的流程示意图；

图2是本发明实施例中的一种语音情感识别装置的结构示意图。

具体实施方式

本发明实施例中的技术方案通过对预处理后的语音信号，提取包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数和对MFCC求取的20阶的Mel倒谱系数在内的特征参数，所提取的对MFCC求取的20阶的Mel倒谱系数的特征参数覆盖全频域，与仅覆盖低频的MFCC参数相比，可以提高中、高频域的识别精度，从而可以提高语音情感识别的准确率，提升用户的使用体验。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种语音情感识别方法的流程示意图。参考图1，一种语音情感识别方法，所述方法包括：

步骤S101：获取待处理的语音信号。

在具体实施中，所述待处理的语音信号为对对应的模拟信号进行模数转换后得到的数字信号。

步骤S102：对所获取的语音信号进行预处理，得到预处理后的语音信号。

在具体实施中，对所获取的语音信号进行预处理时，首先对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。

在本发明一实施例中，对语音信号进行预加重处理时采用一阶的数字滤波器μ：H(z)＝1-μz^-1，μ取0.98；分帧时采用的帧长为320，帧移为80；加窗采用的是汉明窗。

在本发明一实施例中，为了提高短点检测的准确性，采用两段式检测法对语言端点进行检测。具体而言：

首先，可以按照顺序对预处理后得到的多个帧的语音信号进行遍历，计算遍历到的当前帧的语音信号其后连续的预设数量的帧的语音信号的短时能量，并将遍历到的当前帧及其后连续的预设数量的帧的短时能量分别与初始无声段语音信号的短时能量进行比较，以确定遍历到的当前帧及其后连续的预设数量的帧的短时能量是否均大于或等于初始无声段语音信号的短时能量。

接着，当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时，可以计算计算遍历到的当前帧与下一帧之间的短时能量的比值，并当确定计算得到的比值大于或等于预设的阈值时，确定遍历到的当前帧为所述语音信号的语音起始帧。

例如，以语音信号的时域表达式为x(l)，经过分帧加窗等预处理后得到的第n帧语音信号为x_n(m)为例，则其短时能量E_n为：

其中，N表示每一帧的帧长。

第一段检测为检测连续五帧的语音信号，判断连续五帧的语音信号的短时能量是否满足：

E_j≥Ti(IS)，i∈{m，m+1，m+2，m+3，m+4} (2)

其中，IS为语音初始无声段的平均时长，T_i(IS)表示初始无声段语音信号的短时能量大小，即为背景噪声。

通过上述的第一段检测，可以避免毛刺干扰对端点检测产生的影响。

当第一段检测无误，也即确定连续五帧的语音信号的短时能量均大于或等于初始无声段语音信号的短时能量时，则进入第二段比值判决，即：

其中，设σ_n为第二段检测门限，即预设的阈值，σ_n表示相邻的两帧语音信号中后一帧的语音信号短时能量与前一帧的语音信号的短时能量之间的比值，用来判断语音的起始段。满足上式的第n帧语音数据，即为语音的起始帧。

采用了两段式检测法对语言端点进行检测，可以提高语音起始帧检测的准确性，从而可以提高语音情感识别的准确性。

步骤S103：提取预处理后的语音信号的特征参数；所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差。

在本发明一实施例中，所述预处理后的语音信号的短时能量及其衍生参数，包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。

其中，因语音信号的能量与情感的表达具有较强相关性，首先采用计算式(1)分别计算预处理后多个帧的语音信号的短时能量，并求取预处理后多个帧的语音信号的短时能量中短时能量的最大值、短时能量的最小值、短时能量的均值和短时能量的方差。

接着，计算得到预处理后多个帧的语音信号的短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。其中：

在本发明一实施例中，预处理后多个帧的语音信号的短时能量抖动采用如下的公式计算：

其中，E_s表示短时能量抖动，M表示总帧数。

在本发明一实施例中，预处理后多个帧的语音信号的短时能量的线性回归系数采用如下的公式计算：

其中，E_r表示短时能量线性回归系数，M表示总帧数。

在本发明一实施例中，预处理后多个帧的语音信号的短时能量的线性回归系数的均方误差采用如下的公式计算：

其中，E_q表示短时能量的线性回归系数的均方误差。

在本发明一实施例中，所述预处理后多个帧的语音信号的短时能量中250Hz以下短时能量占全部短时能量的比例为：

其中，E₂₅₀表示在频域中250Hz以下的短时能量之和。

在本发明一实施例中，预处理后的语音信号的基音频率及其衍生参数，包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)！＝0的相邻两帧对应的浊音间差分基音。其中：

将声带震动的频率称为基音频率。在本发明一实施例中，采用短时自相关函数来获得基音频率。具体地，首先定义预处理后的每个帧的语音信号对应的自相关系数R_n(k)，再通过检测R_n(k)峰值的位置提取出对应的基音周期值，再对得到的基音周期值球倒数即得到对应的基音频率。

在本发明一实施例中，对于预处理后的第n帧的语音信号x_n(m)，其自相关函数R_n(k)为：

其中，R_n(k)为偶函数，其取值不为零的范围k＝(-N+1)～(N-1)。

当求取到预处理后的多个帧的语音信号的基音频率时，可以得到预处理后的多个帧的语音信号的基音频率中基音频率的最大值、基音频率的最小值、基音频率的均值和基音频率的方差。

在本发明一实施例中，将处理后的多个帧的语音信号中的第i个浊音帧的基音频率表示为F0_i，处理后的多个帧的语音信号的浊音帧总数表示为M^*，处理后的多个帧的语音信号的总帧数表示为M，则对应的一阶基音频率抖动和二阶基音频率抖动分别为：

其中，F0_s1表示所述一阶基音频率抖动，F0_s2表示所述二阶基音频率抖动。

在本发明一实施例中，在预设的多个帧的语音信号中所有满足F(i)*F(i+1)！＝0相邻的两帧之中，对应的浊音间差分基音dF为：

dF(k)＝F(i)-F(i+1)，1≤k≤M^*，1≤i≤M (11)

其中，F(i)表示第i帧的基音频率，F(i+1)表示第i+1帧的基音频率。

在本发明一实施例中，所述预处理后的语音信号的音质特征共振峰及其衍生参数，包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率的最小值和第二共振峰频率比率的均值。

在具体实施中，所述共振峰参数包括共振峰带宽和频率，二者提取的基础是对语音信号的频谱包络进行估计，并采用线性预测(LPC)法从声道模型中估计共振峰参数。

在本发明一实施例中，用LPC法对语音信号进行解卷，得到声道响应的全极模型参数为：

然后，求出预测误差滤波器A(z)的一个根，则i对应的共振峰频率为：

其中，T为采样周期。

将第i个浊音帧的第一、二、三共振峰频率分别表示为F1_i、F2_i、F3_i，则第二共振峰频率比率为：

F2_i/(F2_i-F1_i) (14)

当采用上述的公式计算得到多个帧的语音信号对应的第一、第二、第三共振峰频率时，可以求取多个帧的语音信号对应的第一、第二、第三共振峰频率中第一、第二、第三共振峰频率的最大值、最小值、均值、方差和一阶抖动，以及第二共振峰频率比率的最大值、最小值和均值。

在本发明一实施例中，为了提高识别的准确性，在梅尔(Mel)频率倒谱系数的提取中对Hz-Mel的非线性关系进行了修正，引入了2个新的系数Mid-MFCC和I-MFCC。Mid-MFCC和I-MFCC分别在中、高频区域具有很好的计算精度，可作为对低阶MFCC的补充，实现对全频域的频谱特征进行计算。其中，Mid-MFCC滤波器组的滤波器在中频区域分布较为密集，在低频、高频区域较为稀疏；I-MFCC为逆Mel频率倒谱系数，I-MFCC的滤波器组的滤波器在低频区域分布稀疏，高频区域分布较为密集。

在本发明一实施例中，所述对MFCC求取的20阶的Mel倒谱系数，包括1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC。在本发明一实施例中，1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC分别采用如下的公式计算得到：

最终，改进的MFCC的特征参数由这20阶的Mel倒谱参数和Mel倒谱系数(MFCC)的一阶差分的最大值、最小值、均值和方差组成。

步骤S104：采用所提取的特征参数组成对应的特征矢量序列，得到所述语音信号对应的特征矢量序列。

在具体实施中，当提取预处理后的多个帧的特征参数时，将所提取的特征参数按照顺序组合成对应特征矢量序列，从而得到所述语音信号对应的特征矢量序列。

步骤S105：采用支持向量机(SVM)对所述语音信号对应的特征矢量序列进行训练和识别，得到对应的语音情感识别结果。

在具体实施中，当得到所述语音信号对应的特征矢量序列时，可以将所述语音信号对应的特征矢量序列采用支持向量机(SVM)进行训练和识别，从而得到对应的语音情感识别结果。

在本发明一实施例中，选取支持向量机核函为径向基函数(RBF)，所采用的支持向量机分类器为“one-vs-one”模式的5类支持向量机分类器。

具体地，在训练支持向量机的过程中，对五种情感进行识别，根据“one-vs-one”策略可以构建10个支持向量机分类器，分别是“愤怒-害怕”、“愤怒-悲伤”、“愤怒-中性”、“愤怒-高兴”、“害怕-悲伤”、“害怕-中性”、“害怕-高兴”、“悲伤-中性”、“悲伤-高兴”、“中性-高兴”分类器。

接着，设置每种情绪的训练集样本数为150个，测试集样本数为50个，将在上述的步骤中提取特征参数组成的特征矢量序列输入到训练得到的10个支持向量机分类器。

采用本发明实施例中的语音情感识别方法与现有技术中的语音情感识别方法所得到情感识别的识别准确率的实验对比结果，分别如下表1、表2所示：

表1

表2

通过上述的表格的比较，可以看出本发明实施例中的语音情感识别方法的准确识别率性得到了显著的提升。

上述对本发明实施例中的语音情感识别方法进行了详细的描述，下面将对上述的方法对应的装置进行介绍。

图2示出了本发明实施例中的一种语音情感识别装置的结构。参加图2，所述装置20可以包括获取单元201、预处理单元202、参数提取单元203和识别单元204，其中：

所述获取单元201，适于获取待处理的语音信号。

预处理单元202，适于对所获取的语音信号进行预处理，得到预处理后的语音信号。

参数提取单元203，适于提取预处理后的语音信号的特征参数；采用所提取的特征参数组成对应的特征矢量序列，得到所述语音信号对应的特征矢量序列；所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差。

识别单元204，适于采用支持向量机对所述语音信号对应的特征矢量序列进行训练和识别，得到对应的语音情感识别结果。

在具体实施中，所述预处理单元202，适于对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。

在具体实施中，所述预处理单元202，适于对于预处理后得到的多个帧进行遍历，获取遍历到的当前帧；计算遍历到的当前帧及其后连续的预设数量的帧的短时能量；当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时，计算遍历到的当前帧与下一帧之间的短时能量的比值；当确定计算得到的比值大于或等于预设的阈值时，确定遍历到的当前帧为所述语音信号的语音起始帧。

在本发明一实施例中，所述预处理后的语音信号的短时能量及其衍生参数，包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例；

在本发明一实施例中，所述预处理后的语音信号的基音频率及其衍生参数，包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)！＝0的相邻两帧对应的浊音间差分基音；其中，F(i)表示第i帧的基音频率，F(i+1)表示第i+1帧的基音频率。

在本发明一实施例中，所述预处理后的语音信号的音质特征共振峰及其衍生参数，包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率最小值和第二共振峰频率比率均值。

在本发明一实施例中，所述对MFCC求取的20阶的Mel倒谱系数，包括1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC。

在本发明一实施例中，所述参数提取单元203，适于分别采用如下的公式计算得到1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC：

其中，f_Mel表示MFCC的频率，f_Mid-Mel表示Mid-MFCC的频率，f_I-Mel表示I-MFCC的频率，f表示实际频率

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的语音情感识别方法的步骤。其中，所述的语音情感识别方法请参见前述部分的介绍，不再赘述。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的语音情感识别方法的步骤。其中，所述的语音情感识别方法请参见前述部分的介绍，不再赘述。

采用本发明实施例中的上述方法，

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音情感识别装置，其特征在于，包括：

获取单元，适于获取待处理的语音信号；

参数提取单元，适于提取预处理后的语音信号的特征参数；采用所提取的特征参数组成对应的特征矢量序列，得到所述语音信号对应的特征矢量序列；所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差：

2.根据权利要求1所述的语音情感识别装置，其特征在于，所述预处理单元，适于对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。

3.根据权利要求2所述的语音情感识别装置，其特征在于，所述预处理单元，适于对于预处理后得到的多个帧进行遍历，获取遍历到的当前帧；计算遍历到的当前帧及其后连续的预设数量的帧的短时能量；当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时，计算遍历到的当前帧与下一帧之间的短时能量的比值；当确定计算得到的比值大于或等于预设的阈值时，确定遍历到的当前帧为所述语音信号的语音起始帧。

4.根据权利要求1-3任一项所述的语音情感识别装置，其特征在于，所述预处理后的语音信号的短时能量及其衍生参数，包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。

5.根据权利要求1-3任一项所述的语音情感识别装置，其特征在于，所述预处理后的语音信号的基音频率及其衍生参数，包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)！＝0的相邻两帧对应的浊音间差分基音；其中，F(i)表示第i帧的基音频率，F(i+1)表示第i+1帧的基音频率。

6.根据权利要求1-3任一项所述的语音情感识别装置，其特征在于，所述预处理后的语音信号的音质特征共振峰及其衍生参数，包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率最小值和第二共振峰频率比率均值。

7.根据权利要求1-3任一项所述的语音情感识别装置，其特征在于，所述对MFCC求取的20阶的Mel倒谱系数，包括1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC。

8.根据权利要求7所述的语音情感识别装置，其特征在于，所述参数提取单元，适于分别采用如下的公式计算得到1～6阶的MFCC、3～10阶的Mid-MFCC和7～12阶的I-MFCC：