CN114842878A

CN114842878A - 一种基于神经网络的语音情感识别方法

Info

Publication number: CN114842878A
Application number: CN202210158891.8A
Authority: CN
Inventors: 陆友军
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-08-02

Abstract

本发明涉及语音情感识别领域，尤其涉及一种基于神经网络的语音情感识别方法。用以解决语音情感识别的准确率不高的问题。方法包括：确定情感类型；建立语音情感数据库；语音信号的数字化处理和预处理；提取语音信号情感特征；对提取的特征进行整合；建立语音情感识别模型。通过对语音信号数字化处理和预处理，便于后期对语音信号的特征提取，通过提取语音信号的多个特征，大大地提高后期对语音信号的识别；通过利用CNN提取特征向量，再将特征向量传输给SVM进行分类，充分利用了CNN自动提取特征的优势，及SVM能够增强模型的鲁棒性和泛化性，有效地提高了对语音信号的情感识别的准确率。

Description

一种基于神经网络的语音情感识别方法

技术领域

本发明涉及语音情感识别领域，尤其涉及一种基于神经网络的语音情感识别方法。

背景技术

在随着计算机的普及以及科学技术的迅猛发展，人类对计算机的依懒性也在不断提高，其中人机交互技术渐渐地成为了当今的研究热点。语言是人与人之间相互沟通的途径与手段，人与机器之间相互沟通也少不了语言，在很多时候，我们可以很容易区分某些语音是人发出来的还是机器发出来的，这是因为在这些语音里包含了情感，机器是很难发出来的。

针对语音情感，国外也有很多人去研究，美国麻省理工学院多媒体实验室在二十世纪八十年代末到九十年代初，构造了采集外界各种情感信号的“情感编辑器”，通过采集人体各种信号如语音信号、生理信号等，完成了对不同情感的识别，实现了机器对不同情感做出简单的反应。

国内虽然在二十一世纪初才开始关注语音情感识别的研究，但是经过多年的发展，在语音情感领域也取得了很高的成就。中科院自动化研究所的陶建华教授率领的语音交互课题组利用神经网络构造了专门用于汉语普通话的语音情感识别模型。此外清华大学人机语音与媒体集成小组、中国台湾大同大学数据通信与信号处理研究室、浙江大学人工智能研究所、哈尔滨工业大学等研究团队也进行了语音情感识别相关的研究并取得了不菲的成绩。

虽然世界各国的研究人员在语音情感识别研究领域中取得了许多的研究成果，采用的特征以及识别模型各种客样，但是究竞应该选择什么特征？用什么建模方法？由于目前各种文献使用的情感语音数据库不同，得到的识别结果也相去甚远，不具有可比性，因而很难客观地判断特征及建模方法的优劣，现阶段主要存在的问题如下：

语音情感数据库中该领域研究的基础，目前没有一个多语言情感的数据库可以研究，根据某些研究发现，不同的语言的情感识别率有比较大的差距，如何建立一个比较规范的多语言的情感数据库是现阶段研究的首要任务。

现阶段用于情感识别的特征有各种客样，语音信号中用于情感识别的特征大致可以分为三类:韵律特征、音质特征和谱特征,包括能量、音高、过零率、共振峰、梅尔倒谱系数等。

此外，对于情感的分类问题仍然是当今十分热门的争论之一。

发明内容

本发明的目的在于提供一种基于神经网络的语音情感识别方法，用以解决语音情感识别的准确率不高的问题，一方面可以丰富人机交互领域中语音情感识别的研究，同时也可以提高语音情感识别的准确率。

为了实现上述目的，本发明采用如下技术方案：

一种基于神经网络的语音情感识别方法，其特征在于，包括以下步骤:

步骤S1、确定情感类型；

步骤S2、建立语音情感数据库；

步骤S3、语音信号的数字化处理和预处理；

步骤S4、提取语音信号情感特征；

步骤S5、对提取的特征进行整合；

步骤S6、建立语音情感识别模型。

进一步的，所述步骤S1中，情感类型包括：生气、恐惧、悲伤、高兴以及中性这5类。

进一步的，所述步骤S2中，建立语音情感数据库包括：

录音环境尽可能地减少外界的噪音干扰，因此需要在专业的录音室进行录制，时间选择在晚上夜深人静之时；

录音设备包括麦克风和电脑；

录音人员选择5名男性和5名女性专业演员；

选择的语句尽可能选择情感自由度比较大的，即同一语句在不同情感状态下，有很大的差异性，语句数量为300句，每一句均由专业演员用不同情感进行录制，总计语料15000句；

所录制的语料由非录制者进行主观辨别，剔除其中判定不正确的语料，最终得到12000句语料构成语音情感数据库；

语音情感数据库包括训练集、测试集以及验证集，比例为8:1:1。

进一步的，所述步骤S3中，语音信号数字化处理包括：采样、信号的放大、增益的控制、抗混叠滤波、量化、数模转换以及脉冲编码等；经过采样和量化处理后，还需要对语音信号预处理，包括预加重处理、加窗分帧以及端点检测；

其中预加重处理是通过一个一阶数字滤波器来实现，此滤波器的传递函数公式如下所示：

H(z)＝1-μz^-1 (1)

公式(1)中，z表示原始语音信号，μ为预加重系数，取值范围为0.9-1；

其中加窗分帧是用一个长度有限的窗函数来截取语音信号，将语音信号分成连续的小段语音，窗函数为汉明窗；

其中端点检测采用短时平均幅度差算法和双门限检测算法中的其中一种。

进一步的，所述步骤S4中，提取的情感特征包括：共振峰、MFCC、基音频率、短时能量、短时过零率；

其中共振峰提取采用线性预测法和倒谱法中的其中一种；

其中MFCC提取是将预处理后的语音信号通过离散傅里叶变换得到离散谱，将离散谱输入到Mel滤波器组，对离散谱做计算再经过取对数后得到对数频谱，将对数频谱经过离散余弦变换得到倒谱频域，即MFCC；

其中基音频率提取采用自相关函数法、基于频域分析的倒谱法、小波变换以及平均幅度差函数法中的其中一种；

其中短时过零率提取的计算公式如下：

其中公式(2)中，x(m)表示语音信号，w(n)表示窗函数，N表示窗口长度，E_n表示短时能量；

其中短时过零率提取的计算公式如下：

公式(3)中，x_n(m)表示语音信号，N表示窗口长度，Z_n表示短时过零率，sgn函数的关系式如下：

sgn(x)表示符号函数。

进一步的，所述步骤S5中，对提取的特征进行整合包括：提取语音信号的共振峰、Mel频率倒谱系数、基音频率、短时能量、短时过零率，其中Mel频率倒谱系数是12维特征，合计16维特征，统一提取512帧的音频特征，对于不够512帧的采用零填充，最终得到512*16的矩阵。

进一步的，所述步骤S6中，语音情感识别模型由CNN与SVM 联合来建立，使用SVM代替CNN的softmax分类层，即CNN提取特征后利用SVM进行分类；

其中CNN的参数设定为：

第一个卷积核大小为5*5，步长为1，激活函数Relu；

第一个池化层池化窗口为2*2，采用最大池化，输出向量为32 维；

第二个卷积核大小为5*5，步长为1，激活函数Relu；

第一个池化层池化窗口为2*2，采用最大池化，输出向量为64 维；

全连接层输出256维特征向量；

输出层采用softmax函数，以交叉熵作为优化目标；

其中SVM的参数设定为：

核函数采用RBF核函数；

C取0.9；

Tol取1e-3；

Gamma为scikit-learn自动设置。

本发明的有益效果：

1、通过选择生气、恐惧、悲伤、高兴以及中性这5类情感类型作为语音情感识别的基本情感，情感之间具有更大的区分性，便于后续对语音信号的情感识别。

2、通过专业的演员进行录制语音，选择的语句情感自由度比较大，使得同一语句在不同情感状态下，有很大的差异性，再剔除其中判定不正确的语料，建立起优质的语音情感数据库。

3、通过对语音信号数字化处理和预处理，便于后期对语音信号的特征提取，通过提取语音信号的多个特征，大大地提高后期对语音信号的识别。

4、通过利用CNN提取特征向量，再将特征向量传输给SVM进行分类，充分利用了CNN自动提取特征的优势，及SVM能够增强模型的鲁棒性和泛化性，有效地提高了对语音信号的情感识别的准确率。

附图说明

图1为本发明的一种基于神经网络的语音情感识别方法的流程图。

图2为本发明的语音信号的数字化处理和预处理的流程图。

图3为本发明的共振峰提取流程图。

图4为本发明的峰值检测法的示意图。

图5为本发明的二次式的内插法示意图。

图6为本发明的MFCC提取流程图。

图7为本发明的CNN与SVM联合的结构图。

图8为本发明的最大池化示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供了一种基于神经网络的语音情感识别方法，包括如下步骤：

步骤S1、确定情感类型；

情感是非常主观的体验，这些主观体验复杂多样，很难明确地定义其规范。通过对国内国外研究情况的了解，情感类型的选择是建立语音情感数据库之前的必要准备，而且情感类型的选择的好坏也将直接的影响后期对语音信号的识别。本发明采用的主流情感分类，把情感分为生气、厌恶、恐惧、高兴、悲伤、惊奇这6类，而为了能够有效的对语音识别，本发明选择生气、恐惧、悲伤、高兴以及中性这5 类作为语音情感数据库的基本组成。

步骤S2、建立语音情感数据库；

语音情感数据库是语音情感识别研究的基础和对象，因此建立一个真实有效的语音情感数据库是非常有必要的，而且语音情感数据库的好坏对语音情感识别的精准性也有着重要影响。目前，对语音情感数据库的建立主要分为三种类型：基于专业演员的语音情感数据库、设置一个虚拟环境从中诱导对象发出真实语音的语音情感数据库、基于现实生活的自然语言的语音情感数据库。每一种语音情感数据库都有各自的优点和缺点。

作为本发明优选的实施例，本发明采用专业的演员来建立语音情感数据库，具体如下：

1、录音环境尽可能地减少外界的噪音干扰，因此需要在专业的录音室进行录制，时间选择在晚上夜深人静之时；

2、录音设备包括麦克风和电脑；

3、录音人员选择5名男性和5名女性专业演员；

4、选择的语句尽可能选择情感自由度比较大的，即同一语句在不同情感状态下，有很大的差异性，语句数量为300句，每一句均由专业演员用不同情感进行录制，总计语料15000句；

5、所录制的语料由非录制者进行主观辨别，剔除其中判定不正确的语料，最终得到12000句语料构成语音情感数据库。

作为本发明优选的实施例，语音情感数据库包括训练集、测试集以及验证集，比例为8:1:1。

步骤S3、语音信号的数字化处理和预处理；

如图2所示，为了更好的对语音信号特征提取以及语音信号的识别，必须对语音信号进行预处理。由于声音本质上是模拟信号，而计算机处理的是数字信号，因此必须对语音信号进行数字化处理，数字化处理包括：采样、信号的放大、增益的控制、抗混叠滤波、量化、数模转换以及脉冲编码等；经过采样和量化处理后，还需要对语音信号进行预加重处理、加窗分帧、端点检测；

H(z)＝1-μz^-1 (1)

公式(1)中，z表示原始语音信号，μ为预加重系数，取值范围为0.9-1，本发明中，μ取值为0.98；

其中加窗分帧是用一个长度有限的窗函数来截取语音信号，将语音信号分成连续的小段语音，其中每一个小段语音又被称为一分析帧，帧长一般取值10-30ms，帧移大约是帧长的1/3；

作为本发明优选的实施例，帧长取值为25ms，帧移取值10ms；

其中加窗公式如下：

S_w(n)＝s(n)*w(n) (2)

公式(2)中，w(n)表示窗函数，s(n)表示原始语音信号；

本发明采用的窗函数为汉明窗，其中窗函数公式如下：

公式(3)中，N表示帧长，即窗口长度；

其中窗口长度、采样周期和频率分辨率之间的关系如下所示：

公式(4)中，N表示窗口长度，T_s表示采样周期，Δf表示频率分辨率；

其中端点检测是指进行语音信号的分析处理之前，把要分析的语音信号从输入信号中找出来，即能够从包含语音的一般信号中找到语音的起点和终点。目前运用最多的端点检测算法有短时平均幅度差算法和双门限检测算法等。

作为本发明优选的实施例，本发明采用双门限检测算法来对语音进行端点检测，具体为：首先根据短时能量来判断语音信号的位置，再通过短时过零率来确定有声与无声语音段的分界，从而找到语音信号的起点和终点；

其中短时能量的计算公式如下：

其中公式(5)中，x(m)表示语音信号，w(n)表示窗函数，N表示窗口长度，E_n表示短时能量；

其中短时过零率的计算公式如下：

公式(6)中，x_n(m)表示语音信号，N表示窗口长度，Z_n表示短时过零率，sgn(x)表示符号函数，sgn函数的关系式如下：

步骤S4、提取语音信号情感特征；

语音信号经过预处理之后，就要提取出能够反映情感的特征。本发明提取的情感特征包括：共振峰、Mel频率倒谱系数(MFCC)、基音频率、短时能量、短时过零率。

步骤S401、共振峰提取；

共振峰是语音信号处理最重要的参数之一，它决定着元音中的音质，共振峰参数包括共振峰频率和共振峰带宽，本发明对共振峰的提取采用线性预测法(LPC)，基本思想是：由于语音样点之间存在相关性，所以可以用过去的样点值预测现在或者未来的样点值，即一个语言的抽样可由过去若干个语音采样点的线性组合来逼近。如图3所示，通过使预测的采样值与实际输出值的方差最小可以求取一组线性预测系数，由此可得到声道的传递函数，再对声道的传递函数取模得到声道的传递函数的功率谱，然后对功率谱进行离散傅里叶变换就可以获得每一个分量的谱峰，从而得到共振峰频率，具体如下：

设原始语音信号值为S_n，其中n＝1,2,…,p,…；

p阶线性预测：根据语音信号过去p个取样值的加权来预测，预测值记为

p阶线性预测器的传递函数为：

公式(8)中，a_k表示线性预测系数；

在p阶线性预测器中求解预测值

公式如下：

再计算预测误差e_n，e_n是原始语音信号值S_n与预测值

之间的差，公式如下：

预测误差e_n是原始语音信号值S_n通过特定变换后的系统输出，表示如下：

公式(11)中，A(z)表示LPC误差误差滤波器；

计算在某一区域的e_n的平方和，即最小均方差ε²，公式如下：

令ε²对a_k的偏微分为0，公式如下：

公式(12)中，i＝1,2,…,p，k＝1,2,…,p；

由公式(12)可以得到：

对公式(13)进行简化，得到：

ψ(k,i)＝∑_n(S_n-S_n-i) (14)

由公式(14)可以得到：

为了求解公式(15)，必须计算ψ(k,i)，假设语音段外的数据为零，n∈[0,N]，此时ψ(k,i)可以表示为：

令S_n自相关函数为R_n(k)，公式如下：

因为自相关序列是偶对称，公式(17)也可以表示为：

公式(16)也可以表示为：

ψ(k,i)＝R_n(k-i)＝R_n(|k-i|) (19)

由公式(15)和(19)可得：

再利用Toeplitz矩阵可取得线性预测系数a_k，其中Toeplitz矩阵表示如下：

通过Toeplitz矩阵(21)得到p个线性预测系数，由此可得声道的传递函数，又称为全极点模型，表示如下：

公式(22)中，G为声道滤波器增益，a_k为线性预测系数，p为预测器阶数；

公式(22)又可表示为:

z^-1是语音信号的一次采样时间T的延迟算子，用复频率s＝jw 将其记为：

z^-1＝exp(-jwT) (24)

即：

z^-1＝exp(-jπf/f_max) (25)

带入(23)中得到：

通过公式(26)，利用以求出的预测系数，得到：

利用傅里叶(FFT)快速求出功率谱，因为功率谱具有对称形状，只需要计算到2^L-1的一半功率谱就可以了，公式如下：

P(i)＝20lgG-10lg[X²(i)+Y²(i)]²,i＝0,1,…,2^L-1 (28)

再通过求全极点模型的根求得频谱的频率F₁；

在取得语音信号频谱的情况下，如图4所示，用峰值检测法对峰值进行检测，并根据峰值二次式的内插法，可以得到较为精确的中心频率和功率谱；

如图5所示，用某个频谱值与前一个频谱值作比较，得出局部峰值频率为mΔf，这时对于频率(m-1)Δf、mΔf、(m+1)Δf的功率谱分别为p(m-1)、p(m)、p(m+1)，用二次方程(aλ²+bλ+c)来逼近求得较为精确的中心频率，方程如下：

由此可得系数：

c＝p(m) (32)

求极大值，通过下式：

其解为：

求中心频率F_i有：

此时的峰值为功率谱为P_p:

为求带宽B_i，可求满足方程：

则有：

又由公式(34)可得：

带宽为：

由上述算法，可在以离散的等间隔频率f给出频谱的情况下，求得其中心频率和带宽。对于全部的局部峰值，根据上述算法可顺序求出语音的共振峰。

步骤S402、Mel频率倒谱系数提取；

如图6所示，Mel频率倒谱系数是根据人的听觉机理发现的特征参数，它与频率成非线性对应关系。MFCC就是利用这种关系计算得到频谱特征，公式如下：

公式(42)中，f表示频率，单位为H_z，Mel(f)为梅尔频率；

预处理后的语音信号通过离散傅里叶变换(DFT)得到离散谱，公式如下：

公式(43)中，N为傅里叶变换的点数，x(n)为预处理后的语音信号，

为复变函数,X(k)表示离散谱；

设计一组梅尔滤波器，称为Mel滤波器组或者梅尔滤波器组，其中每个滤波器的输出形式如下：

其中：

公式(44)和(45)中，F₀为采样频率，f_a和f_b表示滤波器运用范围的Mel频率的最高频率和最低频率,N为傅里叶变换时的点数，M 为滤波器的个数，f(m)表示中心频率；

作为本发明优选的实施例，采样频率为16kHZ；

将离散谱输入到Mel滤波器组，对离散谱做计算再经过取对数后得到对数频谱，公式如下：

将对数频谱经过离散余弦变换(DCT)得到倒谱频域，即MFCC、 Mel频率倒谱系数:

步骤S403、基音频率提取；

基音频率是语音信号处理中重要的参数之一，声带每开启和闭合一次的时间是基音周期，基音周期的倒数就称为基音频率，简称基频。男性的基频一般在80-160HZ之间，女性的基频一般在160-400HZ之间。可以选取平均基音频率，最大基音频率、最小基音频率、基音频率的平均变化率等参数用于情感识别。提取基音频率的方法包括自相关函数法(ACF)、基于频域分析的倒谱法、小波变换(Wavelet Transform)以及平均幅度差函数法(AMDF)等，本发明采用的是自相关法(ACF)；

自相关法(Autocorrelation Function,ACF)的原理是：周期信号的自相关函数将在时延等于函数周期的地方产生一个极大值，即自相关函数的周期与原始语音信号的周期相同。

语音信号S(m)经过窗长为N的窗口截取为一段加窗语音信号 S_n(m)后，定义S_n(m)的自相关函数为：

公式(48)中，k表示延迟时间量，N表示窗函数的窗长，S_n(m)表示加窗分帧处理后的第m帧语音信号；

因为自相关函数的周期与原始语音信号的周期相同，所以可以通过寻找其峰值取倒数即得基音频率。

步骤S404、短时能量提取；

语音信号在一段很短的时间内可以看做是平稳信号，这段时间的能量几乎不变，称为短时能量。因此，短时能量是语音信号情感识别中重要的特征参数之一，短时能量可以通过公式(5)计算得到。

步骤S405、短时过零率提取；

短时过零率是指在较短的时间间隔内语音信号“过零”的次数，表示信号的符号在这段时间内变化的快慢，短时过零率可以通过公式(6) 计算得到。

步骤S5、对提取的特征进行整合；

提取了语音信号的共振峰、Mel频率倒谱系数、基音频率、短时能量、短时过零率，其中Mel频率倒谱系数是12维特征，合计16 维特征，又有采用频率是16kHZ，采样窗口大小为25ms，移动步长为10ms，统一提取512帧的音频特征，对于不够512帧的采用零填充，最终的二到512*16的矩阵。

步骤S6、建立语音情感识别模型；

如图7所示，本发明采用卷积神经网络(CNN)与支持向量机 (SVM)联合来建立语音情感识别模型，使用SVM代替CNN的 softmax分类层，即CNN提取特征后利用SVM进行分类，步骤如下：

步骤1、对样本数据进行处理；

步骤2、建立卷积神经网络(CNN)；

步骤3、将数据代入进行训练，获取卷积层权重参数；

步骤4、保存训练好的模型；

步骤5、把数据代入模型获得特征向量；

步骤6、将特征向量输入SVM训练；

步骤7、测试和验证时，重复上述步骤，获得结果。

步骤1中的样本数据是步骤S5提取到的512*16矩阵；

步骤2中，卷积神经网络(Convolutional Neural Network，CNN) 是一种深度前馈人工神经网络，是一种由卷积层与池化层交替堆叠而成的深度神经网络。卷积神经网络参数设定：

第一个卷积核大小为5*5，步长为1，激活函数Relu；

第一个池化层池化窗口为2*2，如图8所示，采用最大池化，输出向量为32维；

第二个卷积核大小为5*5，步长为1，激活函数Relu；

全连接层输出256维特征向量；

输出层采用softmax函数，以交叉熵作为优化目标；

步骤6中支持向量机(SupportVectorMachine，SVM)是一种基于统计学习理论的有监督学习模型。其基本思想是：通过一个非线性的变换，将数据映射到高维的特征空间，然后在线性可分的情况下于高维空间中求得最优分类超平面。通过最优分类超平面，能把所有数据的正负训练样本正确分类，同时最大化分类间隔，便得超平面的分类效果的鲁棒性最强，其中能取到超平面的那些样本称为支持向量。支持向量机参数设定：

SVM采用的是径向基(RBF)核函数，表示如下：

K(x,x_i)＝exp(-γ‖x-x_i‖²),γ>0 (49)

公式(49)中，γ是非零常数，表示核参数，‖x-x_i‖表示差向量的模；

实常数C取0.9，C又被称为“惩罚参数”，是控制惩罚程度的常数；

Tol取1e-3；

Gamma为scikit-learn自动设置；

步骤7中结果包括准确率、召回率、分类的正确率以及F1值；

本实施例中，对语音信号进行识别，最终分成了生气、恐惧、悲伤、高兴以及中性这5类。

至此完成了整个方法的流程。

结合具体实施，可以得到本发明的优点是，充分利用卷积神经网络自动提取特征的优势，及SVM分类器能够增强模型的鲁棒性和泛化性，有效地提高了对语音信号的情感识别的准确率。

本发明未详述之处，均为本领域技术人员的公知技术。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于神经网络的语音情感识别方法，其特征在于，包括以下步骤:

步骤S1、确定情感类型；

步骤S2、建立语音情感数据库；

步骤S3、语音信号的数字化处理和预处理；

步骤S4、提取语音信号情感特征；

步骤S5、对提取的特征进行整合；

步骤S6、建立语音情感识别模型。

2.如权利要求1所述的一种基于神经网络的语音情感识别方法，其特征在于，所述步骤S1中，情感类型包括：生气、恐惧、悲伤、高兴以及中性这5类。

3.如权利要求2所述的一种基于神经网络的语音情感识别方法，其特征在于，所述步骤S2中，建立语音情感数据库包括：

录音设备包括麦克风和电脑；

录音人员选择5名男性和5名女性专业演员；

4.如权利要求3所述的一种基于神经网络的语音情感识别方法，其特征在于，所述步骤S3中，语音信号数字化处理包括：采样、信号的放大、增益的控制、抗混叠滤波、量化、数模转换以及脉冲编码等；经过采样和量化处理后，还需要对语音信号预处理，包括预加重处理、加窗分帧以及端点检测；

H(z)＝1-μz^-1 (1)

5.如权利要求4所述的一种基于神经网络的语音情感识别方法，其特征在于，所述步骤S4中，提取的情感特征包括：共振峰、MFCC、基音频率、短时能量、短时过零率；

其中共振峰提取采用线性预测法和倒谱法中的其中一种；

其中短时过零率提取的计算公式如下：

其中短时过零率提取的计算公式如下：

sgn(x)表示符号函数。

6.如权利要求5所述的一种基于神经网络的语音情感识别方法，其特征在于，所述步骤S5中，对提取的特征进行整合包括：提取语音信号的共振峰、Mel频率倒谱系数、基音频率、短时能量、短时过零率，其中Mel频率倒谱系数是12维特征，合计16维特征，统一提取512帧的音频特征，对于不够512帧的采用零填充，最终得到512*16的矩阵。

7.如权利要求6所述的一种基于神经网络的语音情感识别方法，其特征在于，所述步骤S6中，语音情感识别模型由CNN与SVM联合来建立，使用SVM代替CNN的softmax分类层，即CNN提取特征后利用SVM进行分类；

其中CNN的参数设定为：

第一个卷积核大小为5*5，步长为1，激活函数Relu；

第一个池化层池化窗口为2*2，采用最大池化，输出向量为32维；

第二个卷积核大小为5*5，步长为1，激活函数Relu；

第一个池化层池化窗口为2*2，采用最大池化，输出向量为64维；

全连接层输出256维特征向量；

输出层采用softmax函数，以交叉熵作为优化目标；

其中SVM的参数设定为：

核函数采用RBF核函数；

C取0.9；

Tol取1e-3；

Gamma为scikit-learn自动设置。