CN110827857A

CN110827857A - 基于谱特征和elm的语音情感识别方法

Info

Publication number: CN110827857A
Application number: CN201911189489.0A
Authority: CN
Inventors: 张健沛; 史芝欣; 杨静; 王勇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-02-21
Anticipated expiration: 2039-11-28
Also published as: CN110827857B

Abstract

本发明提供的是一种基于谱特征和ELM的语音情感识别方法。原始语音信号进行基本特征提取包括韵律特征、音质特征；利用Teager能量算子TEO算法提取梅尔频率倒谱系数MFCC和耳蜗滤波倒谱系数CFCC，二者加权得到teCMFCC特征，并与基本特征值进行融合，构建特征矩阵；用Fisher准则和相关分析对特征进行选择降维，保留语音信号的个性特征；建立极限学习机ELM决策树模型，完成语音情感识别分类。本发明强调了语音信号的非线性特征，具有很好的鲁棒性，在中国科学院自动化研究所录制的CASIA中文情感语料库上进行实验，验证提出的基于谱特征和ELM的语音情感识别算法对中文语音信号具有很好的分类识别精度。

Description

基于谱特征和ELM的语音情感识别方法

技术领域

本发明涉及的是一种语音情感识别方法，具体地说是一种基于倒谱特征(cepstral-based spectral feature)的语音情感识别方法。

背景技术

1997年，美国麻省理工学院的Picard教授提出了情感计算(AffectiveComputing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域，已然成为人工智能的重要发展方向之一，而为了以自然的方式理解和传达彼此的意图，人机交互(HCI)近年来也受到越来越多的关注，人们希望计算机能更加像人。语音作为一种快速且易于理解的通信方式，是人们日常生活中最常用、最有效、最方便的交流方式，人们通过声带发声，除了表达基本的语意信息以外,还表达了说话人的情感等信息，因此研究人员将语音视为一种人与机器之间交互的快速有效的方法，这便要求机器能够智能识别人类的声音。至今，人们对语音识别进行了大量研究，但大多做的是语音转变为文本的识别过程。人机交互面临的主要问题是如何让机器准确识别掌握情绪信息的能力，类似于人类的情商能力，即人类与机器最大的区别在于人类有大脑，可思考，有情感。

与拥有几十年研究历史的语音识别技术相比，语音情感识别技术在仍处于起步阶段。语音情感识别相关研究出现在20世纪80年代中期，1985年Minsky教授“让计算机具有情感能力”观点的提出，以及人工智能领域的研究者们对情感智能重要性认识的日益加深，越来越多的科研机构开始了语音情感识别研究的探索。在此期间，它得到了世界范围内相关研究者们的广泛关注，也取得了一些令人瞩目的成绩，但同时也面临着诸多问题的考验与挑战。目前，语音情感识别分类系统一般由数据采集、预处理、特征提取、特征降维和分类决策组成。其中特征提取和分类决策在语音情感识别中起到至关重要的作用。

特征提取的任务是从输入的语音信号中提取能够区分不同情感的参数序列。当前用于语音情感识别的特征大致可分为韵律学特征、基于谱的相关特征和音质特征这3种类型。韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化，它的情感区分能力已得到语音情感识别领域研究者们的广泛认可，使用非常普遍，其中最为常用的韵律特征有时长(duration)、基频(pitch)、能量(energy)等；声音质量特征是用于衡量语音清晰度、是否容易辨识的主观评价指标，用于衡量语音是否纯净、清晰、容易辨识等，用于衡量声音质量的声学特征一般有：共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等；基于谱的相关特征被认为是声道形状变化和发声运动之间相关性的体现，语音中的情感内容对频谱能量在各个频谱区间的分布有着明显的影响，有越来越多的研究者们将谱相关特征运用到语音情感的识别中来，并起到了改善系统识别性能的作用。在语音情感识别任务中使用的线性谱特征一般有线性预测系数(Linear Predictor Coefficient,LPC)，单侧自相关线性预测系数(One-sided Autocorrelation Linear Predictor Coefficient,OSALPC)，对数频率功率系数(Log-frequency Power Coefficient,LFPC)等；倒谱特征一般有：MFCC，CFCC，线性预测倒谱系数(Linear Predictor Cepstral Coefficient,LPCC)，Gammatone滤波倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)等。

分类决策方法包括经典的统计方法，如判别分析、混合模型、朴素贝叶斯分类器等，用于语音情感识别最为广泛的有支持向量机(Support Vector Machine,SVM)、极限学习机、高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔可夫模型(Hidden MarkovModel,HMM)等分类方法。HMM模型受到极大似然准则限制，类别区分能力较弱，在汉语普通话语料库上识别率可达到75.5％。GMM是一种用于密度估计的概率模型，由基频和能量的相关特征训练得到GMM模型最优性能可达到78.77％。SVM适合分类且具有较好的鲁棒性，它在汉语普通话语料库上识别率可达到77.97％。

此外，随着深度学习的大热，有研究也使用了深度学习方法作为分类器进行语音情感识别，包括卷积神经网络(Convolutional Neural Networks,CNN)、深度神经网络(Deep Neural Networks,DNN)、深度信念网络(Deep Belief Network,DBN)等。但是深度学习算法在数据集比较大的情况下分类效果比较好，而机器学习算法在小数据集上表现效果比较好。

发明内容

本发明的目的在于提供一种对中文语音信号具有很好的分类识别精度的基于谱特征和ELM的语音情感识别方法。

本发明的目的是这样实现的：

(1)对原始语音信号进行特征提取获得基本特征值，所述特征包括韵律特征和音质特征；

(2)利用Teager能量算子算法在Mel标度频域提取梅尔频率倒谱系数MFCC和耳蜗滤波倒谱系数CFCC，得到teMFCC特征值和teCFCC特征值；

(3)对teMFCC特征值和teCFCC特征值加权得到teCMFCC特征值，并与基本特征值进行融合，构建特征矩阵；

(4)用Fisher准则和相关分析对特征进行选择降维，去除相关互联的冗余特征，提取具有表示情绪能力的情感特征；

(5)提出极限学习机-决策树模型进行语音情感识别分类决策任务，最终实现较精确的目标分类识别。

本发明还可以包括：

1.所述韵律特征包括基频、短时平均能量、短时平均振幅、静音时间比、短时平均过零率、语速，所述音质特征包括共振峰频率、呼吸音、响度。

2.在步骤(2)中，将语音信号通过一个高通滤波器，包括预加重、分帧、加窗函数，对每一帧信号进行FFT变换，计算功率谱，进行TEO变换；得到变换后的TEO系数；将每帧信号的TEO系数经过快速傅里叶变换FFT得到离散频谱，然后计算功率谱；将此功率谱通过MFCC滤波器组滤波，计算对数功率谱；将对数功率谱经过离散余弦变换DCT得到teMFCC特征值。

3.步骤(2)中将语音信号通过耳蜗滤波器组实现听觉变换，计算功率谱；进行内毛细胞函数变换，将变换后的功率谱值进一步提取TEO系数；将变换得到的TEO系数进行非线性变换；进行DCT变换得到teCFCC特征值。

4.在步骤(3)中，teCMFCC＝0.6×teMFCC+0.4×teCFCC。

5.在步骤(4)中利用fisher准则对特征优劣进行排序，然后对其进行相关分析，设置门限值δ为0.78，剔除冗余特征。

6.在步骤(5)中ELM的激活函数用的sigmoid函数S(x)＝1/1+e^-x，

实际输出和期望输出之间的误差为：

ο_j表示网络输出层的实际值，t_j表示网络输出层的预期值。

7.步骤(5)中是基于二元决策树分层识别，基于一类情绪与其他类别情绪之间的混淆程度，两组之间的混淆程度为

其中D_ij代表现有的情绪标记组，D_L1,L2表示两组之间混淆程度的平均值。

本发明提供的是一种基于谱特征和ELM的语音情感识别方法。包括如下步骤：(1)原始语音信号进行基本特征提取包括韵律特征、音质特征；(2)提出利用Teager能量算子(Teager Energy Operators Cepstral Coefficients,TEO)算法提取梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)和耳蜗滤波倒谱系数(CochlearFilter Cepstral Coefficients,CFCC)，二者加权得到teCMFCC特征，并与基本特征值(基频、短时能量、共振峰等)进行融合，构建特征矩阵；(3)用Fisher准则和相关分析对特征进行选择降维，去除相关互联的冗余特征，保留语音信号的个性特征；(4)建立极限学习机(Extreme Learning Machine,ELM)决策树模型，完成语音情感识别分类。本发明强调了语音信号的非线性特征，具有很好的鲁棒性，在中国科学院自动化研究所录制的CASIA中文情感语料库上进行实验，验证提出的基于谱特征和ELM的语音情感识别算法对中文语音信号具有很好的分类识别精度。

本发明与现有技术相比的优点在于：a.MFCC是根据人的听觉感知机理提出的特征参数，能够反映人的语音特征，加入Teager能量算子解决其忽略语音信号的非线性特征问题，具有良好的识别性能。b.为了弥补MFCC性能随着信噪比的降低会大幅度下降的不稳定性问题，引入了CFCC系数，并加入反映信号能量变化的TEO系数，一定程度上抑制了零均值噪声对语音信号的影响，因此更能完整地描述语音的特性。c.采用ELM决策树算法可以减少数据处理时间，提高学习速度。本发明可以解决传统语音情感识别方法特征提取单一，鲁棒性差的问题，并且能有效的提高语音情感识别的准确率，有一定的适应性。

附图说明

图1是本发明方法的流程图；

图2是MFCC滤波器中心频率变换曲线；

图3是极限学习机ELM结构示意图；

图4是本发明的ELM决策树结构示意图；

图5是实验MFCC-ELM决策树，CFCC-ELM决策树,teMFCC-ELM决策树，teCFCC-ELM决策树和teCMFCC-ELM决策树的分类识别准确率对比图。

具体实施方式

本发明在实现过程中包括如下步骤：

(1)对原始语音信号进行特征提取包括韵律特征(基频、短时平均能量、短时平均振幅、静音时间比、短时平均过零率、语速)、音质特征(共振峰频率、呼吸音、响度)；

(2)提出利用Teager能量算子(Teager Energy Operators CepstralCoefficients,TEO)算法在Mel标度频域提取梅尔频率倒谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC)和耳蜗滤波倒谱系数(Cochlear Filter CepstralCoefficients,CFCC)，得到teMFCC特征值和teCFCC特征值；

(3)对teMFCC特征值和teCFCC特征值加权得到teCMFCC特征值，并与基本特征值(韵律特征、音质特征)进行融合，构建特征矩阵；

(4)用Fisher准则和相关分析对特征进行选择降维，去除相关互联的冗余特征，提取具有较强表示情绪能力的情感特征；

本发明的上述步骤中具体包括：

1、在步骤(1)中将原始语音信号进行特征提取包括韵律特征、音质特征，获得基本特征值。

2、在步骤(2)中将语音信号通过一个高通滤波器，包括预加重、分帧、加窗函数，对每一帧信号进行FFT变换，计算功率谱，进行TEO变换；将变换后的TEO系数；将每帧信号的TEO系数经过快速傅里叶变换FFT得到离散频谱，然后计算功率谱；将此功率谱通过MFCC滤波器组滤波，计算对数功率谱；将对数功率谱经过离散余弦变换DCT得到teMFCC特征值。

3、所述步骤(2)中将语音信号通过耳蜗滤波器组实现听觉变换，计算功率谱；进行内毛细胞函数变换，将变换后的功率谱值进一步提取TEO系数；将变换得到的TEO系数进行非线性变换；进行DCT变换得到teCFCC特征值。

4、根据权利要求1所述的基于谱特征和ELM的语音情感识别方法，其特征是：在步骤(3)中teMFCC特征值和teCFCC特征值加权得到teCMFCC特征值，teCMFCC＝0.6×teMFCC+0.4×teCFCC，并与基本特征值(韵律特征、音质特征)进行融合，构建特征矩阵。

5、在步骤(4)中利用fisher准则对特征优劣进行排序，然后对其进行相关分析，设置门限值δ为0.78，剔除冗余特征。

6、在步骤(5)中中ELM的激活函数用的sigmoid函数S(x)＝1/1+e^-x，实际输出和期望输出之间的误差为：

ο_j表示网络输出层的实际值，t_j表示网络输出层的预期值。

7、所述步骤(5)中算法是基于二元决策树分层识别，基于一类情绪与其他类别情绪之间的混淆程度，两组之间的混淆程度为其中D_ij代表现有的情绪标记组，D_L1,L2表示两组之间混淆程度的平均值。

下面结合附图举例对本发明做更详细的描述。

结合图1，本发明的具体步骤如下：

(1)对原始语音信号进行特征提取包括韵律特征、音质特征(基频、基频最大值、基频变化范围、基频变化率、基频标准差、短时平均能量、短时平均振幅、静音时间比、短时平均过零率、语速)、音质特征(共振峰频率、呼吸音、响度)；

(2)teMFCC特征提取算法和teCFCC特征提取算法

MFCC是在Mel标度频率域提取出来的倒谱参数，它是根据人的听觉感知机理提出的特征参数，能够反映人的语音特征，具有良好的识别性能。它与频率的关系可用下式近似表示：

teMFCC特征提取主要有以下步骤：

①预处理，将语音信号通过一个高通滤波器，包括预加重、分帧、加窗函数。预加重的滤波器常设为：H(z)＝1-az^-1，其中a是一个常数，介于0.9-1.0之间，我们通常取0.97。

分帧：将语音信号分段来分析其特征参数，其中每一段称为一帧，帧长一般取为10～30ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。

加窗函数：加窗的目的是减少频域中的泄露，将对每一帧语音乘以窗函数。假设分帧后的信号为S(n),n＝0,1,…,N-1，N为帧的大小，再乘上汉明窗：

S′(n)＝S(n)×W(n)，W(n,a)＝(1-a)-a×cos(2πn/N-1)

②对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱，从时域数据转变为频域数据，并对语音信号的频谱取模平方得到语音信号的功率谱。

③对功率谱各点计算TEO系数。

④将变换后的功率谱通过一组Mel尺度的三角形滤波器组，采用的滤波器为三角滤波器，中心频率为f(m)，各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽，变换曲线如图2所示。三角滤波器的频率响应定义为：

把求出的每帧谱线能量谱通过Mel滤波器，并计算在该Mel滤波器中的能量。在频域中相当于把每帧的能量谱E(i,k)(其中i表示第i帧，k表示频域中的第k条谱线)与Mel滤波器的频域响应H_m(k)相乘并相加得到对数频谱S(m)：

⑤离散余弦变换DCT

将对数频谱进行DCT变换，把Mel滤波器的能量取对数后计算DCT：

式中S(i,m)为Mel滤波器能量，m是指第m个Mel滤波器(共有M个)，i表示第i帧，n是DCT后的谱线。

CFCC是基于听觉变换提出的一种特征参数提取方法，耳蜗滤波函数为：

为单位步进函数，b是随时间可变的实数，a为尺度变量，f_L是滤波器组的最低中心频率。

teCFCC特征提取主要有以下步骤：

①将语音信号进行听觉变换

②将转换后的信号进行内毛细胞函数变换，计算谱值的TEO系数。

③将变换后的TEO系数进行非线性变换。

④采用DCT变换进行去相关，得到teCFCC特征参数。

(3)特征融合

将(2)中的teMFCC特征值和teCFCC特征值加权得到teCMFCC特征值：

teCMFCC＝0.6×teMFCC+0.4×teCFCC

并将其与基本特征值(韵律特征、音质特征)进行融合，构建特征矩阵。

(4)Fisher准则和相关分析进行特征降维

对特征矩阵T_N＝{x₁,x₂,…,x_n}，样本总数为K，相关分析选择过程如下：

①利用fisher评价准则，将N个特征优劣进行排序。

②求出这N个特征的自相关系数矩阵。

③设置门限δ为0.78，按顺序i＝1,2,…,N；j＝i+1,i+2,…,N考察特征。

④对降维的特征子集再进行精选，用动态规划法从中选出最优特征子集T_L。

(5)建立ELM-决策树模型进行分类决策

极限学习机ELM是一种应用于广义单隐层前馈神经网络的新的学习算法，是一类基于前馈神经网络(Feedforward Neuron Network,FNN)构建的机器学习系统或方法，适用于监督学习和非监督学习问题。标准的ELM使用单层前馈神经网络(Single LayerFeedforward neuron Network,SLFN)的结构，SLFN的组成包括输入层、隐含层和输出层，示意图如图3。

ELM算法可以定义为以下步骤。

①给出训练集ψ＝(x_i,t_i)|x_i,i＝1,2,…,N，激活函数G(x)，隐藏神经元L的数量。

②随机分配输入权重w_i和偏差b_i的值。

②计算隐藏层输出矩阵H。

④计算输出权重β:β＝H`T，其中是隐藏输出矩阵H的广义逆。

在ELM算法中，一旦输入权重a_i和隐藏层b_i的偏差被随机确定，则隐藏层H的输出矩阵被唯一地确定。

本方法是基于二元决策树分层语音情感识别方法，该方法基于一类情绪与其他类别情绪之间的混淆程度，两组之间的混淆程度是：其中D_ij代表现有的情绪标记组，D_L1,L2表示两组之间混淆程度的平均值。两组之间混淆程度越小，情绪组之间的差异越大，这意味着它更容易区分。相反，两组之间混淆程度越大，情绪组之间的差异越小，这意味着它更难区分。决策树是根据情绪状态和其他情绪状态之间的混淆程度构建的。为了减少决策树的累积损失，将具有小混淆度的情绪置于二叉树的较高节点上进行识别，将具有较大混淆度的情绪置于决策树的较低节点上，如图4所示，根据每个决策树级别中每个基本情绪之间的混淆程度，顺序识别快乐，悲伤，惊讶，愤怒，恐惧和中立。

为验证本发明提出的基于谱特征和ELM的语音情感识别方法的有效性，基于中国科学院自动化研究所录制的CASIA中文情感语料库进行实验。图5给出了MFCC-ELM决策树，CFCC-ELM决策树，teMFCC-ELM决策树，teCFCC-ELM决策树和teCMFCC-ELM决策树的分类识别准确率对比图。从图5中可以看出，MFCC比CFCC表征情感能力较强，本发明提出的teMFCC算法和teCFCC算法提取的特征值较原特征值识别精度较高，二者的融合算法teCMFCC提取的特征准确率更高，验证了本发明算法的优越性。

因此，本发明提出基于谱特征和ELM的语音情感识别方法在中文数据库CASIA具有较好的分类识别能力。

Claims

1.一种基于谱特征和ELM的语音情感识别方法，其特征是：

2.根据权利要求1所述的基于谱特征和ELM的语音情感识别方法，其特征是：所述韵律特征包括基频、短时平均能量、短时平均振幅、静音时间比、短时平均过零率、语速，所述音质特征包括共振峰频率、呼吸音、响度。

3.根据权利要求1所述的基于谱特征和ELM的语音情感识别方法，其特征是：在步骤(2)中，将语音信号通过一个高通滤波器，包括预加重、分帧、加窗函数，对每一帧信号进行FFT变换，计算功率谱，进行TEO变换；得到变换后的TEO系数；将每帧信号的TEO系数经过快速傅里叶变换FFT得到离散频谱，然后计算功率谱；将此功率谱通过MFCC滤波器组滤波，计算对数功率谱；将对数功率谱经过离散余弦变换DCT得到teMFCC特征值。

4.根据权利要求3所述的基于谱特征和ELM的语音情感识别方法，其特征是：步骤(2)中将语音信号通过耳蜗滤波器组实现听觉变换，计算功率谱；进行内毛细胞函数变换，将变换后的功率谱值进一步提取TEO系数；将变换得到的TEO系数进行非线性变换；进行DCT变换得到teCFCC特征值。

5.根据权利要求4所述的基于谱特征和ELM的语音情感识别方法，其特征是：在步骤(3)中，teCMFCC＝0.6×teMFCC+0.4×teCFCC。

6.根据权利要求5所述的基于谱特征和ELM的语音情感识别方法，其特征是：在步骤(4)中利用fisher准则对特征优劣进行排序，然后对其进行相关分析，设置门限值δ为0.78，剔除冗余特征。

7.根据权利要求6所述的基于谱特征和ELM的语音情感识别方法，其特征是：在步骤(5)中ELM的激活函数用的sigmoid函数S(x)＝1/1+e^-x，实际输出和期望输出之间的误差为：ο_j表示网络输出层的实际值，t_j表示网络输出层的预期值。

8.根据权利要求7所述的基于谱特征和ELM的语音情感识别方法，其特征是：步骤(5)中是基于二元决策树分层识别，基于一类情绪与其他类别情绪之间的混淆程度，两组之间的混淆程度为其中D_ij代表现有的情绪标记组，D_L1,L2表示两组之间混淆程度的平均值。