CN109065073A

CN109065073A - 基于深度svm网络模型的语音情感识别方法

Info

Publication number: CN109065073A
Application number: CN201810945062.8A
Authority: CN
Inventors: 孙颖; 张雪英; 王少玄; 宋春晓; 吕慧芬; 李鸿燕; 黄丽霞
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2018-12-21

Abstract

本发明涉及语音情感识别技术领域，具体是一种基于深度SVM网络模型的语音情感识别方法。包括以下的步骤，S100～语音信号的预处理操作：包括端点检测、预加重、分帧加窗；S200～语音信号的情感特征提取：包括韵律特征、MFCC特征和非线性特征；S300～构建深度SVM网络模型对语音信号进行训练与识别。本发明不仅弥补了现有特征在刻画情感状态上的不足，还有效地解决了SVM模型的两个问题：一是模型的性能取决于先验选择的核函数；二是具有单层可调整的网络参数，器模型的表征能力有限。

Description

基于深度SVM网络模型的语音情感识别方法

技术领域

本发明涉及语音情感识别技术领域，具体是一种基于深度SVM网络模型的语音情感识别方法。

背景技术

语言是人类进行沟通交流最有效的工具。语言中不仅包含了文字信息，而且还包含了大量反映说话人情感变化的副语言信息。作为语音信号处理和情感计算领域的重要分支，语音识别技术在车载导航、视频监控、网络视讯等人机交互领域中有着非常广泛的应用。

语音识别技术是指能够让机器听懂人所说的话，即在特定和非特定环境下让计算机尽可能以接近人类的方式对语音信号的特征进行正确的关联和映射，从而准确识别出语音的内容。因此，提取与表征语音信号相关性最紧密的特征、并能准确进行正确识别成为了语音识别技术的关键。目前，针对语音情感识别的研究，学者们进行了多方面的研究，并取得了相当多有价值的研究成果。在情感特征提取方面，用于语音情感识别的特征大致可分为韵律学特征、音质特征、基于谱的相关特征、非线性特征、融合特征等。以上特征均利用了语音信号分段线性的特点，因此，仅利用语音信号分段线性的特点提取时域、频域属性语音特征会造成语音信号中某些非线性特征的丢失，从使得语音信号的信息不完整。在情感识别模型方面，有学者提出一些抗噪性能好、识别效果好的识别模型，比如：隐马尔科夫模型(HMM)、支持向量机模型(SVM)、高斯混合模型(GMM)等。但此类模型局需要语音信号的先验统计知识，分类决策能力相对较弱。因此要进一步提高语音情感识别率，就要提出能够表征情感信息的新特征，并对SVM模型进行改进。

发明内容

本发明所要解决的技术问题是：一方面可以提取情感语音信号的语谱图特征，获得表征情感信息的完整特征集；另一方面可以解决SVM取决于先验选择的核函数的局限性，提高语音情感的识别率。提供一种基于深度SVM网络模型的语音情感识别方法。

本发明采取以下技术方案：一种基于深度SVM网络模型的语音情感识别方法，具体包括以下的步骤，

S100～语音信号的预处理操作：包括端点检测、预加重、分帧加窗；

S200～语音信号的情感特征提取：包括韵律特征、MFCC特征和非线性特征；

S300～构建深度SVM网络模型对语音信号进行训练与识别。

所述的S100包括以下步骤，

S101～端点检测：采用能量和过零率两级判决法对语音信号进行起始点与终止点的判断；

S102～预加重：通过传递函数H(z)＝1-αz^-1的一节FIR高通数字滤波器来实现预加重，其中α为预加重系数，0.9＜α＜1.0；

S103～加窗分帧：采用hamming窗进行分帧处理，窗函数如下：

所述的S200中，

S201～韵律特征提取：包括语速、平均过零率、能量、基频和共振峰；

韵律特征主要描述了情感语音信号中的非言语信息，包括语音高低与长短、以及快慢和轻重等方面的变化，也包含了语音流畅表达的信息。

语速：相同文本情况下的相同说话人在表达不同情感时的语速快慢程度不同。例如，悲伤、恐惧等情感表达时，语速会明显加快，语调会明显上扬；在悲伤情感表达中，语速自然会减缓。因此，语速可以作为区分不同情感的有效特征。

平均过零率：过零率在一定程度上反映信号的频谱性质，短时平均过零率定义为：

Z_n＝|sgn[x(n)]-sgn[x(n-1)]|*ω(n)

上述公式中，ω(n)表示窗函数，

能量：能量是指说话人的声音强度大小。当说话人的情绪发生变化时，声音的强度也会出现高低起伏变化，例如高兴、恐惧时声音强度较大，悲伤时声音强度明显变弱。短时能量计算定义为：

上述公式中，n表示某一时刻，s(m)代表语音信号，ω(n-m)表示窗函数。

基频：基音周期是指声带单次开启和闭合的总和时间。对基音周期求倒数，得到的就是基音频率。基频是声带固有属性，与说话人自身的声带物理特性以及发生习惯具有高度相关性。当说话人表达不同情绪时，声带的松弛程度不同，从而产生的基音频率也不同。因此基音频率可以作为区分不同情感的有效特征。

共振峰：共振峰描述了声道共振特性。每个共振峰的特性取决于中心频率和带宽。如果说话人发出的语音信号包含的情感不同，则相对应的语音信号前三阶共振峰(F0/F1/F2)位置也不同。因此，共振峰可以作为区分情感的有效特征。

S202～MFCC特征提取：人耳感知声音强度的能力与声音的频率相关。在低频段处，人耳听觉对声音的感知与声音频率成线性关系。在高频段处，由于存在掩蔽效应，人耳对声音的感知与声音的频率成非线性关系，因此引入Mel频率来模拟听觉特性。将普通频率转化到Mel频率：

f_mel＝1125*ln(1+f/700)。

其中，f表示普通频率(Hz)，f_mel表示Mel频率。

包括以下步骤，

(1)先对输入的语音进行处理；

(2)通过FFT得到每帧语音信号对应的频谱；

(3)将步骤(2)得到的能量谱经过Mel滤波得到对应的Mel频谱；Mel 滤波器是一组三角滤波器组，对应的中心频率均为f(m)，Mel滤波器的中心频率与频率响应分别为：

其中f_h、f_l为滤波器应用范围中的最高频率和最低频率，N为进行快速傅里叶变换时的点数，F_s是采样频率，M是梅尔滤波器组中滤波器个数， B^-1＝700(e^b/1125-1)是f_mel的逆函数；

S203～非线性特征提取：根据语音发声过程中的混沌特性，应用非线性动力学特征分析情感语音信号，提取该模型下情感语音信号的非线性属性特征：最小延迟时间、关联维数、Hurst指数、Kolmogorov熵、Lyapunov指数；基于语音信号发生过程中存在混沌特性，将一维情感语音信号进行相空间重构，提取重构空间下基于轨迹描述轮廓的五种非线性几何特征。

五种非线性几何特征分别为，

①第一轮廓：吸引子到圆心的距离表示为：

其中，二维空间下吸引子三维空间下吸引子

②第二轮廓：吸引子之间的连续轨迹长度表示为

③第三轮廓：吸引子之间的连续轨迹夹角表示为

④第四轮廓：吸引子到标识线的距离表示为

考虑到时间延迟τ＝1，当原始波形x(t)滞后的两个样本x(t-1)和x(t-2)存在较小的差异，即存在恒等式：

x(t)＝x(t-1)＝x(t-2)

当连续三个吸引子存在较大差异，上式不成立，由于混沌系统的策动因素是相互影响的，因而在时间先后产生的数据点也是相关的，将上式称为标识线，通过分析吸引子到标识线的距离来刻画吸引子之间的差异性；

⑤第五轮廓：吸引子连续轨迹总长度表示为S：

其中，上述所定义与S五种物理量即是所提取的非线性几何特征。

所述的S300包括以下步骤，

S301～训练数据集：

S302～模型：设模型输入为x，输出为y，其中的关系为：

其中κ(·)为核函数，根据SVM隐层每个节点的输出h_k(k＝1,2,…,K)，且α_k ⁽ⁿ⁾和b_k为第k个待学习的参数与偏置；h_k并不是一维的；接下来隐层特征h作为下一个非线性单元的输入，即有：

注意h⁽ⁿ⁾为输入x⁽ⁿ⁾的隐层特征，h为输入x的隐层特征，其中待学习的参数为β⁽ⁿ⁾和c；

S303～优化目标函数：优化目标函数为：

其中参数为：

符号R(θ)为正则项；

S304～求解：采用梯度下降的方式实现参数的优化学习，其核心便是误差传播项的偏导数求解，由于图4中网络结构仅包含一个隐含层，所以误差传播项为：

然后采用链式法则，进行逐层参数的更新。

根据上述获得的隐层特征为隐含层节点特征，基于SVM网络模型，则有:

进而有：

根据核函数定义，可得到：

即输出为：

与现有技术相比，本发明将深度学习中的“深度”含义与支持向量机算法相结合，形成深度SVM网络用于语音的情感识别。不仅弥补了现有特征在刻画情感状态上的不足，还有效地解决了SVM模型的两个问题：一是模型的性能取决于先验选择的核函数；二是具有单层可调整的网络参数，器模型的表征能力有限。此外，深度SVM模型还可有效地预防过拟合现象，可有效地根据支持向量的个数自动确定模型的尺寸。

附图说明

图1为基于深度SVM网络模型的语音情感识别方法框图；

图2为基于深度SVM网络模型的语音情感识别方法流程图；

图3为情感特征提取流程图；

图4为深度SVM网络模型结构图。

具体实施方式

下面结合附图和具体实施对本发明进行详细说明。

实施例如图1，一种基于深度SVM网络模型的语音情感识别方法，：具体包括以下的步骤

S100：语音信号的预处理操作：对语音信号进行端点检测、预加重、加窗分帧等预处理操作。

首先通过端点检测指出一段信号中确定出语音的起始点和结束点；然后通过一阶数字滤波器H(z)＝1-αz^-1,(α＝0.98)对语音信号的高频部分进行预加重，去除口唇辐射的影响，增加语音的高频分辨率；最后使用汉明窗对预加重数字滤波处理后的信号进行加窗分帧，其中，设置帧长为256，帧移为128。

S200：语音信号的情感特征提取：根据图3情感特征提取流程图所示，经过语音预处理之后，提取基频、能量、语速、共振峰、MFCC、非线性等情感特征参数。

1、基频：基音周期是指声带单次开启和闭合的总和时间。对基音周期求倒数，得到的就是基音频率。基频是声带固有属性，与说话人自身的声带物理特性以及发生习惯具有高度相关性。当说话人表达不同情绪时，声带的松弛程度不同，从而产生的基音频率也不同。因此基音频率可以作为区分不同情感的有效特征。

2、能量：能量是指说话人的声音强度大小。当说话人的情绪发生变化时，声音的强度也会出现高低起伏变化，短时能量计算定义为：

n表示某一时刻，s(m)代表语音信号，ω(n-m)表示窗函数。

3、语速：相同文本情况下的相同说话人在表达不同情感时的语速快慢程度不同。

4、共振峰：共振峰描述了声道共振特性。每个共振峰的特性取决于中心频率和带宽。如果说话人发出的语音信号包含的情感不同，则相对应的语音信号前三阶共振峰(F0/F1/F2)位置也不同。

5、MFCC特征：Mel频率通过非线性计算将语音信号的线性频谱搬移到Mel 频谱中，再转换到倒谱上。将普通频率转化到Mel频率的公式为：

f_mel＝1125*ln(1+f/700)，

f表示普通频率(Hz)，f_mel表示Mel频率。

提取MFCC特征的流程具体为：(1)先对输入的语音进行处理；(2)通过 FFT得到每帧语音信号对应的频谱；(3)将步骤(2)得到的能量谱经过Mel滤波得到对应的Mel频谱；(4)对Mel频谱进行倒谱分析，分别包括取对数和DCT 逆变换，取逆变换的第2-13的系数作为MFCC参数，这个MFCC就是这帧语音的特征。其中，步骤(3)中的Mel滤波器是一组三角滤波器组，对应的中心频率均为f(m)。Mel滤波器的中心频率与频率响应分别为：

其中f_h、f_l为滤波器应用范围中的最高频率和最低频率，N为进行快速傅里叶变换时的点数，F_s是采样频率，M是梅尔滤波器组中滤波器个数， B^-1＝700(e^b/1125-1)是f_mel的逆函数。

6、非线性特征：根据语音发声过程中的混沌特性，应用非线性动力学特征分析情感语音信号，提取该模型下情感语音信号的非线性属性特征：最小延迟时间、关联维数、Hurst指数、Kolmogorov熵、Lyapunov指数；基于语音信号发生过程中存在混沌特性，将一维情感语音信号进行相空间重构，提取重构空间下基于轨迹描述轮廓的五种非线性几何特征。

7、A)非线性属性特征提取：

①最小延迟时间

已知语音信号[x(1),x(2),…,x(N)]，利用互信息函数求解不同时间间隔时对应的语音信号x(i)与x(j)互信息量。当互信息量达到最小时，两个变量之间的相关性最小，此时对应的时间间隔即为最小延迟时间τ。本文选择平均互信息法 (mutual information，MI)计算最小延迟时间τ如下式：

其中p_i和p_j分别表述序列幅值分别落在第i和第j段内的概率，p_i,j表示间隔时间为τ分别同时落在第i和第j段内的联合概率。得到的互信息函数 I(τ)曲线上第一个局部最小值所对应的时刻即为最小延迟时间，它量化了两个离散变量之间的无序性。

②关联维数：

关联维数是混沌动力学的一种非线性表征量，用来描述高维空间语音动力学模型系统自相似结构，对结构的复杂度可以给出定量的比较。系统结构越复杂对应关联维数越大。本文使用G-P算法计算关联维数。G-P算法是Grassberger和 Procaccia提出的计算关联维数的方法如下式：

其中D(m)为关联维数，C(r,m)为关联积分函数定义为下式。C(r,m)表示m维重构空间中任意(X_i,X_j)之间的距离小于r的相点对占所有相点对之比，定义为：

上式中M为相空间中的总点数，表示为：M＝N-(m-1)τ，||X_i-X_j||为相空间中两矢量距离的最大值，表示为：H为Heaviside 阶跃函数：m取最小嵌入维数后得到相对应的lnC(r,m)→lnr曲线，通过对该曲线局部直线拟合即可得到关联维数。

③Kolmogorov熵：

Kolmogorov熵(缩写为K)精确化描述时间序列分布概率混乱程度的物理量。Grassberger和Procaccia提出计算关联维数方法的同时，论证了可以用K₂熵逼近K熵的思想来求得K熵。K₂熵与关联积分函数C(r,m)存在关系为

由上式计算得到的K₂熵就是Kolmogorov熵。

④最大Lyapunov指数：

Lyapunov指数反映了相空间中相邻轨道的局部收敛或者发散的平均变化率。而最大Lyapunov指数(Largest Lyapunov Exponent，LLE)λ₁表示轨道收敛或者发散的快慢程度。当λ₁＞0时，λ₁值越大表示轨道发散的速率也越大且混沌程度也越大。本文采用Wolf方法求得最大Lyapunov指数。取相空间中初始点X_i并寻找其最近邻点X_i'距离为L₀。追踪n时刻后两点之间的距离L_i满足设定值ε，则保留此点。开始下一时刻的追踪。当追踪叠加M次后就能得到最大Lyapunov 指数如式：

该方法相较于其他算法具有计算快、对嵌入维m、延迟时间τ和噪声都有很好的鲁棒性等特点。

⑤Hurst指数：

Hurst指数(缩写为H)衡量了时间序列的长期记忆性。H值得范围为0-1。如果H＞0.5表示时间序列具有长期自相关性，时间序列前后关联性较大。本文使用重标极差分析方法计算H值。重标极差法(the rescaled-range)分析是一种非参数统计方法，不受时间序列分布的影响。该方法是将一维情感语音信号 [x(1),x(2),…,x(N)]分成M个长度相同的相邻子序列u。通过计算每个子序列的累积离差z_u与标准差S_u.通过计算每个子序列的重标极差R_u/S_u，其中 R_u＝max z_u-min z_u得到Hurst指数。计算方法所示：

R_M/S_M＝bH^M

通过上式两边取对数，求得H为Hurst指数，其中b为常数。当语音信号的情感状态不同时，H变化规律也不相同。提取情感语音的Hurst指数特征可以体现情感变化的前后关联性高低。

B)非线性几何特征提取：

通过相空间重构将一维语音信号映射到高维空间后，在高维空间里分析语音信号，提取不同语音状态下相空间重构的几何特征：五种基于轨迹的描述符轮廓。

①第一轮廓：吸引子到圆心的距离表示为：

其中，二维空间下吸引子三维空间下吸引子

②第二轮廓：吸引子之间的连续轨迹长度表示为

③第三轮廓：吸引子之间的连续轨迹夹角表示为

④第四轮廓：吸引子到标识线的距离表示为

x(t)＝x(t-1)＝x(t-2)

当连续三个吸引子存在较大差异，上式不成立。由于混沌系统的策动因素是相互影响的，因而在时间先后产生的数据点也是相关的。因此，本文将上式称为标识线，通过分析吸引子到标识线的距离来刻画吸引子之间的差异性。

⑤第五轮廓：吸引子连续轨迹总长度表示为S：

其中，上述所定义与S五种物理量即是本文所提取的非线性几何特征。

S300：构建深度SVM模型：将深度学习中的“深度”含义与支持向量机算法相结合，形成深度SVM网络。

①训练数据集：

②模型：设模型输入为x，输出为y，其中的关系为：

其中κ(·)为核函数，根据SVM隐层每个节点的输出h_k(k＝1,2,…,K)，且α_k ⁽ⁿ⁾和b_k为第k个待学习(通过SVM优化目标函数)的参数与偏置；注意：h_k并不是一维的。接下来隐层特征h作为下一个非线性单元(SVM单元)的输入，即有：

注意h⁽ⁿ⁾为输入x⁽ⁿ⁾的隐层特征，h为输入x的隐层特征，其中待学习的参数为β⁽ⁿ⁾和c。

③优化目标函数：优化目标函数为：

其中参数为：

符号R(θ)为正则项。

④求解：采用梯度下降的方式实现参数的优化学习，其核心便是误差传播项的偏导数求解，由于图中的网络结构仅包含一个隐层，所以误差传播项为：

然后采用链式法则，进行逐层参数的更新。

进而有：

根据核函数定义，可得到：

即输出为：

通过上述步骤的分析，可以看到模型的深度可以通过模型实现扩展，直至形成深度SVM模型，严格意义上，图4中的网络结构(仅包含一个隐层，或两个层级下的多SVM模式的组合)下应称为深度SVM模型。

Claims

1.一种基于深度SVM网络模型的语音情感识别方法，其特征在于：包括以下的步骤，

S300～构建深度SVM网络模型对语音信号进行训练与识别。

2.根据权利要求1所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S100包括以下步骤，

S103～加窗分帧：采用hamming窗进行分帧处理，窗函数如下：

3.根据权利要求2所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S200中，

S202～MFCC特征提取：引入Mel频率来模拟听觉特性，将普通频率转化到Mel频率：

4.根据权利要求3所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S202包括以下步骤，

(1)先对输入的语音进行处理；

(2)通过FFT得到每帧语音信号对应的频谱；

(3)将步骤(2)得到的能量谱经过Mel滤波得到对应的Mel频谱；Mel滤波器是一组三角滤波器组，对应的中心频率均为f(m)，Mel滤波器的中心频率与频率响应分别为：

其中f_h、f_l为滤波器应用范围中的最高频率和最低频率，N为进行快速傅里叶变换时的点数，F_s是采样频率，M是梅尔滤波器组中滤波器个数，B^-1＝700(e^b/1125-1)是f_mel的逆函数；

(4)对Mel频谱进行倒谱分析，分别包括取对数和DCT逆变换，取逆变换的第2-13的系数作为MFCC参数，这个MFCC就是这帧语音的特征。

5.根据权利要求4所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S203中，五种非线性几何特征分别为，

①第一轮廓：吸引子到圆心的距离表示为：

其中，二维空间下吸引子三维空间下吸引子

②第二轮廓：吸引子之间的连续轨迹长度表示为

③第三轮廓：吸引子之间的连续轨迹夹角表示为

④第四轮廓：吸引子到标识线的距离表示为

x(t)＝x(t-1)＝x(t-2)

⑤第五轮廓：吸引子连续轨迹总长度表示为S：

6.根据权利要求5所述的基于深度SVM网络模型的语音情感识别方法，其特征在于：所述的S300包括以下步骤，

S301～训练数据集：

S302～模型：设模型输入为x，输出为y，其中的关系为：

S303～优化目标函数：优化目标函数为：

其中参数为：

符号R(θ)为正则项；

S304～求解：采用梯度下降的方式实现参数的优化学习，其核心便是误差传播项的偏导数求解，然后采用链式法则，进行逐层参数的更新，根据上述获得的隐层特征为隐含层节点特征，基于SVM网络模型，则有：

根据上述获得的隐层特征为隐含层节点特征，基于SVM网络模型，则有：

进而有：

根据核函数定义，可得到：

即输出为：