CN108597540A

CN108597540A - 一种基于变分模态分解和极限学习机的语音情感识别方法

Info

Publication number: CN108597540A
Application number: CN201810320085.XA
Authority: CN
Inventors: 张秀再; 王玮蔚; 赵慧
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-09-28

Abstract

本发明公开了一种基于变分模态分解和极限学习机的语音情感识别方法，属于人工智能和语音识别领域，本发明首先通过变分模态分解方法对情感语音信号进行预处理，分解成若干个本征模态函数(IMF)分量和一个残差分量，这些分量更能准确反映原序列的变化，并保留语音信号的情感特征；然后通过对每个IMF分量进行hilbert变换，得到各IMF分量的hilbert边际谱特征；另外，将各IMF分量重新聚合，得到去除残差分量的语音信号，再对该信号提取MEL倒谱函数。将提取的新特征加入到传统语音情感特征集中，构建极限学习机模型进行分类识别。本发明的优点在于通过变分模态分解得到新的语音特征，相较于传统语音情感特征，该特征在进行语音情感识别时有更高的识别率。

Description

一种基于变分模态分解和极限学习机的语音情感识别方法

技术领域

本发明涉及人工智能和语音识别领域，特别是一种基于变分模态分解和极限学习机的语音情感识别方法。

背景技术

在多种通信方式中，语音信号是人与人、人与机器通信最快的自然方法。人类甚至可以从语音交流中感觉到说话人的情绪状态。语音情感是分析声音行为的一种方法，是指各种影响(如情绪、情绪和压力)的指针，侧重于语音的非言语方面。在这种情况下，语音情感识别(SER)的主要挑战是提取一些客观的、可测量的语音特征参数，这些参数可以反映说话人的情绪状态。近年来，语音情感识别在人机通信、机器人通信、多媒体检索等领域得到了广泛关注。语音情感识别研究主要是利用语音中的情感和语音特征的统计特性，进行一般定性的声学关联。大多数的语音情感识别系统都能对语音信号进行特征提取，并在不同的数据库中实现70％～90％的识别率。Ververidis D等人从能量、基音和语音频谱的动态行为中提取出87个静态特征，并提出了谱平坦度测度与谱中心(RSS)的比值作为说话人独立的特征，利用RSS特征、基音周期、能量和MEL倒谱系数对性别和情感进行了层次分类。SunR,Moore E等人将Teager能量中提取的小波系数引入到语音情感识别中。Nwe T L等人将MFCC(MEL倒谱系数)参数作为特征对语音情感进行识别，也取得了较好的结果。

He L等人首先将EMD分解引入到语音情感识别中。Sethu V等人利用EMD将语音进行分解，以分解得到的IMF分量进行语音分类。Shahnaz C等人将EMD和小波分析相结合得到了80.55％的语音情感识别准确率。2014年D.K,Z.D等人在EMD的基础上提出的VMD算法，有效消除了EMD算法分解出的IMF信号缺少物理意义和计算量过大的缺点。现有语音情感特征在进行分类识别时还存在性能不佳的问题。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于变分模态分解和极限学习机的语音情感识别方法，对情感语音信号进行平稳化处理，结合Hilbert变换和MEL倒谱系数提取得到VMD-HT和VMD-MFCC特征，通过极限学习机模型进行语音情感分类，以提高语音情感的分类准确率。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于变分模态分解和极限学习机的语音情感识别方法，包括以下步骤：

步骤1、将输入的语音情感信号通过变分模态分解算法进行模态分解，得到本征模态函数IMF分量和残差分量；

步骤2、对步骤1的各分量进行Hlibert变换，得到各IMF分量的Hilbert谱，将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音情感信号的VMD-HT特征；

步骤3、采用步骤1的各IMF分量进行重新聚合，对聚合信号提取MFCC参数，即得到VMD-MFCC特征；

步骤4、将步骤2和步骤3的特征加入到现有的语音特征集中，通过极限学习机分类模型对整个语音特征集进行分类识别，得到语音情感数据集分类结果。

作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案，步骤1中得到K个本征模态函数IMF分量和一个残差分量；具体如下：

第k个IMF分量表达式为

其中，u_k(t)为第k个IMF分量，0＜k＜K+1，A_k(t)为第k个IMF分量的幅值，为第k个IMF分量的相角，t为时间；

约束条件为

式(2)中{u_k}:＝{u₁,...,u_K}，u_k(t)记为u_k，{u_k}为分解到的K个有限带宽的IMF分量的集合，u_k表示分解到的第k个有限带宽的IMF分量，为微分算子，δ(t)为狄利克来函数，j为虚数符号，e为自然常数，f(t)为约束函数，{ω_k}:＝{ω₁,...,ω_K}，{ω_k}为K个IMF分量所对应的中心频率的集合，ω_k表示第k个IMF分量所对应的中心频率，表示范数；通过拉格朗日函数求该约束条件下的最优解，生成的拉格朗日表达式为：

式(3)中，L({u_k},{ω_k},λ)为拉格朗日函数，α为惩罚系数，λ(t)为拉格朗日乘子，<·>表示内积；

采用乘法算子交替的方法求式(3)的鞍点，就得到IMF分量，求解过程中的值会不断更新，直到与的误差小于预设值；为第n+1次迭代的第k个IMF分量，其表达式为

式(4)中，X为u_k的集合，为第n+1次迭代的第k个IMF分量的中心频率，表示将第n+1次迭代的除了第k个IMF分量之外的分量进行求和，u_i(t)ⁿ⁺¹为第n+1次迭代时的第i个IMF分量。

作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案，K设置为4。

作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案，步骤3的MFCC参数提取前12维。

作为本发明所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案，步骤4的极限学习机分类模型采用sigmod函数作为代价函数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明针对情感语音信号的非线性、非平稳特性，利用极限学习机算法在处理非线性问题中的优越性和变分模态分解算法在处理非平稳信号中的优势，基于变分模态分解和极限学习机的语音情感分类方法，根据情感语音信号的非线性、非平稳特性，首先利用变分模态分解技术对语音信号进行模态分解，结合Hilbert变换和MEL倒谱系数提取分别得到VMD-HT和VMD-MFCC特征，再利用极限学习机分类技术进行语音情感分类；相较于传统语音情感特征和分类识别算法，基于VMD提取的特征和极限学习机的语音情感分类方法有着更好的综合性能；

(2)本发明的优点在于通过变分模态分解得到新的语音特征，相较于传统语音情感特征，该特征在进行语音情感识别时有更高的识别率。

附图说明

图1是基于变分模态分解和极限学习机的语音情感分类识别方法的流程图。

图2是VMD-HT特征提取流程图。

图3是各IMF分量边际谱图；其中，(a)为IMF₁，(b)为IMF₂，(c)为IMF₃，(d)为IMF₄。

图4是VMD-MFCC特征提取流程图。

图5是FEAR语句12阶VMD-MFCC参数。

图6是基本ELM的体系结构图。

图7是本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本实施例采用两种语音情感数据集(EMODB、RAVDESS)中共有的生气，伤心，害怕，开心，中性五种情感各50个语句。其中，随机抽取40句用来做训练，10句用来测试，进行10次实验，实验结果以10次实验识别率的平均值作为评估指标。将变分模态分解(VariationalMode Decomposition,VMD)算法和极限学习机(Extreme Learning Machine,ELM)分类算法相结合进行语音情感分类识别。基于变分模态分解和极限学习机的语音情感分类识别方法的流程图，如图1所示、图7所示。

将输入的情感语音数据，通过变分模态分解算法进行模态分解，得到4个本征模态函数分量(Intrinsic Mode Function,IMF)和一个残差分量，K取4；

第k个IMF分量表达式为

约束条件为

采用乘法算子交替的方法求式(3)的鞍点，就得到IMF分量，求解过程中的值会不断更新，直到与的误差小于预设值，为第n+1次迭代的第k个IMF分量，其表达式为

语音信号进行变分模态分解(VMD)分解得到固有模态函数(IMF)分量后，对各分量进行Hilbert变换，得到IMF的瞬时频率和幅值，特征提取流程如图3所示。

式(5)中，H_k(t)为IMF分量的hilbert变换函数，τ为时间常数，u_k(τ)为基于时间常数τ的第k个IMF分量。

式(6)中，Z_k(t)为解析函数，为第k个IMF分量的瞬时幅值，为相位，u_k(t)为第k个IMF分量，H_k(t)为第k个分量的Hilbert变换。

式(6)中，Z_k(t)的相位表达方式突出了Hilbert变换的物理意义，是基于时间序列形成的一个振幅和相位调制的三角函数。则希尔伯特谱的瞬时频率定义为

θ_k表示第k个IMF分量的相位。

对于语音信号第k个IMF分量u_k(t)的幅值a_k(t)和瞬时频率W_k(t)，计算u_k(t)的平均瞬时频率。根据获得的各IMF分量的平均瞬时频率MIF及幅值，计算原始信号的平均瞬时频率MIF表示为

MIF_k为第k个IMF分量的平均瞬时频率，a_k为k个IMF分量的幅值。

将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音信号的基于变分模态分解的Hilbert(VMD-HT)特征，流程图如图2所示，各IMF分量边际谱图如图3所示，图3是各IMF分量边际谱图，其中，图3中的(a)为IMF₁，图3中的(b)为IMF₂，图3中的(c)为IMF₃，图3中的(d)为IMF₄。

MFCC由Stevens在1937年提出，MFCC参数是基于人耳对不同频率声音有不同敏感度的特点提出的，揭示了人耳对高频信号的敏感度低于低频信号的特点。语音信号由频率f转换到MEL尺度的表达式为

语音信号通过VMD分解后，剔除余波分量，再重新聚合，对聚合信号提取MFCC参数，即得到基于变分模态分解的倒谱系数(VMD-MFCC)特征。在将信号进行VMD分解之后，提取MFCC参数的过程分为数步，流程如图4所示。

对各IMF信号进行聚合，得到新的语音信号。

对语音信号进行预加重处理，是为了补偿语音信号被人体的声带和嘴唇振动所抑制的高频部分能量，表达式为

S_i＝S_i-g*S_i-1 (10)

式中S_i、S_i-1为第i个采样点和i-1个采样点，g表示预加重系数，预加重处理可有效提高语音信号中高频分量的相对幅值。

对语音信号进行分帧，以256个采样点作为一帧进行分割，约为16ms，分帧是为了减少帧内信号的不连续性。不连续的语音信号会导致在分析中提取不正确的参数值。另外，为了避免两个相邻帧之间的不连续性，选择帧移为64，即相邻两帧之间有192个采样点是重叠的。

采用汉明窗处理语音帧，可以减少或消除频谱能量泄漏及栅栏效应，提高语音信号在连续帧之间的连续性。假设一个经分帧处理的语音信号S(i),i＝0,1,...,z-1，S'(i)为S(i)经汉明窗后的语音信号，z为语音信号分帧处理后的帧数，处理过程可表示为

从式(11)中的窗函数W(i,a)可知，不同位置的信号幅度会受到不同程度的调节，信号的首尾部分较中间部分会有更大的幅度减小，提高了S(i)相邻帧之间的连续性。当a值变小时，帧内信号连续性变弱，但会保留更多的信号细节，为了保证信号在不过度降低连续性的情况下尽可能多的保留细节特征，实验中a取0.54。

采用一组基于MEL尺度的三角带通滤波器进行MFCC参数提取，将语音信号转换到频域后，对语音信号进行滤波处理，使语音信号遵循MEL尺度的衰减特性。滤波器组对频域信号进行切分，每个频段产生一个对应的能量值。本实验中滤波器个数取24，因此可得到24个能量值。

对能量进行反傅里叶变换，再通过低通滤波器获得低频信号。使用离散余弦变换(DCT)可以直接获取低频信息，DCT与离散傅里叶变换相似，但只有实数部分，该过程可表示为

式(12)中，E_k为第k个滤波器的对数能量值；Q为三角滤波器个数，一般取22～26；m为当前计算的MFCC特征参数的维数，L取12，以FEAR语句为例，提取的12阶VMD-MFCC参数如图5所示。

采用步骤2)和步骤3)所述的训练样本集，建立与之对应的极限学习机(ELM)分类模型。基本ELM的体系结构如图6所示。

式(13)为ELM神经网络处理输入数据的公式，式中g(x)为激活函数，W_i＝[w_i,1,w_i,2,...,w_i,n]^T为输入权重，β_i为输出权重，b_i为第i个隐藏单元的偏置，X_j是输入的数据，·表示内积o_j为ELM的输出。

单隐层神经网络学习目标是使输出误差最小，表示为

t_j为期望输出。

即存在β_i、W_i和b_i，使得

以矩阵的形式表示为

Hβ＝T (16)

式(16)中H为隐含层节点输出，β为隐含层到输出层的权重系数，T为训练所需要得到的期望结果。为了对隐含层神经元进行训练，得到β_i、W_i和b_i的解为

式(17)中，i＝1,...L，该式用最小化损失函数表示为

传统的一些基于梯度下降法算法(如BP、MLP)可以用来求解这样的问题，但这些学习算法需要在迭代过程中调整所有参数。而ELM算法的输入层权重W_i和隐含层b_i在初始化时已被随机产生且唯一，因此隐含层的输出矩阵H就被确定，只需要调整隐含层到输出层的权重系数β_i，对该系数的训练可转化为求解一个线性系统Hβ＝T。输出权重可由式(19)确定。

式(19)中，是矩阵的Moore-Penrose广义逆。

将VMD-MFCC、VMD-HT和基频特征、韵律谱特征以及部分非线性特征相结合作为实验选取的特征，称为底层特征，底层特征描述见表1。

表1

对模型进行分类识别，得到各个语音情感的分类结果。实验结果见表2、表3，表1为EMODB数据集分类实验结果，表2为RAVDESS数据集分类实验结果，由表1、表2可知，ELM分类准确度要高于KNN和SVM；分别加入VMD特征之后，三种分类方式的准确度都有提高。以EMODB为例，FEAR的识别率提高了7％，NEUTRAL的识别率提高了12.5％，ANGER的识别率提高了4.5％。因此，将VMD特征用于语音情感识别，可以有效提高识别准确率，且将VMD特征和ELM分类器结合，有更好的识别效果。

表2

表3

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于变分模态分解和极限学习机的语音情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于变分模态分解和极限学习机的语音情感识别方法，其特征在于，步骤1中得到K个本征模态函数IMF分量和一个残差分量；具体如下：

第k个IMF分量表达式为

约束条件为

式(2)中{u_k}:＝{u₁,...,u_K}，u_k(t)记为u_k，{u_k}为分解到的K个有限带宽的IMF分量的集合，uk表示分解到的第k个有限带宽的IMF分量，为微分算子，δ(t)为狄利克来函数，j为虚数符号，e为自然常数，f(t)为约束函数，{ω_k}:＝{ω₁,...,ω_K}，{ω_k}为K个IMF分量所对应的中心频率的集合，ω_k表示第k个IMF分量所对应的中心频率，表示范数；通过拉格朗日函数求该约束条件下的最优解，生成的拉格朗日表达式为：

3.根据权利要求2所述的一种基于变分模态分解和极限学习机的语音情感识别方法，其特征在于，K设置为4。

4.根据权利要求1所述的一种基于变分模态分解和极限学习机的语音情感识别方法，其特征在于，步骤3的MFCC参数提取前12维。

5.根据权利要求1所述的一种基于变分模态分解和极限学习机的语音情感识别方法，其特征在于，步骤4的极限学习机分类模型采用sigmod函数作为代价函数。