CN107393525B

CN107393525B - 一种融合特征评估和多层感知器的语音情感识别方法

Info

Publication number: CN107393525B
Application number: CN201710607479.9A
Authority: CN
Inventors: 赵欢; 王松; 陈佐; 谭彪
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2020-06-12
Anticipated expiration: 2037-07-24
Also published as: CN107393525A

Abstract

本发明公开一种融合特征评估和多层感知器的语音情感识别方法，步骤包括：S1.分别提取对应各类情感的训练语音集的多维情感特征参数，得到原始特征集；S2.对原始特征集中各情感特征参数进行评级排序，得到排序后的特征集；S3.分别从排序后的特征集中获取不同数量的多个特征子集，并使用多层感知器分别对各特征子集进行分类，根据分类结果选择最优的特征子集；S4.对最优的特征子集使用多层感知器训练情感分类模型，由训练得到的分类模型对待识别语音进行情感识别。本发明具有实现方法简单、能够融合特征评估和多层感知器实现情感识别，且情感识别精度以及效率高的优点。

Description

一种融合特征评估和多层感知器的语音情感识别方法

技术领域

本发明涉及语音情感识别技术领域，尤其涉及一种融合特征评估和多层感知器的语音情感识别方法。

背景技术

语音情感识别是期望通过计算机理解人类的情感，以做出智能友好的反应，从而使得人机交互更加的自然友好，相比于传统的人机交互(human-computer interaction,HCI)，语音情感识别能够为人机交互提供更加自然更加友好的交互应用，如可以应用在电话中心、远程教学和汽车驾驶等。

目前在语音情感识别过程中，通常都是使用多种语音特征，包括过零率(ZCR)、基频(F0)、能量(Energy)、MFCC(梅尔频率倒谱系数)和LFPC()等，再结合如HMM(HiddenMarkov Model，隐马尔科夫模型)、GMM(Gaussian Mixture Model高斯混合模型)、SVM(Support Vector Machine，支持向量机)和KNN(K-NearestNeighbor，K最邻近)等的分类模型进行情感分类，但是使用上述多种语音特征时特征数量通常非常大，而当特征维度过大时，会造成“维度灾难”，使得训练过程中需要耗费非常长的时间，降低训练及识别效率，同时会使得分类精确度下降。

为解决上述特征维度过大问题，目前通常都是采用主成分分析(Principlecommponent analysis,PCA)、线性判别分析(Linear discriminat analysis,LDA)或KPCA(核主成分析)等方法进行降维，同时保留有用的特征，但是采用该类降维方式的实现过程复杂，且识别精度不高，如有从业者提出使用MFCC、能量等特征形成了42维的声学特征，经过KPCA降维后，再使用GMM-SVM分类器进行分类识别，实现过程复杂，仍然需要大量的时间执行降维，且在EMO-DB的识别率仅能达到69.9％。因此亟需提供一种语音情感识别方法，使得能够有效提高语音情感识别的精度及效率。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、能够融合特征评估和多层感知器实现情感识别，且情感识别精度以及效率高的融合特征评估和多层感知器的语音情感识别方法。

为解决上述技术问题，本发明提出的技术方案为：

一种融合特征评估和多层感知器的语音情感识别方法，步骤包括：

S1.特征提取：分别提取对应各类情感状态的训练语音集的多维情感特征参数，得到原始特征集；

S2.特征评估：对所述原始特征集中各情感特征进行评级排序，得到排序后的特征集；

S3.最优特征集选择：分别从所述排序后的特征集中获取不同数量的多个特征子集，并使用多层感知器(Multi-Layer Perceptron，MLP)分别对各所述特征子集进行分类，根据分类结果选择最优的特征子集；

S4.情感识别：对选择得到的所述最优的特征子集使用多层感知器训练情感分类模型，由训练得到的分类模型对待识别语音进行情感识别。

作为本发明的进一步改进：所述步骤S2中具体采用SVM-RFE(Support VectorMachine-Recursive Feature Elimination，支持向量机-递归特征消除)算法对所述原始特征集中各情感特征进行评级排序。

作为本发明的进一步改进，所述采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序的具体步骤为：

S21.将所述原始特征集作为当前特征集，转入执行步骤S22；

S22.将当前特征集基于SVM分类算法训练SVM分类器，得到最优的特征权重向量w；

S23.以所述最优的特征权重向量的平方w²作为排序的准则，对当前特征集中各情感特征参数进行排序，并将排在最后的情感特征参数删除，得到排序后的特征集；

S24.将所述步骤S23得到的排序后的特征集作为当前特征集，返回步骤S22以进行递归训练，直到得到所有情感特征参数的最终排序结果，输出最终的排序后的特征集。

作为本发明的进一步改进：所述步骤S3中具体从所述排序后的特征集中取前部分多个情感特征构成所述特征子集。

作为本发明的进一步改进，所述步骤S3的具体步骤为：

S31.为N设定初始值，且N小于所述排序后的特征集中情感特征参数的数量K；

S32.从所述排序后的特征集中获取前N个情感特征参数构成特征子集；

S33.判断N是否大于K，如果是，转入执行步骤S34，否则转入执行步骤S33；

S33.使用多层感知器对当前特征子集进行分类，得到对应当前特征子集的分类结果；将N的取值加1，返回执行步骤S32；

S34.输出对应各特征子集的分类结果，并选择对应分类结果精度最高的特征子集作为最优的特征子集。

作为本发明的进一步改进，所述步骤S33中使用多层感知器对当前特征子集进行分类的步骤为：

S331.初始化多层感知器网络中各权值；

S332.采用反向传播算法对所述特征子集进行训练，并更新连接权重；

S333.逐层进行误差传播，直至完成反向传播，得到情感分类结果。

作为本发明的进一步改进：所述步骤S333中更新连接权重值时,具体是根据原权重连接值、上一次迭代更新量计算得到。

作为本发明的进一步改进：所述连接权重值具体按照下式计算得到；

其中，w_u为连接权重值，E为输出神经元的误差，η为多层感知器的学习率。

作为本发明的进一步改进：所述情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶的梅尔频率倒谱系数中任意多种的组合。

作为本发明的进一步改进：所述步骤S1中具体提取所述情感特征参数的统计特征和/或所述统计特征的一阶导数，所述统计特征包括最大值、最小值、均值、标准差、动态范围、最大值位置、最小值位置、峰态、偏态、两个线性回归系数及所述两个线性回归系数之间的均方误差中一种或多种。

与现有技术相比，本发明的优点在于：

1)本发明融合特征评估和多层感知器的语音情感识别方法，通过提取到用于语音情感识别的原始特征集后，对原始特征集中各情感特征参数进行评级排序，能够基于特征评估确定各情感特征参数所包含的情感信息状态，结合从排序后的特征集中获取多个特征子集使用多层感知器进行分类，根据分类结果选择得到最优的特征子集，能够有效的融合特征评估和多层感知器来确定最优特征子集，选取得到具有丰富情感信息的情感特征参数，有效去除大量无关和冗余的特征，且实现过程简单，识别效率高，且能够有效提高最终的分类精确度；

2)本发明融合特征评估和多层感知器的语音情感识别方法，通过使用SVM-RFE算法进行特征评估，能够在特征排序的过程中优先保留优化特征子集，同时使得选择的特征具有更丰富的情感信息，结合多层感知器确定最优特征子集，能够进一步提高语音情感识别的精度；

3)本发明融合特征评估和多层感知器的语音情感识别方法，通过先在对原始特征集进行特征评估，对评估排序后的特征子集结合多层感知器进行分类识别，可以避免复杂的训练过程，能够充分发挥多层感知器的分类性能，从而有效提高语音情感识别的精度。

附图说明

图1是本实施例融合特征评估和多层感知器的语音情感识别方法的实现流程示意图。

图2是本实施例实现语音情感识别的实现原理示意图。

图3是本实施例采用SVM-REF算法实现特征评估的具体实现流程示意图。

图4是本实施例选取最优的特征子集的详细实现流程示意图。

图5是采用传统识别方法与采用本实施例识别方法的识别率对比示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1、2所示，本实施例融合特征评估和多层感知器的语音情感识别方法，步骤包括：

S2.特征评估：对原始特征集中各情感特征参数进行评级排序，得到排序后的特征集；

S3.最优特征集选择：分别从排序后的特征集中获取不同数量的情感特征参数构成多个特征子集，并使用多层感知器MLP分别对各特征子集进行分类，根据分类结果选择最优的特征子集；

S4.情感识别：对选择得到的最优的特征子集使用多层感知器训练情感分类模型，由训练得到的分类模型对待识别语音进行情感识别。

本实施例对语音进行预处理后，通过提取用于语音情感识别的原始特征集，对原始特征集中各情感特征参数进行评级排序，能够基于特征评估确定各情感特征参数所包含的情感信息状态，结合从排序后的特征集中获取多个特征子集使用多层感知器MLP进行分类，根据分类结果选择得到最优的特征子集，能够有效的融合特征评估和多层感知器MLP来确定最优特征子集，选取得到具有丰富情感信息的情感特征参数，有效去除大量无关和冗余的特征，且相比较传统的直接基于PCA、LDA以及KPCA等降维方法确定最优的特征子集，本实施例采用上述方法实现过程简单，识别效率高，且能够有效提高最终的分类精确度。

本实施例中，步骤S2中具体采用SVM-RFE算法对原始特征集中各情感特征进行评级排序。SVM-RFE算法使用RFE(递归特征消除)算法基于特征的权重对特征进行排序，且在特征排序的过程中优先保留优化特征子集，结合使用SVM的判别函数中的信息对特征进行排序，以消除冗余特征，相比于传统的基于信息增益(Information Gain，IG)特征选择方法，本实施例使用SVM-RFE算法能够使得选择的特征具有更丰富的情感信息，结合多层感知器MLP确定最优特征子集，能够进一步提高语音情感识别的精度。

采用SVM分类时，是将低维输入空间线性不可分的样本，通过核函数映射到高维特征空间使其线性可分，具体是通过找到一个最优超平面(Optimal Hyper Plane)w^Tx+b＝0，使得分类间隔

最大化，其中w为特征的权重向量，且w＝[w₁,w₂,…,w_p]；对于大小为m的训练样本集D＝{(x_i,y_i),i＝1,2,...,m}，y_i∈{-1,+1}，即是找到最优的w和b，使得

s.t.y_i(w^Tx_i+b)≥1,i＝1,2,...,m。

则采用拉格朗日乘子法可以得到目标函数为：

其中，

求得α后，即可求出

f(x)＝w^Tx+b。

本实施例中，采用SVM-RFE算法对原始特征集中各情感特征进行评级排序的具体步骤为：

S21.将原始特征集作为当前特征集，转入执行步骤S22；

S23.以最优的特征权重向量的平方w²作为排序的准则，对当前特征集中各情感特征参数进行排序，并将排在最后的情感特征参数删除，得到排序后的特征集；

S24.将步骤S23得到的排序后的特征集作为当前特征集，返回步骤S22以进行递归训练，直到得到所有情感特征参数的最终排序结果，输出最终的排序后的特征集。

如图3所示，本实施例首先使用SVM分类器对原始特征集进行分类，特征权重w_i越大则表示该特征所包含的判别信息越多，对应的该特征也越为重要；再以w_i ²作为特征排序的准则，将当前特征集中的排在最后的特征删除，同时更新特征排序表，再进行递归训练直到得到所有特征的最终排序结果，输出一个特征排序表r，即可对使用的特征进行评估，后续基于该评估结果可选择所需的特征子集。通过上述采用SVM-RFE算法对原始特征集中各情感特征进行评级排序后，则可以得到按照所包含情感信息量的大小排序的特征排序表r，能够有效去除冗余、无关的特征，大量减少特征量的同时，能够保证识别精度。

本发明具体实施例中使用SVM-RFE算法实现特征评估的详细流程如下：

输入：训练样本X₀＝[x₁,x₂,...x_m]^T，分类标签y＝[y₁,y₂,...y_m]^T。

初始化：当前功能集索引s＝[1,2,...,n]，特征排名列表r＝[]

循环运行以下步骤直到s＝[]：

①抽取训练样本X＝X₀(:,s)，训练分类器得到分类器参数α；

②根据参数α计算出权值

根据排序准则计算排序系数c_i＝(w_i)²，得到排序最后的特征f＝argmin(c)；

③更新特征排序表r＝[s(f),r]，在当前数据集中删除排序系数最小的特征s＝s(1:f-1,f+1:length(s))。

输出：特征排序表r。

本实施例中，步骤S3中具体从排序后的特征集中取前部分多个情感特征构成特征子集，即获取排序后的特征集中前N个情感特征构成特征子集，N小于排序后的特征集中情感特征参数的数量。采用SVM-RFE算法对原始特征集中各情感特征进行评级排序后，各情感特征参数依次按照所包含的情感信息量的大小排序，得到排序后的特征排序表r，则获取前N个情感特征构成特征子集即可包含主要的情感信息。

如图4所示，本实施例中步骤S3的具体步骤为：

S31.为N设定初始值，且N小于排序后的特征集中情感特征参数的数量K；

S32.从排序后的特征集中获取前N个情感特征参数构成特征子集；

S33.使用多层感知器MLP对当前特征子集进行分类，得到对应当前特征子集的分类结果；将N的取值加1，返回执行步骤S32；

多层感知器MLP作为多层前馈网络模型，分类效果好，且能够解决单层感知器只能对线性数据进行分类的问题，且多层感知器MLP的隐藏层采用全连接方式，因而所需训练的参数较多，不适用于特征数量大的复杂特征分类。本实施例通过先在对原始特征集进行特征评估，对评估排序后的特征子集结合多层感知器进行分类识别，可以避免复杂的训练过程，能够充分发挥多层感知器MLP的性能，从而有效提高语音情感识别的精度。

本实施例中，骤S33中使用多层感知器对当前特征子集进行分类的步骤为：

S331.初始化多层感知器网络中各权值；

S332.采用反向传播算法对特征子集进行训练，并更新连接权重；

多层感知器MLP作为多层前馈网络模型，分为输入层U_in、隐含层U_hidden和输出层U_out，其中隐含层的每个神经元的输入、输出层的每个神经元的输入都是由输入加权和决定的，即

其中，

表示第u个神经元的输入加权和，pred(u)表示u前置神经元，w_uv表示神经元u和神经元v的连接权重，out_v表示神经元v的输出值。

多层感知器MLP中每个神经元的激活函数为sigmoid函数，该函数为单调非减函数且对于f:R→[0,1]，有

和

本实施例具体使用如下式(3)的激活函数：

其中net为神经元的输入权重和，θ为偏离值。

为了正确的对各个情感类别进行分类，需求出MLP网络中的各个连接权重；本实施例使用多层感知器MLP时具体是采用反向传播算法(BP)进行训练并调整连接权重，BP算法是基于梯度下降策略，以目标的负梯度方向对参数M进行调整：M＝M+△M。

对r层感知器进行单次训练时，网络中的单个输出神经元v的平方误差为：

其中v∈U_out，f_act(net,θ)是输出神经元的预测值，out是实际值。

r层感知器输出神经元Uout的误差为：

设u为一个隐含层神经元或输出层神经元，且u∈U_k，0<k<r，则其前置神经元

是对应的权重向量。

由于偏差值可以转换为权重，则将所有的参数执行相同的处理。当对连接权重进行调整时，按照下式对误差求导：

根据链式法则可得：

其中net_u为神经元u的输入且net_u＝w_uin_u，

则：

本实施例中，步骤S33中更新连接权重值时具体是根据原权重连接值、上一次迭代更新量计算得到，连接权重值具体按照下式(9)计算得到；

其中η为MLP的学习率，即更新连接权重值时是由原权重连接值加上上一次迭代更新量的一小部分数值，使得动量项(momentum)可以改善网络的运算性能。

按照上述方式进行逐层误差传播后完成反向传播运算，最后得到情感分类结果。

本实施例采用上述方法，首先采用SVM-RFE算法对语音特征集进行评估并排序，并依据多层感知器MLP进行分类，以选取最优的特征子集，实现过程简单且执行效率高，同时能够有效提高语音情感识别分类的精确度。

本实施例中，情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶(具体取12阶)的梅尔频率倒谱系数共16个声学低级描述符(LLD)，当然在其他实施例中也可以根据实际需求取其中任意多种的组合或其他特征参数；步骤S1中具体提取情感特征参数的统计特征和统计特征的一阶导数，统计特征包括最大值(Max)、最小值(Min)、均值(Mean)、标准差(Standard Deviation)、动态范围(Range)、最大值位置(Max Position)、最小值位置(Min Position)、峰态(Kurtosis)、偏态(Skewness)、两个线性回归系数及两个线性回归系数之间的均方误差(Linear Regression Coefficients and their Mean SquareError)中，当然在其他实施例中也可以根据实际需求提取计特征或统计特征的一阶导数，统计特征也可以具体选取上述中的一种或多种，还可以采用其他统计特征等。本实施例所提取的16个声学低级描述符(LLD)和相应的一阶导数的12个功能分别如表1、2所示，其中属性数具体为384。

表1：低级描述符。

表2：功能。

本发明具体实施例中使用柏林语料库进行训练，柏林语料库包括了以下7类情感：anger(生气)，boredom(烦恼)，fear(恐惧)、disgust(厌恶)、joy(开心)、sadness(伤心)andneutral(中立)的语料，首先按照上述基于SVM-RFE算法进行特征排序，使用MLP对所选择的前N维特征子集进行性能分析，N分别取10，15，20，25，30，35，40，45，50，55，60，65，70，75，80，85，90，95，100，以分析前N个评级特征对分类结果的影响，且每次使用MLP进行分类实验时均采用fold-10的交叉验证，其中MLP的学习率为0.3。

前N个特征评级的分类效果如图5中对应SVM-REF-MLP的曲线结果所示，由图可知，当N分别取前30,35,40,45,50,55,60,65,70,75,80,85,90,95,100个评级特征时，都取得了较好的分类效果，分类精确度都达到了80％以上，且其中当选择前65个评级特征的时候，取得最佳的分类效果，分类精确度能够达到87.5％，将此时对应的特征子集作为最优特征子集，则所选的最优特征子集如表3所示。即通过不同数量的前N个特征的特征子集进行分类效果分析，可以有效确定得到最优的特征子集。

表3.选择的特征子集。

为验证本实施例上述识别方法的有效性，本实施例使用传统基于信息增益IG特征参数选择方法结合MLP的方法进行测试，得到的测试结果如图5中IG-MLP曲线所示，从图中可以看出，对应于各不同N，本实施例均有更好的识别效果。

如表4所示，基于同一个情感语料库分别将本实施例融合SVM-RFE与多层感知器MLP的识别方法与传统的各类识别方法进行对比，其中对比方法1为使用MFCC、能量等特征形成了42维的声学特征，经过KPCA降维，再通过GMM-SVM分类器进行语音情感识别；对比方法2是提取Pitch,Energy,ZCR,power和MFCC等68维特征，通过组合NN，SVM和C5.0等多个分类器，在7类情感识别中，识别率最高的为组合NN-C5.0，达到了72.61％；对比方法3是基于多核学习的特征选择和特征融合的方法；对比方法4是使用MFCC、ZCR、energy、pitch等特征，通过SVM分类，识别率达到了86.61％；对比方法5是由SVM分类器构成的二叉决策树模型。

表4：本实施例识别方法与传统方法的性能对比表。

由表4可以看出，本实施例融合特征评估和多层感知器的语音情感识别方法，当取排序之后的前65维评级特征时，分类精确度能够达到87.5％，相比于传统的各类语音情感识别方法，本实施例上述识别方法具有更好的识别精度。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种融合特征评估和多层感知器的语音情感识别方法，其特征在于，步骤包括：

S1. 特征提取：分别提取对应各类情感状态的训练语音集的多维情感特征参数，得到原始特征集；

S2. 特征评估：对所述原始特征集中各情感特征进行评级排序，得到排序后的特征集；

S3. 最优特征集选择：分别从所述排序后的特征集中获取不同数量的多个特征子集，并使用多层感知器分别对各所述特征子集进行分类，根据分类结果选择最优的特征子集；

S4. 情感识别：对选择得到的所述最优的特征子集使用多层感知器训练情感分类模型，由训练得到的分类模型对待识别语音进行情感识别；

所述步骤S2中具体采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序；

所述采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序的具体步骤为：

S21. 将所述原始特征集作为当前特征集，转入执行步骤S22；

S22. 将当前特征集基于SVM分类算法训练SVM分类器，得到最优的特征权重向量w；

S23. 以所述最优的特征权重向量w的平方w ²作为排序的准则，对当前特征集中各情感特征参数进行排序，并将排在最后的情感特征参数删除，得到排序后的特征集；

S24. 将所述步骤S23得到的排序后的特征集作为当前特征集，返回步骤S22以进行递归训练，直到得到所有情感特征参数的最终排序结果，输出最终的排序后的特征集；

所述步骤S3中具体从所述排序后的特征集中取前部分多个情感特征构成所述特征子集，即获取所述排序后的特征集中前N个情感特征构成所述特征子集，N小于排序后的特征集中情感特征参数的数量。

2.根据权利要求1所述的融合特征评估和多层感知器的语音情感识别方法，其特征在于，所述步骤S3的具体步骤为：

S31. 为N设定初始值，且N小于所述排序后的特征集中情感特征参数的数量K；

S32. 从所述排序后的特征集中获取前N个情感特征参数构成特征子集；

S33. 判断N是否大于K，如果是，转入执行步骤S34，否则转入执行步骤S33；

S33. 使用多层感知器对当前特征子集进行分类，得到对应当前特征子集的分类结果；将N的取值加1，返回执行步骤S32；

S34. 输出对应各特征子集的分类结果，并选择对应分类结果精度最高的特征子集作为最优的特征子集。

3.根据权利要求2所述的融合特征评估和多层感知器的语音情感识别方法，其特征在于，所述步骤S33中使用多层感知器对当前特征子集进行分类的步骤为：

S331. 初始化多层感知器网络中各权值；

S332. 采用反向传播算法对所述特征子集进行训练，并更新连接权重；

S333. 逐层进行误差传播，直至完成反向传播，得到情感分类结果。

4.根据权利要求3所述的融合特征评估和多层感知器的语音情感识别方法，其特征在于，所述步骤S333中更新连接权重值时,具体是根据原权重连接值、上一次迭代更新量计算得到。

5.根据权利要求4所述的融合特征评估和多层感知器的语音情感识别方法，其特征在于，所述连接权重值具体按照下式计算得到；

；

其中，W_u为连接权重值，E为输出神经元的误差，

为多层感知器的学习率。

6.根据权利要求1所述的融合特征评估和多层感知器的语音情感识别方法，其特征在于：所述情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶的梅尔频率倒谱系数中任意多种的组合。

7.根据权利要求6所述的融合特征评估和多层感知器的语音情感识别方法，其特征在于：所述步骤S1中具体提取所述情感特征参数的统计特征和/或所述统计特征的一阶导数，所述统计特征包括最大值、最小值、均值、标准差、动态范围、最大值位置、最小值位置、峰态、偏态、两个线性回归系数及所述两个线性回归系数之间的均方误差中一种或多种。