CN107393525B - 一种融合特征评估和多层感知器的语音情感识别方法 - Google Patents

一种融合特征评估和多层感知器的语音情感识别方法 Download PDF

Info

Publication number
CN107393525B
CN107393525B CN201710607479.9A CN201710607479A CN107393525B CN 107393525 B CN107393525 B CN 107393525B CN 201710607479 A CN201710607479 A CN 201710607479A CN 107393525 B CN107393525 B CN 107393525B
Authority
CN
China
Prior art keywords
feature
characteristic
emotional
emotion recognition
multilayer perceptron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710607479.9A
Other languages
English (en)
Other versions
CN107393525A (zh
Inventor
赵欢
王松
陈佐
谭彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201710607479.9A priority Critical patent/CN107393525B/zh
Publication of CN107393525A publication Critical patent/CN107393525A/zh
Application granted granted Critical
Publication of CN107393525B publication Critical patent/CN107393525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

本发明公开一种融合特征评估和多层感知器的语音情感识别方法,步骤包括:S1.分别提取对应各类情感的训练语音集的多维情感特征参数,得到原始特征集;S2.对原始特征集中各情感特征参数进行评级排序,得到排序后的特征集;S3.分别从排序后的特征集中获取不同数量的多个特征子集,并使用多层感知器分别对各特征子集进行分类,根据分类结果选择最优的特征子集;S4.对最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别。本发明具有实现方法简单、能够融合特征评估和多层感知器实现情感识别,且情感识别精度以及效率高的优点。

Description

一种融合特征评估和多层感知器的语音情感识别方法
技术领域
本发明涉及语音情感识别技术领域,尤其涉及一种融合特征评估和多层感知器的语音情感识别方法。
背景技术
语音情感识别是期望通过计算机理解人类的情感,以做出智能友好的反应,从而使得人机交互更加的自然友好,相比于传统的人机交互(human-computer interaction,HCI),语音情感识别能够为人机交互提供更加自然更加友好的交互应用,如可以应用在电话中心、远程教学和汽车驾驶等。
目前在语音情感识别过程中,通常都是使用多种语音特征,包括过零率(ZCR)、基频(F0)、能量(Energy)、MFCC(梅尔频率倒谱系数)和LFPC()等,再结合如HMM(HiddenMarkov Model,隐马尔科夫模型)、GMM(Gaussian Mixture Model高斯混合模型)、SVM(Support Vector Machine,支持向量机)和KNN(K-NearestNeighbor,K最邻近)等的分类模型进行情感分类,但是使用上述多种语音特征时特征数量通常非常大,而当特征维度过大时,会造成“维度灾难”,使得训练过程中需要耗费非常长的时间,降低训练及识别效率,同时会使得分类精确度下降。
为解决上述特征维度过大问题,目前通常都是采用主成分分析(Principlecommponent analysis,PCA)、线性判别分析(Linear discriminat analysis,LDA)或KPCA(核主成分析)等方法进行降维,同时保留有用的特征,但是采用该类降维方式的实现过程复杂,且识别精度不高,如有从业者提出使用MFCC、能量等特征形成了42维的声学特征,经过KPCA降维后,再使用GMM-SVM分类器进行分类识别,实现过程复杂,仍然需要大量的时间执行降维,且在EMO-DB的识别率仅能达到69.9%。因此亟需提供一种语音情感识别方法,使得能够有效提高语音情感识别的精度及效率。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、能够融合特征评估和多层感知器实现情感识别,且情感识别精度以及效率高的融合特征评估和多层感知器的语音情感识别方法。
为解决上述技术问题,本发明提出的技术方案为:
一种融合特征评估和多层感知器的语音情感识别方法,步骤包括:
S1.特征提取:分别提取对应各类情感状态的训练语音集的多维情感特征参数,得到原始特征集;
S2.特征评估:对所述原始特征集中各情感特征进行评级排序,得到排序后的特征集;
S3.最优特征集选择:分别从所述排序后的特征集中获取不同数量的多个特征子集,并使用多层感知器(Multi-Layer Perceptron,MLP)分别对各所述特征子集进行分类,根据分类结果选择最优的特征子集;
S4.情感识别:对选择得到的所述最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别。
作为本发明的进一步改进:所述步骤S2中具体采用SVM-RFE(Support VectorMachine-Recursive Feature Elimination,支持向量机-递归特征消除)算法对所述原始特征集中各情感特征进行评级排序。
作为本发明的进一步改进,所述采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序的具体步骤为:
S21.将所述原始特征集作为当前特征集,转入执行步骤S22;
S22.将当前特征集基于SVM分类算法训练SVM分类器,得到最优的特征权重向量w;
S23.以所述最优的特征权重向量的平方w2作为排序的准则,对当前特征集中各情感特征参数进行排序,并将排在最后的情感特征参数删除,得到排序后的特征集;
S24.将所述步骤S23得到的排序后的特征集作为当前特征集,返回步骤S22以进行递归训练,直到得到所有情感特征参数的最终排序结果,输出最终的排序后的特征集。
作为本发明的进一步改进:所述步骤S3中具体从所述排序后的特征集中取前部分多个情感特征构成所述特征子集。
作为本发明的进一步改进,所述步骤S3的具体步骤为:
S31.为N设定初始值,且N小于所述排序后的特征集中情感特征参数的数量K;
S32.从所述排序后的特征集中获取前N个情感特征参数构成特征子集;
S33.判断N是否大于K,如果是,转入执行步骤S34,否则转入执行步骤S33;
S33.使用多层感知器对当前特征子集进行分类,得到对应当前特征子集的分类结果;将N的取值加1,返回执行步骤S32;
S34.输出对应各特征子集的分类结果,并选择对应分类结果精度最高的特征子集作为最优的特征子集。
作为本发明的进一步改进,所述步骤S33中使用多层感知器对当前特征子集进行分类的步骤为:
S331.初始化多层感知器网络中各权值;
S332.采用反向传播算法对所述特征子集进行训练,并更新连接权重;
S333.逐层进行误差传播,直至完成反向传播,得到情感分类结果。
作为本发明的进一步改进:所述步骤S333中更新连接权重值时,具体是根据原权重连接值、上一次迭代更新量计算得到。
作为本发明的进一步改进:所述连接权重值具体按照下式计算得到;
Figure BDA0001358710430000031
其中,wu为连接权重值,E为输出神经元的误差,η为多层感知器的学习率。
作为本发明的进一步改进:所述情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶的梅尔频率倒谱系数中任意多种的组合。
作为本发明的进一步改进:所述步骤S1中具体提取所述情感特征参数的统计特征和/或所述统计特征的一阶导数,所述统计特征包括最大值、最小值、均值、标准差、动态范围、最大值位置、最小值位置、峰态、偏态、两个线性回归系数及所述两个线性回归系数之间的均方误差中一种或多种。
与现有技术相比,本发明的优点在于:
1)本发明融合特征评估和多层感知器的语音情感识别方法,通过提取到用于语音情感识别的原始特征集后,对原始特征集中各情感特征参数进行评级排序,能够基于特征评估确定各情感特征参数所包含的情感信息状态,结合从排序后的特征集中获取多个特征子集使用多层感知器进行分类,根据分类结果选择得到最优的特征子集,能够有效的融合特征评估和多层感知器来确定最优特征子集,选取得到具有丰富情感信息的情感特征参数,有效去除大量无关和冗余的特征,且实现过程简单,识别效率高,且能够有效提高最终的分类精确度;
2)本发明融合特征评估和多层感知器的语音情感识别方法,通过使用SVM-RFE算法进行特征评估,能够在特征排序的过程中优先保留优化特征子集,同时使得选择的特征具有更丰富的情感信息,结合多层感知器确定最优特征子集,能够进一步提高语音情感识别的精度;
3)本发明融合特征评估和多层感知器的语音情感识别方法,通过先在对原始特征集进行特征评估,对评估排序后的特征子集结合多层感知器进行分类识别,可以避免复杂的训练过程,能够充分发挥多层感知器的分类性能,从而有效提高语音情感识别的精度。
附图说明
图1是本实施例融合特征评估和多层感知器的语音情感识别方法的实现流程示意图。
图2是本实施例实现语音情感识别的实现原理示意图。
图3是本实施例采用SVM-REF算法实现特征评估的具体实现流程示意图。
图4是本实施例选取最优的特征子集的详细实现流程示意图。
图5是采用传统识别方法与采用本实施例识别方法的识别率对比示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1、2所示,本实施例融合特征评估和多层感知器的语音情感识别方法,步骤包括:
S1.特征提取:分别提取对应各类情感状态的训练语音集的多维情感特征参数,得到原始特征集;
S2.特征评估:对原始特征集中各情感特征参数进行评级排序,得到排序后的特征集;
S3.最优特征集选择:分别从排序后的特征集中获取不同数量的情感特征参数构成多个特征子集,并使用多层感知器MLP分别对各特征子集进行分类,根据分类结果选择最优的特征子集;
S4.情感识别:对选择得到的最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别。
本实施例对语音进行预处理后,通过提取用于语音情感识别的原始特征集,对原始特征集中各情感特征参数进行评级排序,能够基于特征评估确定各情感特征参数所包含的情感信息状态,结合从排序后的特征集中获取多个特征子集使用多层感知器MLP进行分类,根据分类结果选择得到最优的特征子集,能够有效的融合特征评估和多层感知器MLP来确定最优特征子集,选取得到具有丰富情感信息的情感特征参数,有效去除大量无关和冗余的特征,且相比较传统的直接基于PCA、LDA以及KPCA等降维方法确定最优的特征子集,本实施例采用上述方法实现过程简单,识别效率高,且能够有效提高最终的分类精确度。
本实施例中,步骤S2中具体采用SVM-RFE算法对原始特征集中各情感特征进行评级排序。SVM-RFE算法使用RFE(递归特征消除)算法基于特征的权重对特征进行排序,且在特征排序的过程中优先保留优化特征子集,结合使用SVM的判别函数中的信息对特征进行排序,以消除冗余特征,相比于传统的基于信息增益(Information Gain,IG)特征选择方法,本实施例使用SVM-RFE算法能够使得选择的特征具有更丰富的情感信息,结合多层感知器MLP确定最优特征子集,能够进一步提高语音情感识别的精度。
采用SVM分类时,是将低维输入空间线性不可分的样本,通过核函数映射到高维特征空间使其线性可分,具体是通过找到一个最优超平面(Optimal Hyper Plane)wTx+b=0,使得分类间隔
Figure BDA0001358710430000041
最大化,其中w为特征的权重向量,且w=[w1,w2,…,wp];对于大小为m的训练样本集D={(xi,yi),i=1,2,...,m},yi∈{-1,+1},即是找到最优的w和b,使得
Figure BDA0001358710430000051
s.t.yi(wTxi+b)≥1,i=1,2,...,m。
则采用拉格朗日乘子法可以得到目标函数为:
Figure BDA0001358710430000052
其中,
Figure BDA0001358710430000053
求得α后,即可求出
Figure BDA0001358710430000054
f(x)=wTx+b。
本实施例中,采用SVM-RFE算法对原始特征集中各情感特征进行评级排序的具体步骤为:
S21.将原始特征集作为当前特征集,转入执行步骤S22;
S22.将当前特征集基于SVM分类算法训练SVM分类器,得到最优的特征权重向量w;
S23.以最优的特征权重向量的平方w2作为排序的准则,对当前特征集中各情感特征参数进行排序,并将排在最后的情感特征参数删除,得到排序后的特征集;
S24.将步骤S23得到的排序后的特征集作为当前特征集,返回步骤S22以进行递归训练,直到得到所有情感特征参数的最终排序结果,输出最终的排序后的特征集。
如图3所示,本实施例首先使用SVM分类器对原始特征集进行分类,特征权重wi越大则表示该特征所包含的判别信息越多,对应的该特征也越为重要;再以wi 2作为特征排序的准则,将当前特征集中的排在最后的特征删除,同时更新特征排序表,再进行递归训练直到得到所有特征的最终排序结果,输出一个特征排序表r,即可对使用的特征进行评估,后续基于该评估结果可选择所需的特征子集。通过上述采用SVM-RFE算法对原始特征集中各情感特征进行评级排序后,则可以得到按照所包含情感信息量的大小排序的特征排序表r,能够有效去除冗余、无关的特征,大量减少特征量的同时,能够保证识别精度。
本发明具体实施例中使用SVM-RFE算法实现特征评估的详细流程如下:
输入:训练样本X0=[x1,x2,...xm]T,分类标签y=[y1,y2,...ym]T
初始化:当前功能集索引s=[1,2,...,n],特征排名列表r=[]
循环运行以下步骤直到s=[]:
①抽取训练样本X=X0(:,s),训练分类器得到分类器参数α;
②根据参数α计算出权值
Figure BDA0001358710430000061
根据排序准则计算排序系数ci=(wi)2,得到排序最后的特征f=argmin(c);
③更新特征排序表r=[s(f),r],在当前数据集中删除排序系数最小的特征s=s(1:f-1,f+1:length(s))。
输出:特征排序表r。
本实施例中,步骤S3中具体从排序后的特征集中取前部分多个情感特征构成特征子集,即获取排序后的特征集中前N个情感特征构成特征子集,N小于排序后的特征集中情感特征参数的数量。采用SVM-RFE算法对原始特征集中各情感特征进行评级排序后,各情感特征参数依次按照所包含的情感信息量的大小排序,得到排序后的特征排序表r,则获取前N个情感特征构成特征子集即可包含主要的情感信息。
如图4所示,本实施例中步骤S3的具体步骤为:
S31.为N设定初始值,且N小于排序后的特征集中情感特征参数的数量K;
S32.从排序后的特征集中获取前N个情感特征参数构成特征子集;
S33.判断N是否大于K,如果是,转入执行步骤S34,否则转入执行步骤S33;
S33.使用多层感知器MLP对当前特征子集进行分类,得到对应当前特征子集的分类结果;将N的取值加1,返回执行步骤S32;
S34.输出对应各特征子集的分类结果,并选择对应分类结果精度最高的特征子集作为最优的特征子集。
多层感知器MLP作为多层前馈网络模型,分类效果好,且能够解决单层感知器只能对线性数据进行分类的问题,且多层感知器MLP的隐藏层采用全连接方式,因而所需训练的参数较多,不适用于特征数量大的复杂特征分类。本实施例通过先在对原始特征集进行特征评估,对评估排序后的特征子集结合多层感知器进行分类识别,可以避免复杂的训练过程,能够充分发挥多层感知器MLP的性能,从而有效提高语音情感识别的精度。
本实施例中,骤S33中使用多层感知器对当前特征子集进行分类的步骤为:
S331.初始化多层感知器网络中各权值;
S332.采用反向传播算法对特征子集进行训练,并更新连接权重;
S333.逐层进行误差传播,直至完成反向传播,得到情感分类结果。
多层感知器MLP作为多层前馈网络模型,分为输入层Uin、隐含层Uhidden和输出层Uout,其中隐含层的每个神经元的输入、输出层的每个神经元的输入都是由输入加权和决定的,即
Figure BDA0001358710430000062
其中,
Figure BDA0001358710430000071
表示第u个神经元的输入加权和,pred(u)表示u前置神经元,wuv表示神经元u和神经元v的连接权重,outv表示神经元v的输出值。
多层感知器MLP中每个神经元的激活函数为sigmoid函数,该函数为单调非减函数且对于f:R→[0,1],有
Figure BDA0001358710430000072
Figure BDA0001358710430000073
本实施例具体使用如下式(3)的激活函数:
Figure BDA0001358710430000074
其中net为神经元的输入权重和,θ为偏离值。
为了正确的对各个情感类别进行分类,需求出MLP网络中的各个连接权重;本实施例使用多层感知器MLP时具体是采用反向传播算法(BP)进行训练并调整连接权重,BP算法是基于梯度下降策略,以目标的负梯度方向对参数M进行调整:M=M+△M。
对r层感知器进行单次训练时,网络中的单个输出神经元v的平方误差为:
Figure BDA0001358710430000075
其中v∈Uout,fact(net,θ)是输出神经元的预测值,out是实际值。
r层感知器输出神经元Uout的误差为:
Figure BDA0001358710430000076
设u为一个隐含层神经元或输出层神经元,且u∈Uk,0<k<r,则其前置神经元
Figure BDA00013587104300000712
是对应的权重向量。
由于偏差值可以转换为权重,则将所有的参数执行相同的处理。当对连接权重进行调整时,按照下式对误差求导:
Figure BDA0001358710430000078
根据链式法则可得:
Figure BDA0001358710430000079
其中netu为神经元u的输入且netu=wuinu
Figure BDA00013587104300000710
则:
Figure BDA00013587104300000711
Figure BDA0001358710430000081
本实施例中,步骤S33中更新连接权重值时具体是根据原权重连接值、上一次迭代更新量计算得到,连接权重值具体按照下式(9)计算得到;
Figure BDA0001358710430000082
其中η为MLP的学习率,即更新连接权重值时是由原权重连接值加上上一次迭代更新量的一小部分数值,使得动量项(momentum)可以改善网络的运算性能。
按照上述方式进行逐层误差传播后完成反向传播运算,最后得到情感分类结果。
本实施例采用上述方法,首先采用SVM-RFE算法对语音特征集进行评估并排序,并依据多层感知器MLP进行分类,以选取最优的特征子集,实现过程简单且执行效率高,同时能够有效提高语音情感识别分类的精确度。
本实施例中,情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶(具体取12阶)的梅尔频率倒谱系数共16个声学低级描述符(LLD),当然在其他实施例中也可以根据实际需求取其中任意多种的组合或其他特征参数;步骤S1中具体提取情感特征参数的统计特征和统计特征的一阶导数,统计特征包括最大值(Max)、最小值(Min)、均值(Mean)、标准差(Standard Deviation)、动态范围(Range)、最大值位置(Max Position)、最小值位置(Min Position)、峰态(Kurtosis)、偏态(Skewness)、两个线性回归系数及两个线性回归系数之间的均方误差(Linear Regression Coefficients and their Mean SquareError)中,当然在其他实施例中也可以根据实际需求提取计特征或统计特征的一阶导数,统计特征也可以具体选取上述中的一种或多种,还可以采用其他统计特征等。本实施例所提取的16个声学低级描述符(LLD)和相应的一阶导数的12个功能分别如表1、2所示,其中属性数具体为384。
表1:低级描述符。
Figure BDA0001358710430000083
Figure BDA0001358710430000091
表2:功能。
Figure BDA0001358710430000092
本发明具体实施例中使用柏林语料库进行训练,柏林语料库包括了以下7类情感:anger(生气),boredom(烦恼),fear(恐惧)、disgust(厌恶)、joy(开心)、sadness(伤心)andneutral(中立)的语料,首先按照上述基于SVM-RFE算法进行特征排序,使用MLP对所选择的前N维特征子集进行性能分析,N分别取10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,以分析前N个评级特征对分类结果的影响,且每次使用MLP进行分类实验时均采用fold-10的交叉验证,其中MLP的学习率为0.3。
前N个特征评级的分类效果如图5中对应SVM-REF-MLP的曲线结果所示,由图可知,当N分别取前30,35,40,45,50,55,60,65,70,75,80,85,90,95,100个评级特征时,都取得了较好的分类效果,分类精确度都达到了80%以上,且其中当选择前65个评级特征的时候,取得最佳的分类效果,分类精确度能够达到87.5%,将此时对应的特征子集作为最优特征子集,则所选的最优特征子集如表3所示。即通过不同数量的前N个特征的特征子集进行分类效果分析,可以有效确定得到最优的特征子集。
表3.选择的特征子集。
Figure BDA0001358710430000093
Figure BDA0001358710430000101
为验证本实施例上述识别方法的有效性,本实施例使用传统基于信息增益IG特征参数选择方法结合MLP的方法进行测试,得到的测试结果如图5中IG-MLP曲线所示,从图中可以看出,对应于各不同N,本实施例均有更好的识别效果。
如表4所示,基于同一个情感语料库分别将本实施例融合SVM-RFE与多层感知器MLP的识别方法与传统的各类识别方法进行对比,其中对比方法1为使用MFCC、能量等特征形成了42维的声学特征,经过KPCA降维,再通过GMM-SVM分类器进行语音情感识别;对比方法2是提取Pitch,Energy,ZCR,power和MFCC等68维特征,通过组合NN,SVM和C5.0等多个分类器,在7类情感识别中,识别率最高的为组合NN-C5.0,达到了72.61%;对比方法3是基于多核学习的特征选择和特征融合的方法;对比方法4是使用MFCC、ZCR、energy、pitch等特征,通过SVM分类,识别率达到了86.61%;对比方法5是由SVM分类器构成的二叉决策树模型。
表4:本实施例识别方法与传统方法的性能对比表。
Figure BDA0001358710430000102
由表4可以看出,本实施例融合特征评估和多层感知器的语音情感识别方法,当取排序之后的前65维评级特征时,分类精确度能够达到87.5%,相比于传统的各类语音情感识别方法,本实施例上述识别方法具有更好的识别精度。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (7)

1.一种融合特征评估和多层感知器的语音情感识别方法,其特征在于,步骤包括:
S1. 特征提取:分别提取对应各类情感状态的训练语音集的多维情感特征参数,得到原始特征集;
S2. 特征评估:对所述原始特征集中各情感特征进行评级排序,得到排序后的特征集;
S3. 最优特征集选择:分别从所述排序后的特征集中获取不同数量的多个特征子集,并使用多层感知器分别对各所述特征子集进行分类,根据分类结果选择最优的特征子集;
S4. 情感识别:对选择得到的所述最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别;
所述步骤S2中具体采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序;
所述采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序的具体步骤为:
S21. 将所述原始特征集作为当前特征集,转入执行步骤S22;
S22. 将当前特征集基于SVM分类算法训练SVM分类器,得到最优的特征权重向量w
S23. 以所述最优的特征权重向量w的平方w 2作为排序的准则,对当前特征集中各情感特征参数进行排序,并将排在最后的情感特征参数删除,得到排序后的特征集;
S24. 将所述步骤S23得到的排序后的特征集作为当前特征集,返回步骤S22以进行递归训练,直到得到所有情感特征参数的最终排序结果,输出最终的排序后的特征集;
所述步骤S3中具体从所述排序后的特征集中取前部分多个情感特征构成所述特征子集,即获取所述排序后的特征集中前N个情感特征构成所述特征子集,N小于排序后的特征集中情感特征参数的数量。
2.根据权利要求1所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述步骤S3的具体步骤为:
S31. 为N设定初始值,且N小于所述排序后的特征集中情感特征参数的数量K;
S32. 从所述排序后的特征集中获取前N个情感特征参数构成特征子集;
S33. 判断N是否大于K,如果是,转入执行步骤S34,否则转入执行步骤S33;
S33. 使用多层感知器对当前特征子集进行分类,得到对应当前特征子集的分类结果;将N的取值加1,返回执行步骤S32;
S34. 输出对应各特征子集的分类结果,并选择对应分类结果精度最高的特征子集作为最优的特征子集。
3.根据权利要求2所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述步骤S33中使用多层感知器对当前特征子集进行分类的步骤为:
S331. 初始化多层感知器网络中各权值;
S332. 采用反向传播算法对所述特征子集进行训练,并更新连接权重;
S333. 逐层进行误差传播,直至完成反向传播,得到情感分类结果。
4.根据权利要求3所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述步骤S333中更新连接权重值时,具体是根据原权重连接值、上一次迭代更新量计算得到。
5.根据权利要求4所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述连接权重值具体按照下式计算得到;
Figure 227474DEST_PATH_IMAGE001
其中,Wu为连接权重值,E为输出神经元的误差,
Figure DEST_PATH_IMAGE002
为多层感知器的学习率。
6.根据权利要求1所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于:所述情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶的梅尔频率倒谱系数中任意多种的组合。
7.根据权利要求6所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于:所述步骤S1中具体提取所述情感特征参数的统计特征和/或所述统计特征的一阶导数,所述统计特征包括最大值、最小值、均值、标准差、动态范围、最大值位置、最小值位置、峰态、偏态、两个线性回归系数及所述两个线性回归系数之间的均方误差中一种或多种。
CN201710607479.9A 2017-07-24 2017-07-24 一种融合特征评估和多层感知器的语音情感识别方法 Active CN107393525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710607479.9A CN107393525B (zh) 2017-07-24 2017-07-24 一种融合特征评估和多层感知器的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710607479.9A CN107393525B (zh) 2017-07-24 2017-07-24 一种融合特征评估和多层感知器的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN107393525A CN107393525A (zh) 2017-11-24
CN107393525B true CN107393525B (zh) 2020-06-12

Family

ID=60336647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710607479.9A Active CN107393525B (zh) 2017-07-24 2017-07-24 一种融合特征评估和多层感知器的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN107393525B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111406266A (zh) 2017-12-01 2020-07-10 瑞典爱立信有限公司 选择学习模型
CN108172224B (zh) 2017-12-19 2019-08-27 浙江大学 基于机器学习的防御无声指令控制语音助手的方法
CN108830308B (zh) * 2018-05-31 2021-12-14 西安电子科技大学 一种基于信号的传统特征与深度特征融合的调制识别方法
CN109492101B (zh) * 2018-11-01 2020-11-17 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN110020638B (zh) * 2019-04-17 2023-05-12 唐晓颖 人脸表情识别方法、装置、设备和介质
CN112861984B (zh) * 2021-02-25 2022-07-01 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN115096581B (zh) * 2022-06-23 2023-07-28 上海交通大学 基于时频域特征的复杂传动装置故障诊断溯源方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521206A (zh) * 2011-12-16 2012-06-27 天津大学 基于集成学习思想的svm-rfe导联优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317673A (en) * 1992-06-22 1994-05-31 Sri International Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521206A (zh) * 2011-12-16 2012-06-27 天津大学 基于集成学习思想的svm-rfe导联优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Gene selection for cancer classification using support vector machines》;Isabelle Guyon et al.;《Machine Learning》;20020131;第46卷(第1期);第389-422页 *
《Multi-Layer Perceptrons》;Rudolf Kruse et al.;《Computational Intelligence》;20131231;第47-81页 *
《基于TS特征选择的生理情感状态分类》;王玉晶等;《齐齐哈尔大学学报》;20130531;第29卷(第3期);第19-22页 *

Also Published As

Publication number Publication date
CN107393525A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107393525B (zh) 一种融合特征评估和多层感知器的语音情感识别方法
Chatziagapi et al. Data Augmentation Using GANs for Speech Emotion Recognition.
Kim et al. Towards speech emotion recognition" in the wild" using aggregated corpora and deep multi-task learning
Pandey et al. Deep learning techniques for speech emotion recognition: A review
Yeh et al. An interaction-aware attention network for speech emotion recognition in spoken dialogs
Tripathi et al. Deep learning based emotion recognition system using speech features and transcriptions
Cao et al. Speaker-sensitive emotion recognition via ranking: Studies on acted and spontaneous speech
Schuller et al. Speaker independent speech emotion recognition by ensemble classification
Lee et al. Ensemble of machine learning and acoustic segment model techniques for speech emotion and autism spectrum disorders recognition.
Wang et al. Speech emotion recognition based on principal component analysis and back propagation neural network
Ghai et al. Emotion recognition on speech signals using machine learning
Garg et al. Speech based Emotion Recognition based on hierarchical decision tree with SVM, BLG and SVR classifiers
Joshi et al. A Study of speech emotion recognition methods
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
Palo et al. Comparative analysis of neural networks for speech emotion recognition
Gupta et al. Speech emotion recognition using svm with thresholding fusion
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Bansal et al. A language-independent speech sentiment analysis using prosodic features
Vasuki et al. Improving emotion recognition from speech using sensor fusion techniques
Tanveer et al. Ensemble deep learning in speech signal tasks: A review
Zhao et al. Knowledge-aware bayesian co-attention for multimodal emotion recognition
Nguyen et al. Investigation of combining SVM and decision tree for emotion classification
Palo et al. Classification of emotional speech of children using probabilistic neural network
Lingampeta et al. Human emotion recognition using acoustic features with optimized feature selection and fusion techniques
Sarker et al. Emotion recognition from speech based on relevant feature and majority voting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant