CN107393525A - 一种融合特征评估和多层感知器的语音情感识别方法 - Google Patents
一种融合特征评估和多层感知器的语音情感识别方法 Download PDFInfo
- Publication number
- CN107393525A CN107393525A CN201710607479.9A CN201710607479A CN107393525A CN 107393525 A CN107393525 A CN 107393525A CN 201710607479 A CN201710607479 A CN 201710607479A CN 107393525 A CN107393525 A CN 107393525A
- Authority
- CN
- China
- Prior art keywords
- feature
- multilayer perceptron
- emotion recognition
- speech
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000008909 emotion recognition Effects 0.000 claims abstract description 26
- 230000008451 emotion Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000013145 classification model Methods 0.000 claims abstract description 3
- 230000002996 emotional effect Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000012417 linear regression Methods 0.000 claims description 6
- 210000004205 output neuron Anatomy 0.000 claims description 5
- 239000012141 concentrate Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 230000009467 reduction Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 206010048909 Boredom Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
Abstract
本发明公开一种融合特征评估和多层感知器的语音情感识别方法,步骤包括:S1.分别提取对应各类情感的训练语音集的多维情感特征参数,得到原始特征集;S2.对原始特征集中各情感特征参数进行评级排序,得到排序后的特征集;S3.分别从排序后的特征集中获取不同数量的多个特征子集,并使用多层感知器分别对各特征子集进行分类,根据分类结果选择最优的特征子集;S4.对最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别。本发明具有实现方法简单、能够融合特征评估和多层感知器实现情感识别,且情感识别精度以及效率高的优点。
Description
技术领域
本发明涉及语音情感识别技术领域,尤其涉及一种融合特征评估和多层感知器的语音情感识别方法。
背景技术
语音情感识别是期望通过计算机理解人类的情感,以做出智能友好的反应,从而使得人机交互更加的自然友好,相比于传统的人机交互(human-computer interaction,HCI),语音情感识别能够为人机交互提供更加自然更加友好的交互应用,如可以应用在电话中心、远程教学和汽车驾驶等。
目前在语音情感识别过程中,通常都是使用多种语音特征,包括过零率(ZCR)、基频(F0)、能量(Energy)、MFCC(梅尔频率倒谱系数)和LFPC()等,再结合如HMM(HiddenMarkov Model,隐马尔科夫模型)、GMM(Gaussian Mixture Model高斯混合模型)、SVM(Support Vector Machine,支持向量机)和KNN(K-NearestNeighbor,K最邻近)等的分类模型进行情感分类,但是使用上述多种语音特征时特征数量通常非常大,而当特征维度过大时,会造成“维度灾难”,使得训练过程中需要耗费非常长的时间,降低训练及识别效率,同时会使得分类精确度下降。
为解决上述特征维度过大问题,目前通常都是采用主成分分析(Principlecommponent analysis,PCA)、线性判别分析(Linear discriminat analysis,LDA)或KPCA(核主成分析)等方法进行降维,同时保留有用的特征,但是采用该类降维方式的实现过程复杂,且识别精度不高,如有从业者提出使用MFCC、能量等特征形成了42维的声学特征,经过KPCA降维后,再使用GMM-SVM分类器进行分类识别,实现过程复杂,仍然需要大量的时间执行降维,且在EMO-DB的识别率仅能达到69.9%。因此亟需提供一种语音情感识别方法,使得能够有效提高语音情感识别的精度及效率。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、能够融合特征评估和多层感知器实现情感识别,且情感识别精度以及效率高的融合特征评估和多层感知器的语音情感识别方法。
为解决上述技术问题,本发明提出的技术方案为:
一种融合特征评估和多层感知器的语音情感识别方法,步骤包括:
S1.特征提取:分别提取对应各类情感状态的训练语音集的多维情感特征参数,得到原始特征集;
S2.特征评估:对所述原始特征集中各情感特征进行评级排序,得到排序后的特征集;
S3.最优特征集选择:分别从所述排序后的特征集中获取不同数量的多个特征子集,并使用多层感知器(Multi-Layer Perceptron,MLP)分别对各所述特征子集进行分类,根据分类结果选择最优的特征子集;
S4.情感识别:对选择得到的所述最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别。
作为本发明的进一步改进:所述步骤S2中具体采用SVM-RFE(Support VectorMachine-Recursive Feature Elimination,支持向量机-递归特征消除)算法对所述原始特征集中各情感特征进行评级排序。
作为本发明的进一步改进,所述采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序的具体步骤为:
S21.将所述原始特征集作为当前特征集,转入执行步骤S22;
S22.将当前特征集基于SVM分类算法训练SVM分类器,得到最优的特征权重向量w;
S23.以所述最优的特征权重向量的平方w2作为排序的准则,对当前特征集中各情感特征参数进行排序,并将排在最后的情感特征参数删除,得到排序后的特征集;
S24.将所述步骤S23得到的排序后的特征集作为当前特征集,返回步骤S22以进行递归训练,直到得到所有情感特征参数的最终排序结果,输出最终的排序后的特征集。
作为本发明的进一步改进:所述步骤S3中具体从所述排序后的特征集中取前部分多个情感特征构成所述特征子集。
作为本发明的进一步改进,所述步骤S3的具体步骤为:
S31.为N设定初始值,且N小于所述排序后的特征集中情感特征参数的数量K;
S32.从所述排序后的特征集中获取前N个情感特征参数构成特征子集;
S33.判断N是否大于K,如果是,转入执行步骤S34,否则转入执行步骤S33;
S33.使用多层感知器对当前特征子集进行分类,得到对应当前特征子集的分类结果;将N的取值加1,返回执行步骤S32;
S34.输出对应各特征子集的分类结果,并选择对应分类结果精度最高的特征子集作为最优的特征子集。
作为本发明的进一步改进,所述步骤S33中使用多层感知器对当前特征子集进行分类的步骤为:
S331.初始化多层感知器网络中各权值;
S332.采用反向传播算法对所述特征子集进行训练,并更新连接权重;
S333.逐层进行误差传播,直至完成反向传播,得到情感分类结果。
作为本发明的进一步改进:所述步骤S333中更新连接权重值时,具体是根据原权重连接值、上一次迭代更新量计算得到。
作为本发明的进一步改进:所述连接权重值具体按照下式计算得到;
其中,wu为连接权重值,E为输出神经元的误差,η为多层感知器的学习率。
作为本发明的进一步改进:所述情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶的梅尔频率倒谱系数中任意多种的组合。
作为本发明的进一步改进:所述步骤S1中具体提取所述情感特征参数的统计特征和/或所述统计特征的一阶导数,所述统计特征包括最大值、最小值、均值、标准差、动态范围、最大值位置、最小值位置、峰态、偏态、两个线性回归系数及所述两个线性回归系数之间的均方误差中一种或多种。
与现有技术相比,本发明的优点在于:
1)本发明融合特征评估和多层感知器的语音情感识别方法,通过提取到用于语音情感识别的原始特征集后,对原始特征集中各情感特征参数进行评级排序,能够基于特征评估确定各情感特征参数所包含的情感信息状态,结合从排序后的特征集中获取多个特征子集使用多层感知器进行分类,根据分类结果选择得到最优的特征子集,能够有效的融合特征评估和多层感知器来确定最优特征子集,选取得到具有丰富情感信息的情感特征参数,有效去除大量无关和冗余的特征,且实现过程简单,识别效率高,且能够有效提高最终的分类精确度;
2)本发明融合特征评估和多层感知器的语音情感识别方法,通过使用SVM-RFE算法进行特征评估,能够在特征排序的过程中优先保留优化特征子集,同时使得选择的特征具有更丰富的情感信息,结合多层感知器确定最优特征子集,能够进一步提高语音情感识别的精度;
3)本发明融合特征评估和多层感知器的语音情感识别方法,通过先在对原始特征集进行特征评估,对评估排序后的特征子集结合多层感知器进行分类识别,可以避免复杂的训练过程,能够充分发挥多层感知器的分类性能,从而有效提高语音情感识别的精度。
附图说明
图1是本实施例融合特征评估和多层感知器的语音情感识别方法的实现流程示意图。
图2是本实施例实现语音情感识别的实现原理示意图。
图3是本实施例采用SVM-REF算法实现特征评估的具体实现流程示意图。
图4是本实施例选取最优的特征子集的详细实现流程示意图。
图5是采用传统识别方法与采用本实施例识别方法的识别率对比示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1、2所示,本实施例融合特征评估和多层感知器的语音情感识别方法,步骤包括:
S1.特征提取:分别提取对应各类情感状态的训练语音集的多维情感特征参数,得到原始特征集;
S2.特征评估:对原始特征集中各情感特征参数进行评级排序,得到排序后的特征集;
S3.最优特征集选择:分别从排序后的特征集中获取不同数量的情感特征参数构成多个特征子集,并使用多层感知器MLP分别对各特征子集进行分类,根据分类结果选择最优的特征子集;
S4.情感识别:对选择得到的最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别。
本实施例对语音进行预处理后,通过提取用于语音情感识别的原始特征集,对原始特征集中各情感特征参数进行评级排序,能够基于特征评估确定各情感特征参数所包含的情感信息状态,结合从排序后的特征集中获取多个特征子集使用多层感知器MLP进行分类,根据分类结果选择得到最优的特征子集,能够有效的融合特征评估和多层感知器MLP来确定最优特征子集,选取得到具有丰富情感信息的情感特征参数,有效去除大量无关和冗余的特征,且相比较传统的直接基于PCA、LDA以及KPCA等降维方法确定最优的特征子集,本实施例采用上述方法实现过程简单,识别效率高,且能够有效提高最终的分类精确度。
本实施例中,步骤S2中具体采用SVM-RFE算法对原始特征集中各情感特征进行评级排序。SVM-RFE算法使用RFE(递归特征消除)算法基于特征的权重对特征进行排序,且在特征排序的过程中优先保留优化特征子集,结合使用SVM的判别函数中的信息对特征进行排序,以消除冗余特征,相比于传统的基于信息增益(Information Gain,IG)特征选择方法,本实施例使用SVM-RFE算法能够使得选择的特征具有更丰富的情感信息,结合多层感知器MLP确定最优特征子集,能够进一步提高语音情感识别的精度。
采用SVM分类时,是将低维输入空间线性不可分的样本,通过核函数映射到高维特征空间使其线性可分,具体是通过找到一个最优超平面(Optimal Hyper Plane)wTx+b=0,使得分类间隔最大化,其中w为特征的权重向量,且w=[w1,w2,…,wp];对于大小为m的训练样本集D={(xi,yi),i=1,2,...,m},yi∈{-1,+1},即是找到最优的w和b,使得s.t.yi(wTxi+b)≥1,i=1,2,...,m。
则采用拉格朗日乘子法可以得到目标函数为:
其中,
求得α后,即可求出f(x)=wTx+b。
本实施例中,采用SVM-RFE算法对原始特征集中各情感特征进行评级排序的具体步骤为:
S21.将原始特征集作为当前特征集,转入执行步骤S22;
S22.将当前特征集基于SVM分类算法训练SVM分类器,得到最优的特征权重向量w;
S23.以最优的特征权重向量的平方w2作为排序的准则,对当前特征集中各情感特征参数进行排序,并将排在最后的情感特征参数删除,得到排序后的特征集;
S24.将步骤S23得到的排序后的特征集作为当前特征集,返回步骤S22以进行递归训练,直到得到所有情感特征参数的最终排序结果,输出最终的排序后的特征集。
如图3所示,本实施例首先使用SVM分类器对原始特征集进行分类,特征权重wi越大则表示该特征所包含的判别信息越多,对应的该特征也越为重要;再以wi 2作为特征排序的准则,将当前特征集中的排在最后的特征删除,同时更新特征排序表,再进行递归训练直到得到所有特征的最终排序结果,输出一个特征排序表r,即可对使用的特征进行评估,后续基于该评估结果可选择所需的特征子集。通过上述采用SVM-RFE算法对原始特征集中各情感特征进行评级排序后,则可以得到按照所包含情感信息量的大小排序的特征排序表r,能够有效去除冗余、无关的特征,大量减少特征量的同时,能够保证识别精度。
本发明具体实施例中使用SVM-RFE算法实现特征评估的详细流程如下:
输入:训练样本X0=[x1,x2,...xm]T,分类标签y=[y1,y2,...ym]T。
初始化:当前功能集索引s=[1,2,...,n],特征排名列表r=[]
循环运行以下步骤直到s=[]:
①抽取训练样本X=X0(:,s),训练分类器得到分类器参数α;
②根据参数α计算出权值根据排序准则计算排序系数ci=(wi)2,得到排序最后的特征f=argmin(c);
③更新特征排序表r=[s(f),r],在当前数据集中删除排序系数最小的特征s=s(1:f-1,f+1:length(s))。
输出:特征排序表r。
本实施例中,步骤S3中具体从排序后的特征集中取前部分多个情感特征构成特征子集,即获取排序后的特征集中前N个情感特征构成特征子集,N小于排序后的特征集中情感特征参数的数量。采用SVM-RFE算法对原始特征集中各情感特征进行评级排序后,各情感特征参数依次按照所包含的情感信息量的大小排序,得到排序后的特征排序表r,则获取前N个情感特征构成特征子集即可包含主要的情感信息。
如图4所示,本实施例中步骤S3的具体步骤为:
S31.为N设定初始值,且N小于排序后的特征集中情感特征参数的数量K;
S32.从排序后的特征集中获取前N个情感特征参数构成特征子集;
S33.判断N是否大于K,如果是,转入执行步骤S34,否则转入执行步骤S33;
S33.使用多层感知器MLP对当前特征子集进行分类,得到对应当前特征子集的分类结果;将N的取值加1,返回执行步骤S32;
S34.输出对应各特征子集的分类结果,并选择对应分类结果精度最高的特征子集作为最优的特征子集。
多层感知器MLP作为多层前馈网络模型,分类效果好,且能够解决单层感知器只能对线性数据进行分类的问题,且多层感知器MLP的隐藏层采用全连接方式,因而所需训练的参数较多,不适用于特征数量大的复杂特征分类。本实施例通过先在对原始特征集进行特征评估,对评估排序后的特征子集结合多层感知器进行分类识别,可以避免复杂的训练过程,能够充分发挥多层感知器MLP的性能,从而有效提高语音情感识别的精度。
本实施例中,骤S33中使用多层感知器对当前特征子集进行分类的步骤为:
S331.初始化多层感知器网络中各权值;
S332.采用反向传播算法对特征子集进行训练,并更新连接权重;
S333.逐层进行误差传播,直至完成反向传播,得到情感分类结果。
多层感知器MLP作为多层前馈网络模型,分为输入层Uin、隐含层Uhidden和输出层Uout,其中隐含层的每个神经元的输入、输出层的每个神经元的输入都是由输入加权和决定的,即
其中,表示第u个神经元的输入加权和,pred(u)表示u前置神经元,wuv表示神经元u和神经元v的连接权重,outv表示神经元v的输出值。
多层感知器MLP中每个神经元的激活函数为sigmoid函数,该函数为单调非减函数且对于f:R→[0,1],有和本实施例具体使用如下式(3)的激活函数:
其中net为神经元的输入权重和,θ为偏离值。
为了正确的对各个情感类别进行分类,需求出MLP网络中的各个连接权重;本实施例使用多层感知器MLP时具体是采用反向传播算法(BP)进行训练并调整连接权重,BP算法是基于梯度下降策略,以目标的负梯度方向对参数M进行调整:M=M+△M。
对r层感知器进行单次训练时,网络中的单个输出神经元v的平方误差为:
其中v∈Uout,fact(net,θ)是输出神经元的预测值,out是实际值。
r层感知器输出神经元Uout的误差为:
设u为一个隐含层神经元或输出层神经元,且u∈Uk,0<k<r,则其前置神经元是对应的权重向量。
由于偏差值可以转换为权重,则将所有的参数执行相同的处理。当对连接权重进行调整时,按照下式对误差求导:
根据链式法则可得:
其中netu为神经元u的输入且netu=wuinu,则:
本实施例中,步骤S33中更新连接权重值时具体是根据原权重连接值、上一次迭代更新量计算得到,连接权重值具体按照下式(9)计算得到;
其中η为MLP的学习率,即更新连接权重值时是由原权重连接值加上上一次迭代更新量的一小部分数值,使得动量项(momentum)可以改善网络的运算性能。
按照上述方式进行逐层误差传播后完成反向传播运算,最后得到情感分类结果。
本实施例采用上述方法,首先采用SVM-RFE算法对语音特征集进行评估并排序,并依据多层感知器MLP进行分类,以选取最优的特征子集,实现过程简单且执行效率高,同时能够有效提高语音情感识别分类的精确度。
本实施例中,情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶(具体取12阶)的梅尔频率倒谱系数共16个声学低级描述符(LLD),当然在其他实施例中也可以根据实际需求取其中任意多种的组合或其他特征参数;步骤S1中具体提取情感特征参数的统计特征和统计特征的一阶导数,统计特征包括最大值(Max)、最小值(Min)、均值(Mean)、标准差(Standard Deviation)、动态范围(Range)、最大值位置(Max Position)、最小值位置(Min Position)、峰态(Kurtosis)、偏态(Skewness)、两个线性回归系数及两个线性回归系数之间的均方误差(Linear Regression Coefficients and their Mean SquareError)中,当然在其他实施例中也可以根据实际需求提取计特征或统计特征的一阶导数,统计特征也可以具体选取上述中的一种或多种,还可以采用其他统计特征等。本实施例所提取的16个声学低级描述符(LLD)和相应的一阶导数的12个功能分别如表1、2所示,其中属性数具体为384。
表1:低级描述符。
表2:功能。
本发明具体实施例中使用柏林语料库进行训练,柏林语料库包括了以下7类情感:anger(生气),boredom(烦恼),fear(恐惧)、disgust(厌恶)、joy(开心)、sadness(伤心)andneutral(中立)的语料,首先按照上述基于SVM-RFE算法进行特征排序,使用MLP对所选择的前N维特征子集进行性能分析,N分别取10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,以分析前N个评级特征对分类结果的影响,且每次使用MLP进行分类实验时均采用fold-10的交叉验证,其中MLP的学习率为0.3。
前N个特征评级的分类效果如图5中对应SVM-REF-MLP的曲线结果所示,由图可知,当N分别取前30,35,40,45,50,55,60,65,70,75,80,85,90,95,100个评级特征时,都取得了较好的分类效果,分类精确度都达到了80%以上,且其中当选择前65个评级特征的时候,取得最佳的分类效果,分类精确度能够达到87.5%,将此时对应的特征子集作为最优特征子集,则所选的最优特征子集如表3所示。即通过不同数量的前N个特征的特征子集进行分类效果分析,可以有效确定得到最优的特征子集。
表3.选择的特征子集。
为验证本实施例上述识别方法的有效性,本实施例使用传统基于信息增益IG特征参数选择方法结合MLP的方法进行测试,得到的测试结果如图5中IG-MLP曲线所示,从图中可以看出,对应于各不同N,本实施例均有更好的识别效果。
如表4所示,基于同一个情感语料库分别将本实施例融合SVM-RFE与多层感知器MLP的识别方法与传统的各类识别方法进行对比,其中对比方法1为使用MFCC、能量等特征形成了42维的声学特征,经过KPCA降维,再通过GMM-SVM分类器进行语音情感识别;对比方法2是提取Pitch,Energy,ZCR,power和MFCC等68维特征,通过组合NN,SVM和C5.0等多个分类器,在7类情感识别中,识别率最高的为组合NN-C5.0,达到了72.61%;对比方法3是基于多核学习的特征选择和特征融合的方法;对比方法4是使用MFCC、ZCR、energy、pitch等特征,通过SVM分类,识别率达到了86.61%;对比方法5是由SVM分类器构成的二叉决策树模型。
表4:本实施例识别方法与传统方法的性能对比表。
由表4可以看出,本实施例融合特征评估和多层感知器的语音情感识别方法,当取排序之后的前65维评级特征时,分类精确度能够达到87.5%,相比于传统的各类语音情感识别方法,本实施例上述识别方法具有更好的识别精度。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。
Claims (10)
1.一种融合特征评估和多层感知器的语音情感识别方法,其特征在于,步骤包括:
S1.特征提取:分别提取对应各类情感状态的训练语音集的多维情感特征参数,得到原始特征集;
S2.特征评估:对所述原始特征集中各情感特征进行评级排序,得到排序后的特征集;
S3.最优特征集选择:分别从所述排序后的特征集中获取不同数量的多个特征子集,并使用多层感知器分别对各所述特征子集进行分类,根据分类结果选择最优的特征子集;
S4.情感识别:对选择得到的所述最优的特征子集使用多层感知器训练情感分类模型,由训练得到的分类模型对待识别语音进行情感识别。
2.根据权利要求1所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于:所述步骤S2中具体采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序。
3.根据权利要求2所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述采用SVM-RFE算法对所述原始特征集中各情感特征进行评级排序的具体步骤为:
S21.将所述原始特征集作为当前特征集,转入执行步骤S22;
S22.将当前特征集基于SVM分类算法训练SVM分类器,得到最优的特征权重向量w;
S23.以所述最优的特征权重向量的平方w2作为排序的准则,对当前特征集中各情感特征参数进行排序,并将排在最后的情感特征参数删除,得到排序后的特征集;
S24.将所述步骤S23得到的排序后的特征集作为当前特征集,返回步骤S22以进行递归训练,直到得到所有情感特征参数的最终排序结果,输出最终的排序后的特征集。
4.根据权利要求1或2或3所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述步骤S3中具体从所述排序后的特征集中取前部分多个情感特征构成所述特征子集。
5.根据权利要求4所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述步骤S3的具体步骤为:
S31.为N设定初始值,且N小于所述排序后的特征集中情感特征参数的数量K;
S32.从所述排序后的特征集中获取前N个情感特征参数构成特征子集;
S33.判断N是否大于K,如果是,转入执行步骤S34,否则转入执行步骤S33;
S33.使用多层感知器对当前特征子集进行分类,得到对应当前特征子集的分类结果;将N的取值加1,返回执行步骤S32;
S34.输出对应各特征子集的分类结果,并选择对应分类结果精度最高的特征子集作为最优的特征子集。
6.根据权利要求5所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述步骤S33中使用多层感知器对当前特征子集进行分类的步骤为:
S331.初始化多层感知器网络中各权值;
S332.采用反向传播算法对所述特征子集进行训练,并更新连接权重;
S333.逐层进行误差传播,直至完成反向传播,得到情感分类结果。
7.根据权利要求6所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述步骤S333中更新连接权重值时,具体是根据原权重连接值、上一次迭代更新量计算得到。
8.根据权利要求7所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于,所述连接权重值具体按照下式计算得到;
<mrow>
<msub>
<mi>w</mi>
<mi>u</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>u</mi>
</msub>
<mo>+</mo>
<msub>
<mi>&Delta;w</mi>
<mi>u</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>u</mi>
</msub>
<mo>-</mo>
<mi>&eta;</mi>
<mo>&dtri;</mo>
<msub>
<mi>w</mi>
<mi>u</mi>
</msub>
<mi>E</mi>
<mo>;</mo>
</mrow>
其中,wu为连接权重值,E为输出神经元的误差,η为多层感知器的学习率。
9.根据权利要求1或2或3所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于:所述情感特征参数具体包括能量、基频、过零率、谐波噪声比以及1至多阶的梅尔频率倒谱系数中任意多种的组合。
10.根据权利要求9所述的融合特征评估和多层感知器的语音情感识别方法,其特征在于:所述步骤S1中具体提取所述情感特征参数的统计特征和/或所述统计特征的一阶导数,所述统计特征包括最大值、最小值、均值、标准差、动态范围、最大值位置、最小值位置、峰态、偏态、两个线性回归系数及所述两个线性回归系数之间的均方误差中一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710607479.9A CN107393525B (zh) | 2017-07-24 | 2017-07-24 | 一种融合特征评估和多层感知器的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710607479.9A CN107393525B (zh) | 2017-07-24 | 2017-07-24 | 一种融合特征评估和多层感知器的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107393525A true CN107393525A (zh) | 2017-11-24 |
CN107393525B CN107393525B (zh) | 2020-06-12 |
Family
ID=60336647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710607479.9A Active CN107393525B (zh) | 2017-07-24 | 2017-07-24 | 一种融合特征评估和多层感知器的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107393525B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830308A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 一种基于信号的传统特征与深度特征融合的调制识别方法 |
CN109492101A (zh) * | 2018-11-01 | 2019-03-19 | 山东大学 | 基于标签信息与文本特征的文本分类方法、系统及介质 |
WO2019105572A1 (en) * | 2017-12-01 | 2019-06-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Selecting learning model |
WO2019119687A1 (zh) * | 2017-12-19 | 2019-06-27 | 浙江大学 | 基于机器学习的防御无声指令控制语音助手的方法 |
CN110020638A (zh) * | 2019-04-17 | 2019-07-16 | 唐晓颖 | 人脸表情识别方法、装置、设备和介质 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN115096581A (zh) * | 2022-06-23 | 2022-09-23 | 上海交通大学 | 基于时频域特征的复杂传动装置故障诊断溯源方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994000837A1 (en) * | 1992-06-22 | 1994-01-06 | Sri International | Method and apparatus for context-dependent estimation in a speech recognition system |
CN102521206A (zh) * | 2011-12-16 | 2012-06-27 | 天津大学 | 基于集成学习思想的svm-rfe导联优化方法 |
-
2017
- 2017-07-24 CN CN201710607479.9A patent/CN107393525B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994000837A1 (en) * | 1992-06-22 | 1994-01-06 | Sri International | Method and apparatus for context-dependent estimation in a speech recognition system |
CN102521206A (zh) * | 2011-12-16 | 2012-06-27 | 天津大学 | 基于集成学习思想的svm-rfe导联优化方法 |
Non-Patent Citations (5)
Title |
---|
ISABELLE GUYON ET AL.: "《Gene selection for cancer classification using support vector machines》", 《MACHINE LEARNING》 * |
RUDOLF KRUSE ET AL.: "《Multi-Layer Perceptrons》", 《COMPUTATIONAL INTELLIGENCE》 * |
刘峡壁编著: "《人工智能导论 方法与系统》", 31 August 2008, 国防工业出版社 * |
王玉晶等: "《基于TS特征选择的生理情感状态分类》", 《齐齐哈尔大学学报》 * |
程国建编著: "《神经计算与生长自组织网络》", 31 October 2008, 西安交通大学出版社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019105572A1 (en) * | 2017-12-01 | 2019-06-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Selecting learning model |
US11580452B2 (en) | 2017-12-01 | 2023-02-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Selecting learning model |
WO2019119687A1 (zh) * | 2017-12-19 | 2019-06-27 | 浙江大学 | 基于机器学习的防御无声指令控制语音助手的方法 |
US11450324B2 (en) | 2017-12-19 | 2022-09-20 | Zhejiang University | Method of defending against inaudible attacks on voice assistant based on machine learning |
CN108830308A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 一种基于信号的传统特征与深度特征融合的调制识别方法 |
CN109492101A (zh) * | 2018-11-01 | 2019-03-19 | 山东大学 | 基于标签信息与文本特征的文本分类方法、系统及介质 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN110020638A (zh) * | 2019-04-17 | 2019-07-16 | 唐晓颖 | 人脸表情识别方法、装置、设备和介质 |
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN112861984B (zh) * | 2021-02-25 | 2022-07-01 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN115096581A (zh) * | 2022-06-23 | 2022-09-23 | 上海交通大学 | 基于时频域特征的复杂传动装置故障诊断溯源方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107393525B (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107393525A (zh) | 一种融合特征评估和多层感知器的语音情感识别方法 | |
Chatziagapi et al. | Data Augmentation Using GANs for Speech Emotion Recognition. | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN106250855B (zh) | 一种基于多核学习的多模态情感识别方法 | |
Schuller et al. | Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture | |
Mannepalli et al. | Emotion recognition in speech signals using optimization based multi-SVNN classifier | |
Ke et al. | Speech emotion recognition based on SVM and ANN | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
Garg et al. | Speech based Emotion Recognition based on hierarchical decision tree with SVM, BLG and SVR classifiers | |
Palo et al. | Comparative analysis of neural networks for speech emotion recognition | |
Tanveer et al. | Ensemble deep learning in speech signal tasks: A review | |
Li et al. | Emotion recognition from speech with StarGAN and Dense‐DCNN | |
Lingampeta et al. | Human emotion recognition using acoustic features with optimized feature selection and fusion techniques | |
Singh et al. | Emoception: An inception inspired efficient speech emotion recognition network | |
CN111145787A (zh) | 一种基于主辅网络的语音情感特征融合方法及系统 | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
Shruti et al. | A comparative study on bengali speech sentiment analysis based on audio data | |
CN108831487A (zh) | 声纹识别方法、电子装置及计算机可读存储介质 | |
Fu et al. | An adversarial training based speech emotion classifier with isolated gaussian regularization | |
CN114429135A (zh) | 一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法 | |
Barkur et al. | EnsembleWave: an ensembled approach for automatic speech emotion recognition | |
Mao et al. | Speaker-independent speech emotion recognition by fusion of functional and accompanying paralanguage features | |
Gondohanindijo et al. | Comparison Method in Indonesian Emotion Speech Classification | |
Hadjadji et al. | Enhancement of the interlocutor emotion recognition rate from non-professionals speakers in Arabic database | |
Xia et al. | Fi-net: a speech emotion recognition framework with feature integration and data augmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |