CN103544963B - 一种基于核半监督判别分析的语音情感识别方法 - Google Patents
一种基于核半监督判别分析的语音情感识别方法 Download PDFInfo
- Publication number
- CN103544963B CN103544963B CN201310549224.3A CN201310549224A CN103544963B CN 103544963 B CN103544963 B CN 103544963B CN 201310549224 A CN201310549224 A CN 201310549224A CN 103544963 B CN103544963 B CN 103544963B
- Authority
- CN
- China
- Prior art keywords
- sample
- speech
- emotion
- training
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000012360 testing method Methods 0.000 claims abstract description 66
- 230000009467 reduction Effects 0.000 claims abstract description 45
- 230000008909 emotion recognition Effects 0.000 claims abstract description 29
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000008451 emotion Effects 0.000 claims description 126
- 239000013598 vector Substances 0.000 claims description 70
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000012216 screening Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000002790 cross-validation Methods 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 241000764238 Isis Species 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008929 regeneration Effects 0.000 claims description 3
- 238000011069 regeneration method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 238000013506 data mapping Methods 0.000 abstract description 5
- 230000002996 emotional effect Effects 0.000 abstract 3
- 238000007796 conventional method Methods 0.000 abstract 1
- 238000000513 principal component analysis Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000003867 tiredness Effects 0.000 description 1
- 208000016255 tiredness Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于核半监督判别分析的语音情感识别方法,对经预处理的语音样本中语音情感特征提取后,进行特征筛选、KSDA维数约简和分类。在训练阶段,对全监督训练样本集使用KSDA进行维数约简,将表示训练样本不同关系信息的嵌入图结合起来,并使用核化数据映射,实现对语音情感特征维数约简的优化,再用低维样本训练多类SVM分类器;在测试阶段,依次使用训练阶段特征筛选得到的特征及维数约简得到的数据映射方式,对各测试样本获取其低维特征,再使用训练得到的分类器进行分类判决,得到测试样本的类别。与现有方法相比,本发明的方法在语音情感特征维数约简中增加了降维的有效性,使语音情感识别系统的识别率性能得到了提升。
Description
技术领域
本发明属于语音情感识别领域,特别是涉及一种基于核半监督判别分析的语音情感识别方法。
背景技术
语音情感识别(Speech Emotion Recognition,简称SER,)涉及到语音信号处理、模式识别、机器学习以及心理学等交叉学科,目前已成为了一个得到了较多关注的领域。大量算法被提出用于语音情感识别,并经过实验验证了其有效性。常用的标准数据库包括柏林(Berlin)语音情感库、AIBO数据库、SUSAS语料库等,所涉及到的基本情感类型包括平静、恐惧、生气、愉悦、烦躁、惊讶等。
在人机交互(HMI)中,机器需要根据交流对象的语音信号,经过处理之后提取出信号样本的情感特征,进行语音情感类型的识别,根据识别的结果给出相应的反应策略;同样,机器也可以根据各类样本特征分析的结果,自动生成带某种情感成分的语音信号,从而提高人机交互系统的性能。在航天员培训训练过程中及航天器在轨阶段,语音情感识别也具有重要的意义,可以及时检测出负面情感,从而尽早进行干预和情绪疏导,排除由负面情绪所带来的安全隐患。此外,在呼叫中心、儿童的心理疾病诊疗等方面语音情感识别方法同样能够为相关人员提供一定的初步诊断筛选依据。
目前很多语音情感识别算法都是基于原始特征直接通过分类器进行分类识别,常用的分类器如高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等,虽然能取得一些效果,但由于语音情感原始特征的维数一般较高,而且原始特征中一般会含有一些对情感分类无用的特征,所以对普通的语音情感样本的准确分类存在着较大的局限性。
传统的语音情感识别方法还采用了一些特征筛选的措施,但由于缺乏对原始特征的线性或非线性变换,语音情感的维数仍然太高,所以仍无法提供较为准确的语音情感特征。当前的研究成果中,流形学习算法已经成为模式识别与机器学习中的维数约简常用方法。常见的基本流形学习算法包括局部线性嵌入(Locally Linear Embedding,简称LLE)、等距线性映射(Isomap)、局部保持投影(Locally Preserve Projection,简称LPP)和随机近邻嵌入(Stochastic Neighbor Embedding,简称SNE)等。其中很多流形学习算法都与判别分析、瑞利(Rayleigh)商、谱图学习等相关算法具有密切联系。
较多的心理学研究表明,语音情感空间具有较低的维度,目前以三维及多维情绪空间理论为主,这为流形学习算法在语音情感识别中应用提供了依据,即语音情感空间在利用流行学习算法将其降到较低维度时仍然能保持并加强对于样本情绪的表达。
但是,在当前的研究成果中还存在下列问题:大部分方法都是直接基于基本的流形学习算法如LLE、Isomap、LPP、边界Fisher分析(Marginal Fisher Analysis,简称MFA)等,或是主成分分析(Principal Component Analysis,简称PCA)、线性判别分析(LinerDiscriminant Analysis,简称LDA)等简单的维数约简算法及其不同的数据映射形式,无论是基本的流行学习算法还是简单的维数约减算法都仅仅使用单一的嵌入图及其相似模型的学习,而忽略了对于嵌入图的优化。由于一个嵌入图反映了训练样本的某种方面的关系,就必然会忽略其他方面的特性,所以单一的嵌入图并不能完全反映训练样本的特征空间结构,造成语音情感的识别效果不佳。
发明内容
要解决的技术问题:针对现有技术的不足,本发明提供一种基于核半监督判别分析的语音情感识别方法,解决现有技术中语音情感的维数较高,无法提供较为准确的语音情感特征;基本的流行学习算法中仅利用单一嵌入图及其相似模型进行学习时不能完全反应训练样本的特征空间结构导致语音情感识别率低的技术问题。
技术方案:为解决上述技术问题,本发明采用以下技术方案:
一种基于核半监督判别分析的语音情感识别方法,将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,简称MFCC)共6大类语音情感特征组成每个语音样本的原始语音情感特征向量,其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
步骤四,基于核半监督判别分析KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数;
步骤五,训练两类SVM分类器:对训练样本中的N个分属于Nc个种类的语音样本,取每两类组合训练得到1个两类SVM分类器,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到经过维数约简后的低维样本为ATKi,对于一个测试样本 Gram阵K选用步骤四中所述的Gauss核函数;
(2)使用多类SVM分类器投票进行分类:将每个测试样本的低维样本ATKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别。
进一步的,在本发明中,步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
进一步的,在本发明中,步骤二中的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为设为的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量n表示任一语音样本x(0)中特征元素的个数,其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集即其余为测试样本的语音样本规整化语音情感特征向量。
进一步的,在本发明中,步骤三中所述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量中属于特征j的FDR值的计算公式为:
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除100~150个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
进一步的,在本发明中,维数约简训练时,KSDA的图嵌入的优化形式为:
其中,
列向量a为核方法的降维投影向量,aT为a的转置;
I为N×N的单位阵;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||2/σ2),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
C为用数字1,2,...,Nc表示的情感的类别;
Nc表示情感的类数;
nc表示属于类C的训练样本数;
e表示元素为全为1的N维列向量,eT表示e的转置;
ec表示语音样本的语音情感特征向量中对应的标签属于类C的元素为1,其他元素为0的列向量;
S为局部保持投影即LPP算法下的嵌入图;对角阵D的对角元素分别为LPP算法下嵌入图各个语音样本点的度,其中S和D的i行j列元素分别为:
这里NK(i)、NK(j)分别表示样本点i、j的k近邻点集;
权重参数τ≥0为平衡KSDA的图嵌入的优化形式中和S之间关系的参数这里的和S代表了不同类型训练样本嵌入图信息;采用枚举法进行权重参数τ的选择,通过使用训练样本集对离散的权重参数τ值代入KSDA的图嵌入的优化形式进行5折交叉验证,验证得到较优识别率对应的权重参数τ;
利用广义特征值问题GEP对该KSDA的图嵌入的优化形式进行求解,得到核方法的降维投影向量a的求解a1,a2,...,am,,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成核方法的降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数。
更进一步的,在本发明中,所述5折交叉验证的方法为:
将训练样本集平均分为五份子集,每次交叉验证时将训练样本集中的四份子集合并划分为验证训练样本集,取剩下的一份子集作为验证测试样本集,用于对验证训练样本集进行测试,依次经过步骤四、步骤五和步骤六对于5折交叉验证中所有5种分割情况进行训练和测试,得到所取的每个权重参数τ值对应的验证测试样本集中的语音样本的平均识别率,反向验证得到较优识别率对应的权重参数τ。
有益效果:
本发明的语音情感识别方法通过对语音样本划分为训练样本集和测试样本集,将语音样本预处理后对其中的语音情感特征提取后进行特征筛选、维数约简和测试。基于SDA算法,在维数约简阶段,将全监督的训练样本使用半监督判别分析算法的嵌入图组合,将不同训练样本嵌入图信息之间关系通过权重参数τ结合起来;进一步地使用了非线性的核化映射,引入了高斯核函数,共同实现对语音情感识别中特征维数约简过程的优化,提高了降维的有效性;在测试阶段,使用多类SVM分类器投票进行分类,最终得到测试样本的类别同时验证得到本发明方法的识别率。
通过实验证明,相比于现有的识别方法,本发明的方法在语音情感特征空间降维过程中增加了降维的有效性,使得语音情感识别系统的识别率性能得到了提升。
附图说明
图1为基于KSDA的语音情感识别方法流程图;
图2为训练样本数、测试样本数的比为5:5时几种线性降维方法的识别率随降维维数的变化情况比较;
图3为训练样本数、测试集样本数的比为5:5时SDA与不同参数的KSDA方法的识别率随降维维数的变化情况比较。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,为本发明的流程图。
步骤一,将语音情感数据库中的若干个语音样本任意划分为训练样本集和测试样本集,采用滤波器对所有语音样本进行预加重,这里预加重采用的滤波器z域内的系统函数为:H(z)=1-μz-1,其中,参数μ取值为0.95<μ<1。然后对预加重后的语音样本的时域信号使用Hamming窗进行分帧。
步骤二,语音情感特征提取:从语音情感特征的属性上来看,语音情感特征分为两类:韵律特征和音质特征。韵律特征包括浊音段的基音、能量,以及时长特征,能够反映一个语段总体的韵律及其变化特性;音质特征来源于每帧语音信号的音质特征提取,大体反映了语段的音色特性。通过提取方式的不同,提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和MFCC共6大类语音情感特征的统计特征及其他相关参数组成每个语音样本的原始语音情感特征向量,其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。每个语音样本的原始语音情感特征向量中的与一个情感特征种类分布如下:
1-80维,能量特征:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动。
81-101维,基音特征:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率。
102-121维,过零率特征:过零率序列及其一阶、二阶差分序列的统计特征。
122-130维,时长特征:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速。
131-250维,F1、F2、F3三个共振峰特征:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动。
251-406维,MFCC特征:MFCC及其一阶差分序列的统计特征。
通过上述的语音情感特征提取,可以获取用于语音情感识别的每个语段样本406维原始语音情感特征向量。
对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量。
这里所述的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为设为的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量n表示任一语音样本x(0)中特征元素的个数,其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集即其余为测试样本的语音样本规整化语音情感特征向量。
步骤三,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值(Fisher线性判别比)进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量。
这里特征筛选的方法如下:
任一语音样本规整化语音情感特征向量中属于特征j的FDR值的计算公式为:
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除100~150个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
步骤四,基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]使用KSDA(即核半监督判别分析)对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数。
维数约简训练时,KSDA的图嵌入的优化形式为:
其中,
列向量a为核方法的降维投影向量,aT为a的转置;
I为N×N的单位阵;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||2/σ2),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
C为用数字1,2,...,Nc表示的情感的类别;
Nc表示情感的类数;
nc表示属于类C的训练样本数;
e表示元素为全为1的N维列向量,eT表示e的转置;
ec表示语音样本的语音情感特征向量中对应的标签属于类C的元素为1,其他元素为0的列向量;
S为局部保持投影即LPP算法下的嵌入图;对角阵D的对角元素分别为LPP算法下嵌入图各个样本点的度,其中S和D的i行j列元素分别为:
这里NK(i)、NK(j)分别表示样本点i、j的k近邻点集;
权重参数τ≥0为平衡不同类型训练样本嵌入图信息之间关系的参数;采用枚举法进行权重参数τ的选择,通过使用训练样本集对离散的权重参数τ值代入KSDA的图嵌入的优化形式进行5折交叉验证,验证得到较优识别率对应的权重参数τ。这里5折交叉验证的具体方法为,将训练样本集平均分为五份子集,每次交叉验证时将训练样本集中的四份子集合并划分为验证训练样本集,取剩下的一份子集作为验证测试样本集,用于对验证训练样本集进行测试,依次经过步骤四、步骤五和步骤六所述方法对于5折交叉验证中所有5种分割情况进行训练和测试,得到所取的每个权重参数τ值对应的验证测试样本集中的语音样本的平均识别率,反向验证得到较优识别率对应的权重参数τ。
将该KSDA的图嵌入的优化形式转化为广义特征值问题GEP进行求解,得到核方法的降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成核方法的降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数。
步骤五,训练两类SVM分类器:根据2004年出版的《Pattern recognition》第二版的第三章中对该方法的介绍,对训练样本集中的N个分属于Nc个类的语音样本,取每两类组合训练得到1个两类SVM分类器,共得到Nc(Nc-1)/2个两类SVM分类器;每个两类SVM分类器训练的具体方法为:
设某个两类SVM分类器是用于判断类ω-和ω+两种语音情感类别,设x-、x+为分别属于类ω-、ω+的距离最近的样本点,其优化目标可写为:
max||x--x+|| (1)
上式(1)的约束条件为同时满足wTx-+b=-1,wTx++b=1 (2)
这里w为线性映射权重、b为偏置,w和b均为线性决策面参数。
具体地,由于两类SVM分类器分为线性可分和线性不可分两种,对于线性可分的两类SVM分类器,对经过维数约简后包含任意两类标签的训练样本集,即该训练样本集经线性可分的两类SVM分类器分类,其优化目标为:
上式(3)的约束条件为满足
对于线性不可分的两类SVM分类器,训练样本集经线性不可分的两类SVM分类器分类的优化目标为:
上式(5)的约束条件为满足
在上述(1)至(6)中,为训练样本i经过维数约简后的特征矢量;yi=±1为训练样本i的标签信息;N±=N++N-为训练样本集中训练样本的个数;N+、N-分别为所取的ω-和ω+两类中各自的样本个数;αi为松弛项;C为常数。
求解上述(3)式和(5)式,求解得到决策面参数w和b,完成对该两类SVM分类器的训练。
步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到经过维数约简后的低维样本为ATKi,对于一个测试样本 Gram阵K选用步骤四中所述的Gauss核函数;
(2)使用多类SVM分类器投票进行分类:将每个测试样本的低维样本ATKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别。
下面对通过实验的方法将本发明的方法与现有的具有代表性的识别方法包括半监督判别分析(SDA)、主成分分析(PCA)、线性判别分析(LDA)、局部保持投影(LPP)、边界Fisher分析(MFA)进行识别率对比。
实验采用Berlin语音情感数据库,Berlin数据库中包括7类情感:害怕、厌恶、喜悦、厌倦、中性、悲伤、生气。实验者为10个专业演员,包括5男5女,语料为10个不同的德语短句。语音样本的采样频率为16kHz,量化位数为16bit。虽然Berlin语音情感数据库有着一些缺陷,如样本数量、表演因素以及语言因素等,但该数据库仍然可以作为语音情感识别的一个标准化数据库。
在实验过程中,为保证实验数据的可信度,在随机划分的训练样本集和测试样本集的基础上对实验重复20次,得到的识别率取均值作为最终实验结果。
所述SDA、PCA、LDA、LPP、MFA等5种算法为采用线性数据映射的降维方法,其中PCA、LPP算法中均不含监督信息,LDA、MFA、SDA含有监督信息;背景中提到的LLE、Isomap等算法不含监督信息,其识别率应与PCA、LPP等差不多,且一般情况下均低于含有监督信息的算法,故这里没有针对这些算法做相关实验。PCA和LDA常用于语音情感识别,而LPP、MFA以及半监督训练样本下的SDA已在人脸识别中得到了应用。由于PCA、LDA、LPP、MFA等算法仅考虑了单嵌入图下的情况,而SDA则考虑到了多个嵌入图之间的结合,所以这里使用SDA进行语音情感识别中的维数约简。在此基础上,使用了采取核数据映射方式的KSDA,即本发明方法,进一步提高了语音情感识别的识别率。
首先利用这几种方法对Berlin库中的语音样本进行识别,选取训练样本数、测试样本数的比为5:5时得到这5种方法的识别率随约简的维数变化的图像如图2所示。可见SDA的识别率最优。
进一步的,再比较本发明的方法和SDA之间识别率的高低。利用本发明所述方法和SDA方法对Berlin库中的语音样本进行识别,实验过程中,使用3个不同参数的Gauss核函数,得到具有3个不同参数的核半监督判别分析方法Kernel1-SDA、Kernel2-SDA和Kernel3-SDA。将Kernel1-SDA、Kernel2-SDA、Kernel3-SDA以及SDA对专业演员所说的语音样本进行识别,选取训练样本数、测试样本数的比为5:5时得到如图3所示的识别率随约简的维数变化的图像。可见Kernel1-SDA、Kernel2-SDA、Kernel3-SDA的识别率均高于SDA的识别率。
由图2和图3可以看出,在语音情感特征的低维子空间内,相对于其他一些常用的线性映射的子空间学习算法,SDA可以取得较高的识别率;而基于非线性映射的KSDA相对于SDA,则具有更理想的识别效果。
进一步的,改变训练样本和测试样本数量的比为6:4时,重复整个实验过程,得到利用各种识别方法进行实验在低特征维数时的最高识别率,制成下表。
表1
由表1可知,KSDA算法在语音情感识别中相比其他现有采用维数约简的识别方法(PCA、LDA、LPP、MFA等),在使用同样分类器的条件下能够取得较优的识别效果,从而更适用于语音情感识别。
综上所述,本发明中所采用的KSDA算法能够基于嵌入图的优化组合,以及非线性数据映射,有效地提高语音情感识别效果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种基于核半监督判别分析的语音情感识别方法,其特征在于:将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
上述规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为设为的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量n表示任一语音样本x(0)中特征元素的个数,其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集即 其余为测试样本的语音样本规整化语音情感特征向量;
步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
上述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量中属于特征j的FDR值的计算公式为:
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除100~150个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
步骤四,基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数;
上述维数约简训练时,KSDA的图嵌入的优化形式为:
其中,
列向量a为核方法的降维投影向量,aT为a的转置;
I为N×N的单位阵;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||2/σ2),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
C为用数字1,2,...,Nc表示的情感的类别;
Nc表示情感的类数;
nc表示属于类C的训练样本数;
e表示元素为全为1的N维列向量,eT表示e的转置;
ec表示语音样本的语音情感特征向量中对应的标签属于类C的元素为1,其他元素 为0的列向量;
S为LPP算法下的嵌入图;对角阵D的对角元素分别为LPP算法下嵌入图各个样本点的度,其中S和D的i行j列元素分别为:
这里NK(i)、NK(j)分别表示样本点i、j的k近邻点集;
权重参数τ≥0为平衡KSDA的图嵌入的优化形式中和S之间关系的参数;采用枚举法进行权重参数τ的选择,通过使用训练样本集对离散的权重参数τ值代入KSDA的图嵌入的优化形式进行5折交叉验证,验证得到较优识别率对应的权重参数τ;
所述5折交叉验证的方法为:将训练样本集平均分为五份子集,每次交叉验证时将训练样本集中的四份子集合并划分为验证训练样本集,取剩下的一份子集作为验证测试样本集,用于对验证训练样本集进行测试,依次经过步骤四、步骤五和步骤六对于5折交叉验证中所有5种分割情况进行训练和测试,得到所取的每个权重参数τ值对应的验证测试样本集中的语音样本的平均识别率,反向验证得到较优识别率对应的权重参数τ;
利用广义特征值问题GEP对该KSDA的图嵌入的优化形式进行求解,得到核方法的降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成核方法的降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数;
步骤五,训练两类SVM分类器:假设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行组合训练得到1个两类SVM分类器,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:利用经步骤五训练完成的SVM分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到经过维数约简后的低维样本为ATKi,对于一个测试样本 Gram阵K选用 步骤四中所述的Gauss核函数;
(2)使用多类SVM分类器投票进行分类:将每个测试样本的低维样本ATKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别。
2.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310549224.3A CN103544963B (zh) | 2013-11-07 | 2013-11-07 | 一种基于核半监督判别分析的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310549224.3A CN103544963B (zh) | 2013-11-07 | 2013-11-07 | 一种基于核半监督判别分析的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103544963A CN103544963A (zh) | 2014-01-29 |
CN103544963B true CN103544963B (zh) | 2016-09-07 |
Family
ID=49968357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310549224.3A Active CN103544963B (zh) | 2013-11-07 | 2013-11-07 | 一种基于核半监督判别分析的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103544963B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854645B (zh) * | 2014-03-05 | 2016-08-24 | 东南大学 | 一种基于说话人惩罚的独立于说话人语音情感识别方法 |
CN103956165A (zh) * | 2014-05-09 | 2014-07-30 | 德州学院 | 利用混合分量聚类Fisher得分算法提高音频分类准确率的方法 |
CN104008754B (zh) * | 2014-05-21 | 2017-01-18 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN104050963B (zh) * | 2014-06-23 | 2017-02-15 | 东南大学 | 一种基于情感数据场的连续语音情感预测方法 |
CN104156628B (zh) * | 2014-08-29 | 2017-05-31 | 东南大学 | 一种基于多核学习判别分析的舰船辐射信号识别方法 |
CN110895929B (zh) * | 2015-01-30 | 2022-08-12 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
CN104992715A (zh) * | 2015-05-18 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 一种智能设备的界面切换方法及系统 |
CN107305773B (zh) * | 2016-04-15 | 2021-02-09 | 美特科技(苏州)有限公司 | 语音情绪辨识方法 |
CN106096642B (zh) * | 2016-06-07 | 2020-11-13 | 南京邮电大学 | 基于鉴别局部保持投影的多模态情感特征融合方法 |
CN106205636A (zh) * | 2016-07-07 | 2016-12-07 | 东南大学 | 一种基于mrmr准则的语音情感识别特征融合方法 |
CN106469560B (zh) * | 2016-07-27 | 2020-01-24 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN106571135B (zh) * | 2016-10-27 | 2020-06-09 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN106504772B (zh) * | 2016-11-04 | 2019-08-20 | 东南大学 | 基于重要性权重支持向量机分类器的语音情感识别方法 |
CN106531195B (zh) * | 2016-11-08 | 2019-09-27 | 北京理工大学 | 一种对话冲突检测方法及装置 |
CN107221344A (zh) * | 2017-04-07 | 2017-09-29 | 南京邮电大学 | 一种语音情感迁移方法 |
CN108735233A (zh) * | 2017-04-24 | 2018-11-02 | 北京理工大学 | 一种性格识别方法和装置 |
CN109394203A (zh) * | 2017-08-18 | 2019-03-01 | 广州市惠爱医院 | 精神障碍康复期情绪监测与干预方法 |
WO2019119279A1 (en) * | 2017-12-19 | 2019-06-27 | Wonder Group Technologies Ltd. | Method and apparatus for emotion recognition from speech |
CN108564132A (zh) * | 2018-04-25 | 2018-09-21 | 杭州闪捷信息科技股份有限公司 | 一种基于集成支持向量机对深度特征进行分类的方法 |
CN108921037B (zh) * | 2018-06-07 | 2022-06-03 | 四川大学 | 一种基于BN-inception双流网络的情绪识别方法 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN109740635B (zh) * | 2018-12-11 | 2023-12-26 | 中国科学院上海微系统与信息技术研究所 | 基于二分类器的分类识别特征映射方法 |
CN110120231B (zh) * | 2019-05-15 | 2021-04-02 | 哈尔滨工业大学 | 基于自适应半监督非负矩阵分解的跨语料情感识别方法 |
CN110288983B (zh) * | 2019-06-26 | 2021-10-01 | 上海电机学院 | 一种基于机器学习的语音处理方法 |
CN110534091A (zh) * | 2019-08-16 | 2019-12-03 | 广州威尔森信息科技有限公司 | 一种基于微服务器及智能语音识别的人车交互方法 |
CN111915101A (zh) * | 2020-08-17 | 2020-11-10 | 安徽三禾一信息科技有限公司 | 基于lpp-hmm方法的复杂装备故障预测方法及系统 |
CN116913258B (zh) * | 2023-09-08 | 2023-11-24 | 鹿客科技(北京)股份有限公司 | 语音信号识别方法、装置、电子设备和计算机可读介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663432A (zh) * | 2012-04-18 | 2012-09-12 | 电子科技大学 | 结合支持向量机二次识别的模糊核聚类语音情感识别方法 |
-
2013
- 2013-11-07 CN CN201310549224.3A patent/CN103544963B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663432A (zh) * | 2012-04-18 | 2012-09-12 | 电子科技大学 | 结合支持向量机二次识别的模糊核聚类语音情感识别方法 |
Non-Patent Citations (3)
Title |
---|
Novel feature fusion method for speech emotion recognition based on multiple kernel learning;Jin Yun et al;《Journal of Southeast University ( English Edition)》;20130630;第29卷(第2期);全文 * |
Speech emotion recognition using semi-supervised discriminant analysis;Xu Xinzhou et al;《Journal of Southeast University ( English Edition)》;20140331;第30卷(第1期);全文 * |
Variance-based Gaussian Kernel Fuzzy Vector Quantization for Emotion Recognition with Short Speech;Jie Huang et al;《2012 IEEE 12th International Conference on Computer and Information Technology》;20121231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103544963A (zh) | 2014-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544963B (zh) | 一种基于核半监督判别分析的语音情感识别方法 | |
Chatziagapi et al. | Data Augmentation Using GANs for Speech Emotion Recognition. | |
CN103854645B (zh) | 一种基于说话人惩罚的独立于说话人语音情感识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN106878677B (zh) | 基于多传感器的学生课堂掌握程度评估系统和方法 | |
Schuller et al. | Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
Sharma et al. | Acoustic model adaptation using in-domain background models for dysarthric speech recognition | |
CN110047501B (zh) | 基于beta-VAE的多对多语音转换方法 | |
Chen et al. | Phoneme-unit-specific time-delay neural network for speaker verification | |
CN110085254A (zh) | 基于beta-VAE和i-vector的多对多语音转换方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN102592593A (zh) | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 | |
CN106971180A (zh) | 一种基于语音字典稀疏迁移学习的微表情识别方法 | |
Sun et al. | Text-independent speaker identification based on deep Gaussian correlation supervector | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN110348482A (zh) | 一种基于深度模型集成架构的语音情感识别系统 | |
Huang et al. | Detecting Intelligibility by Linear Dimensionality Reduction and Normalized Voice Quality Hierarchical Features. | |
Lee et al. | Speech emotion recognition using spectral entropy | |
Xue et al. | Learning speech emotion features by joint disentangling-discrimination | |
Ghonem et al. | Classification of stuttering events using i-vector | |
Pentapati | Enhancement in Speaker Identification through Feature Fusion using Advanced Dilated Convolution Neural Network | |
Zeng et al. | Multi-feature fusion speech emotion recognition based on SVM | |
Sun et al. | Residual attention based network for automatic classification of phonation modes | |
Kaushik et al. | End-to-end speaker age and height estimation using attention mechanism and triplet loss |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |