CN103854645A - 一种基于说话人惩罚的独立于说话人语音情感识别方法 - Google Patents

一种基于说话人惩罚的独立于说话人语音情感识别方法 Download PDF

Info

Publication number
CN103854645A
CN103854645A CN201410078383.4A CN201410078383A CN103854645A CN 103854645 A CN103854645 A CN 103854645A CN 201410078383 A CN201410078383 A CN 201410078383A CN 103854645 A CN103854645 A CN 103854645A
Authority
CN
China
Prior art keywords
speech
speaker
sample
speech emotional
dimensionality reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410078383.4A
Other languages
English (en)
Other versions
CN103854645B (zh
Inventor
郑文明
徐新洲
赵力
黄程韦
余华
吴尘
查诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201410078383.4A priority Critical patent/CN103854645B/zh
Publication of CN103854645A publication Critical patent/CN103854645A/zh
Application granted granted Critical
Publication of CN103854645B publication Critical patent/CN103854645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于说话人惩罚的独立于说话人语音情感识别方法,对语音信号样本依次进行预处理、语音情感原始特征提取、维数约简、分类器分类判决。其中在维数约简阶段,使用了基于说话人惩罚的图嵌入学习方法,利用说话人标签信息,分别针对属于同一类情感类别但说话人不同,以及属于同一说话人但分属于不同情感类别的语音信号样本对,在图嵌入理论的基础上利用已有理论,进行组合优化运算。与现有方法相比,本发明的方法在独立于说话人的语音情感识别中,能够有效地提升系统的识别性能。

Description

一种基于说话人惩罚的独立于说话人语音情感识别方法
技术领域
本发明属于语音情感识别领域,特别是涉及一种基于说话人惩罚的独立于说话人语音情感识别方法。
背景技术
随着应用需求不断增加,语音情感识别(Speech Emotion Recognition,简称SER)的研究近年来得到了较大的发展。语音情感识别的成果可以应用于呼叫中心语料的自动分析处理,以及人机交互(Human-Machine Interaction,简称HMI)等诸多领域,以获取语音情感信息的自动分析识别,实现机器的智能化。基于上述的需求,为了取得更高的系统性能,目前已有了大量集中在语音情感识别方面的研究工作。然而,大量已有的工作都是对如何利用专家知识或是实验经验,选取有效的语音情感特征的研究,这些研究忽略了系统对样本变化的自适应性,从而并不具有很好的可移植性。而且语音情感原始特征一般都含有着大量的冗余信息。
独立于说话人的语音情感识别工作则在语音情感识别系统的训练和测试阶段分别使用完全不同的说话人语料样本,使得算法的训练和测试阶段基于不同的说话人信息。从而提高了算法的实用性,但却同时加大了算法实现语音情感识别的难度。
维数约简作为模式识别与机器学习中一个重要的环节,不仅对特征的提取、压缩、传输以及有效地减小后续模块中的计算量有着重要的意义,还能够显著地提高整个系统的识别性能。流形学习方法常用于识别工作的维数约简阶段,可以体现出训练数据集的本征结构。目前常用的基于图学习的流形学习方法有多种,如局部保持投影(LocalityPreserving Projection)、局部线性嵌入(Locally Linear Embedding,简称LLE)、扩散映射(Diffusion Maps,简称DM)、Isomap、边界Fisher分析(Marginal Fisher Analysis,简称MFA)等。此外,还有主成分分析(Principal Component Analysis,简称PCA)、线性判别分析(Liner Discriminant Analysis,简称LDA)、局部判别嵌入(Local DiscriminantEmbedding,简称LDE)等可以转化为图学习形式的子空间学习算法。上述这些算法都可以表示为统一的图嵌入框架、最小均方框架及其各类扩展形式。
当前的研究中还存在着以下问题:由于在提取语音情感原始特征时包含了大量的说话人特征,所以不同说话人的存在对语音识别的效果有着较大的影响,尤其是独立于说话人语音情感识别时对系统的影响更为明显。而目前的语音情感识别主要针对不同说话人的情况,所以减轻不同说话人对识别的影响有着重要的意义。在此基础上,大量的研究工作基于经验性的实验结论来去除说话人特征的影响,但这些成果对于不同环境下的自适应性同样不够理想。本发明正是基于这些缺陷,对语音情感识别系统,尤其是独立于说话人条件下的语音情感识别,进行了一系列改进,使其对不同说话人所带来的影响具有一定的鲁棒性。
发明内容
要解决的技术问题:针对现有技术的不足,本发明提出一种基于说话人惩罚的独立于说话人语音情感识别方法,即说话人惩罚图学习(Speaker Penalty Graph Learning,简称SPGL),具体包括线性说话人惩罚图学习算法(简称LSPGL)和核说话人惩罚图学习算法(简称KSPGL),解决现有技术中语音情感特征受不同说话人影响较大;并且存在语音情感的维数较高,不适于特征的压缩、传输,不利于系统的识别性能;同时传统的独立于说话人语音情感识别算法可移植性较差的技术问题。
技术方案:为解决上述技术问题,本发明采用以下技术方案:
一种基于说话人惩罚的独立于说话人语音情感识别方法,将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集,且训练集中任一样本所属的说话人在测试集中不出现,其中每个语音样本均具有语音情感标签信息和说话人标签信息,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
步骤四,基于说话人惩罚的特征维数约简:设经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和说话人标签信息,采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵P,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其中K为训练样本集的Gram阵,选用Gauss核函数;
步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器,每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本
Figure BDA0000473065010000031
的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到
Figure BDA0000473065010000032
经过线性维数约简后的低维样本
Figure BDA0000473065010000033
或经过核方法维数约简后的低维样本PTKi,对于一个测试样本
Figure BDA0000473065010000034
K i = [ K ( x i test , x 1 ) , K ( x i test , x 2 ) , . . . , K ( x i test , x N ) ] T , Gram阵K中的核函数选用步骤四中所述的Gauss核函数;
(2)使用分类器对
Figure BDA0000473065010000036
或PTKi进行分类,选择多类SVM分类器或者1NN分类器进行分类:
利用多类SVM分类器分类的方法为:将每个测试样本的低维样本
Figure BDA0000473065010000037
或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别;
利用1NN分类器分类的方法为:对于每一个测试样本,在全体训练样本中找到与其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类判决结果。
进一步的,在本发明中,步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
进一步的,在本发明中,步骤二中的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为 X ( 0 ) = [ x 1 ( 0 ) , x 2 ( 0 ) , . . . , x N ( 0 ) ] ,
Figure BDA0000473065010000042
Figure BDA0000473065010000043
的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
x · j ( 1 ) = x · j ( 0 ) - min i = 1,2 , . . . , N ( x ij ( 0 ) ) max i = 1,2 , . . . , N ( x ij ( 0 ) ) - min i = 1,2 , . . . , N ( x ij ( 0 ) )
其中
Figure BDA0000473065010000046
表示X(0)第j行中最大的元素,
Figure BDA0000473065010000047
表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集
Figure BDA0000473065010000048
其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X ( 1 ) = [ x 1 ( 1 ) , x 2 ( 1 ) , . . . , x N ( 1 ) ] ,
Figure BDA00004730650100000410
其余为测试样本的语音样本规整化语音情感特征向量。
进一步的,在本发明中,步骤二中所述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量
Figure BDA00004730650100000411
中属于特征j的FDR值的计算公式为:
J ( j ) = Σ l , k = 1 l > k N c ( μ c l j - μ c k j ) 2 δ c l j 2 + δ c k j 2
其中,
Figure BDA0000473065010000052
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,
Figure BDA0000473065010000053
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
具体地,在本发明中,维数约简时根据采用的不同算法,具有不同的维数约简方法,其中,
LSPGL算法的图嵌入的优化形式为:
arg min a a T XLX T a a T XL p X T a , s . t . a T a = 1
其中,
L为本征图的拉普拉斯矩阵且为N×N矩阵,
Figure BDA0000473065010000055
Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,
Figure BDA0000473065010000056
这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且LLDA=DLDA-WLDA,其中N×N对角阵DLDA中第i行j列的元素的形式为 ( D LDA ) ij = Σ k = 1 N ( W LDA ) ik , i = j 0 , i ≠ j , WLDA为线性判别分析的本征图邻接阵,且
Figure BDA0000473065010000058
H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的拉普拉斯矩阵,且
Figure BDA0000473065010000059
其中e为N维列向量,I为N×N的单位阵;
为规范化的说话人本征图的拉普拉斯矩阵:
L ~ is = ( D is ) - 1 2 L is ( D is ) - 1 2 = I - ( D is ) - 1 2 W is ( D is ) - 1 2 ;
这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点度对角阵,且Dis中第i行j列的元素的形式为 D ij is = Σ k = 1 N W ik is , i = j 0 , i ≠ j ; Wis为说话人本征图的邻接阵,且
Figure BDA0000473065010000063
式中
Figure BDA0000473065010000069
表示两个矩阵的对应位置元素相乘的运算符;其中对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;对于N维列向量
Figure BDA00004730650100000610
的任一元素,其对应的训练样本属于说话人cs时该元素为1,否则该元素为0;
Figure BDA0000473065010000064
为规范化的说话人的惩罚图的拉普拉斯矩阵:
L ~ ps = ( D ps ) - 1 2 L ps ( D ps ) - 1 2 = I - ( D ps ) - 1 2 W ps ( D ps ) - 1 2 ;
这里Lps为说话人惩罚图的拉普拉斯矩阵,且Lps=Dps-Wps,其中Dps为Lps的节点度对角阵,且Dps中第i行j列的元素的形式为 D ij ps = Σ k = 1 N W ik ps , i = j 0 , i ≠ j ; Wps为说话人惩罚图的邻接阵,且其中
Figure BDA00004730650100000611
表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的k近邻图的邻接阵,其对应的第i行、第j列元素为: ( W kNN ) ij = 1 , i ∈ N k ( j ) or j ∈ N k ( i ) 0 , otherwise , NK(i)、NK(j)分别表示样本点i、j的k近邻点集,其中k=1,2,3,...;
参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;
n维列向量a为线性投影映射向量,aT为a的转置;
KSPGL算法的图嵌入的优化形式为:
arg min a α T KLKα α T KL p Kα , s . t . α T α = 1
其中,
N维列向量α为核投影映射向量,αT为α的转置;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
L和Lp的含义与LSPGL的图嵌入的优化形式中相同;
本发明中提出的SPGL算法(包括LSPGL和KSPGL)基于说话人标签信息,在语音情感识别研究中表现较好的LDA算法基础上,加入上述权重成分,形成新的嵌入图,其对应的本征图和惩罚图的拉普拉斯阵可以分别表示为:
L = ( 1 - γ 1 ) L LDA + γ 1 L ~ is
L p = ( 1 - γ 2 ) H + γ 2 L ~ ps
其中,图的线性组合系数γ1和γ2,对说话人本征图、惩罚图,与LDA嵌入图之间的关系进行加权,一般组合系数取值的大致范围可以通过经验得到,更精确的取值可由交叉验证得到。
利用广义特征值问题GEP对LSPGL或KSPGL的优化形式进行求解:首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然后求解优化形式:
求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数;
求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α12,...,αm,所述各个求解α12,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射阵m为维数约简后的特征维数。
有益效果:
本发明的独立于说话人语音情感识别方法,通过对语音样本划分为分别来自于不同说话人的训练样本集和测试样本集,对经过预处理的语音信号样本进行原始语音情感特征提取,继而进行特征筛选、维数约简和分类器分类。
由于原始语音情感特征中包含大量的与说话人类别相关的特征,如共振峰、MFCC、基音频率等类别的特征,而在语音情感识别中这些特征可能会对识别系统以及算法的性能产生不利的影响。鉴于此,在训练学习时需要对属于不同情感类别,并属于同一说话人且在其相互近邻域中的语音样本对权重进行一定的增加,可以抑制说话人特征的影响;同时,对于属于同一情感类别且属于不同说话人的语音样本对增加权重,可以突出同一语音情感的共性成分。
因此,本发明中提出的LSPGL算法或KSPGL算法,在维数约简阶段对训练样本使用LDA和说话人嵌入图的线性组合进行最优化运算,实现对独立于说话人语音情感识别中,特征维数约简过程的优化,提高了降维的有效性。
通过实验证明,相比于现有的识别方法,本发明的方法在语音情感特征空间降维过程中增加了降维的有效性,使得独立于说话人语音情感识别系统的识别率性能得到了提升。
附图说明
图1为本发明的流程图;
图2为使用1NN分类器时,Berlin语音情感数据库中,几种使用线性维数约简的识别算法,在使用不同降维维数时LOSO方法识别率的比较;
图3为使用SVM分类器时,Berlin语音情感数据库中,几种使用线性维数约简的识别算法,在使用不同降维维数时LOSO方法识别率的比较;
图4为Berlin语音情感数据库中,几种维数约简算法使用LOSO方法测试,得到的低维情况最优识别率比较;
图5为eNTERFACE’05数据库中语音信号部分,几种维数约简算法使用LOSO方法测试,得到的低维情况最优识别率比较。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,为本发明的流程图。
一种基于说话人惩罚的独立于说话人语音情感识别方法,包括以下步骤:
将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集,且训练集中任一样本所属的说话人在测试集中不出现,其中每个语音样本均具有语音情感标签信息和说话人标签信息,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;所述6大类语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
对上述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;这里规整化的具体处理方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为 X ( 0 ) = [ x 1 ( 0 ) , x 2 ( 0 ) , . . . , x N ( 0 ) ] ,
Figure BDA0000473065010000092
Figure BDA0000473065010000093
的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素
Figure BDA0000473065010000094
的规整化处理的计算公式为:
x · j ( 1 ) = x · j ( 0 ) - min i = 1,2 , . . . , N ( x ij ( 0 ) ) max i = 1,2 , . . . , N ( x ij ( 0 ) ) - min i = 1,2 , . . . , N ( x ij ( 0 ) )
其中
Figure BDA0000473065010000096
表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集
Figure BDA0000473065010000098
其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X ( 1 ) = [ x 1 ( 1 ) , x 2 ( 1 ) , . . . , x N ( 1 ) ] , 其余为测试样本的语音样本规整化语音情感特征向量。
步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;特征筛选的具体方法为:任一语音样本规整化语音情感特征向量
Figure BDA0000473065010000103
中属于特征j的FDR值的计算公式为:
J ( j ) = Σ l , k = 1 l > k N c ( μ c l j - μ c k j ) 2 δ c l j 2 + δ c k j 2
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
Figure BDA0000473065010000107
步骤四,基于说话人惩罚的特征维数约简:设经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和说话人标签信息,采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵P,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其中K为训练样本集的Gram阵,选用Gauss核函数;具体的,
维数约简时,LSPGL算法的图嵌入的优化形式为:
arg min a a T XLX T a a T XL p X T a , s . t . a T a = 1
其中,
L为本征图的拉普拉斯矩阵且为N×N矩阵,
Figure BDA0000473065010000111
Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,
这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且LLDA=DLDA-WLDA,其中N×N对角阵DLDA中第i行j列的元素的形式为 ( D LDA ) ij = Σ k = 1 N ( W LDA ) ik , i = j 0 , i ≠ j , WLDA为线性判别分析的本征图邻接阵,且
Figure BDA0000473065010000114
H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的拉普拉斯矩阵,且
Figure BDA0000473065010000115
其中e为N维列向量,I为N×N的单位阵;
Figure BDA0000473065010000116
为规范化的说话人本征图的拉普拉斯矩阵:
L ~ is = ( D is ) - 1 2 L is ( D is ) - 1 2 = I - ( D is ) - 1 2 W is ( D is ) - 1 2 ;
这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点度对角阵,且Dis中第i行j列的元素的形式为 D ij is = Σ k = 1 N W ik is , i = j 0 , i ≠ j ; Wis为说话人本征图的邻接阵,且其中表示两个矩阵的对应位置元素相乘的运算符;对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;对于N维列向量
Figure BDA00004730650100001110
的任一元素,其对应的训练样本属于说话人cs时该元素为1,否则该元素为0;
Figure BDA00004730650100001111
为规范化的说话人的惩罚图的拉普拉斯矩阵:
L ~ ps = ( D ps ) - 1 2 L ps ( D ps ) - 1 2 = I - ( D ps ) - 1 2 W ps ( D ps ) - 1 2 ;
这里Lps为说话人惩罚图的拉普拉斯矩阵,且Lps=Dps-Wps,其中Dps为Lps的节点度对角阵,且Dps中第i行j列的元素的形式为 D ij ps = Σ k = 1 N W ik ps , i = j 0 , i ≠ j ; Wps为说话人惩罚图的邻接阵,且
Figure BDA0000473065010000123
其中
Figure BDA0000473065010000126
表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的k近邻图的邻接阵,其对应的第i行、第j列元素为: ( W kNN ) ij = 1 , i ∈ N k ( j ) or j ∈ N k ( i ) 0 , otherwise , NK(i)、NK(j)分别表示样本点i、j的k近邻点集,其中k=1,2,3,...;
参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;
n维列向量a为线性投影映射向量,aT为a的转置;
维数约简时,KSPGL算法的图嵌入的优化形式为:
arg min a α T KLK T α α T KL p K α , s . t . α T α = 1
其中,
N维列向量α为核投影映射向量,αT为α的转置;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
L和Lp的含义与LSPGL的图嵌入的优化形式中相同;
上述LSPGL算法或KSPGL算法的优化形式进行求解可以利用广义特征值问题GEP进行:首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然后求解优化形式:
求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数;
求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α12,...,αm,所述各个求解α12,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射阵m为维数约简后的特征维数。
步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器,每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;1NN分类器不需要先训练即可使用,同样是本领域内的现有技术。
步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本
Figure BDA0000473065010000132
的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到
Figure BDA0000473065010000133
经过线性维数约简后的低维样本
Figure BDA0000473065010000134
或经过核方法维数约简后的低维样本PTKi,对于一个测试样本
Figure BDA0000473065010000135
K i = [ K ( x i test , x 1 ) , K ( x i test , x 2 ) , . . . , K ( x i test , x N ) ] T , Gram阵K中的核函数选用步骤四中所述的Gauss核函数;
(2)使用分类器对
Figure BDA0000473065010000137
或PTKi进行分类,选择多类SVM分类器或者1NN分类器进行分类:
利用多类SVM分类器分类的方法为:将每个测试样本的低维样本
Figure BDA0000473065010000138
或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别;
利用1NN分类器分类的方法为:使用全体训练样本,对于每一个测试样本,找到与其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类判决结果。
下面对通过实验的方法将本发明的方法与现有的具有代表性的识别方法包括主成分分析(PCA)、线性判别分析(LDA)、线性判别嵌入(LDE)进行识别率对比。
实验采用Berlin语音情感数据库(EMO-DB)以及eNTERFACE’05数据库的语音部分。
Berlin数据库中包括7类情感:害怕、厌恶、喜悦、厌倦、中性、悲伤、生气。实验者为10个专业演员,包括5男5女,在录制数据库时采用10个不同的德语短句。语音样本的采样频率为16kHz,量化位数为16bit。
eNTERFACE’05数据库中包含有喜悦、悲伤、害怕、厌恶、惊讶、生气等6类情感状态,相比于EMO-DB库,不含有平静、厌倦类别,而有惊讶的情感类别。数据库共有42个说话人,采用英语进行录制,同时获取语音和表情部分的数据,即双模态数据库,这里仅使用语音部分的内容。由于语料库较大,所以实验中选择其中15个说话人所属的样本。相对于广泛使用的EMO-DB库,eNTERFACE’05数据库在语音情感识别方面具有更大的难度。
所述LSPGL、PCA、LDA、LDE等4种算法为采用线性数据映射的降维方法,其中PCA中不含监督信息,LDA、LDE、LSPGL含有监督信息;背景中提到的LLE、Isomap、LPP等算法不含监督信息,其识别率一般情况下均低于含有监督信息的算法,故这里没有针对这些算法做相关实验。PCA和LDA常用于语音情感识别,而LDE已在人脸识别等图像处理领域内得到了应用。
首先,针对独立于说话人语音情感识别的应用需求,使用留一说话人(Leave OneSpeaker Out,简称LOSO)方法,根据每个样本对应的说话人类别(设共有
Figure BDA0000473065010000141
个说话人),将实验数据库划分为包含1个说话人所有样本的测试集,以及包含其他所有
Figure BDA0000473065010000142
个说话人对应样本的训练集。这样,共有
Figure BDA0000473065010000143
个训练、测试样本集的划分方法,取每次划分后的测试样本中识别率的平均值,就得到了最终的实验识别率结果。
具体的,首先比较本发明的方法在不同维度子空间内和其他一些现有算法之间识别率的高低。利用本发明所述LSPGL算法对EMO-DB库中的语音情感样本使用LOSO方法进行识别,得到如图2、图3所示的识别率随约简的维数变化的图像。其中图2为使用1NN分类器时,而图3则为使用多类SVM分类器时的情况。由图2和图3可以看出,在语音情感特征的低维子空间内,相对于其他一些常用的线性映射的子空间学习算法,本发明中所提出的LSPGL算法在使用不同分类器时均可以取得较高的识别率。这里使用的是本发明中的LSPGL算法,由于KSPGL算法是基于LSPGL的算法的基础上,使用了采取核数据映射方式而形成的,理论上会进一步提高了语音情感识别的识别率。
进一步的,加入eNTERFACE’05数据库,并加入采用Gauss核数据映射的KSPGL算法进行比较,重复整个实验过程,得到实验中各算法在低特征维数时的最高识别率及其对应维数,并以“最高识别率/维数”的形式表示,其中因原维数下维数信息恒定,故原特征一行对应的实验结果以“最高识别率/”的形式表示,最终制成表1。
表1
Figure BDA0000473065010000151
由表1和图2、图3可知,LSPGL算法、KSPGL算法在独立于说话人的语音情感识别中相比其他现有采用维数约简的识别方法(PCA、LDA、LDE等),在使用同样分类器(SVM、1NN)的条件下,在不同的语音情感数据库中,都能够取得较优的识别效果,从而更适用于独立于说话人的语音情感识别。
再进一步,在不同的语音情感数据库中,比较不同分类器对识别率的影响。如图4、图5,SVM分类器相比于1NN分类器在大部分情况下都能取得较好的效果,但SVM分类器迭代过程中所需的计算量较大,尤其是类数较多时。而1NN分类器则性能较低,较大程度上依赖于维数约简模块的性能,但所需计算量较小。使用不同分类器时需要综合各方面进行考虑。
综上所述,本发明中所采用的SPGL算法能够使用说话人惩罚信息,有效地提高语音情感识别效果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于说话人惩罚的独立于说话人语音情感识别方法,其特征在于:
将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集,且训练集中任一样本所属的说话人在测试集中不出现,其中每个语音样本均具有语音情感标签信息和说话人标签信息,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
步骤四,基于说话人惩罚的特征维数约简:经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和说话人标签信息,采用LSPGL算法或KSPGL算法对X进行维数约简训练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵Ρ,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其中K为训练样本集的Gram阵,选用Gauss核函数;
步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器,每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本
Figure FDA0000473065000000011
的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到
Figure FDA0000473065000000012
经过线性维数约简后的低维样本
Figure FDA0000473065000000013
或经过核方法维数约简后的低维样本PTKi,对于一个测试样本
Figure FDA0000473065000000014
K i = [ K ( x i test , x 1 ) , K ( x i test , x 2 ) , . . . , K ( x i test , x N ) ] T , Gram阵K中的核函数选用步骤四中所述的Gauss核函数;
(2)使用分类器对
Figure FDA0000473065000000021
或PTKi进行分类,选择多类SVM分类器或者1NN分类器进行分类:
利用多类SVM分类器分类的方法为:将每个测试样本的低维样本
Figure FDA0000473065000000022
或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别;
利用1NN分类器分类的方法为:对于每一个测试样本,在全体训练样本中找到与其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类判决结果。
2.根据权利要求1所述的一种基于说话人惩罚的独立于说话人语音情感识别方法,其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
3.根据权利要求1所述的一种基于说话人惩罚的独立于说话人语音情感识别方法,其特征在于:步骤二中的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为 X ( 0 ) = [ x 1 ( 0 ) , x 2 ( 0 ) , . . . , x N ( 0 ) ] ,
Figure FDA0000473065000000032
Figure FDA0000473065000000033
的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素
Figure FDA0000473065000000034
的规整化处理的计算公式为:
x · j ( 1 ) = x · j ( 0 ) - min i = 1,2 , . . . , N ( x ij ( 0 ) ) max i = 1,2 , . . . , N ( x ij ( 0 ) ) - min i = 1,2 , . . . , N ( x ij ( 0 ) )
其中
Figure FDA0000473065000000036
表示X(0)第j行中最大的元素,
Figure FDA0000473065000000037
表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集
Figure FDA0000473065000000038
其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X ( 1 ) = [ x 1 ( 1 ) , x 2 ( 1 ) , . . . , x N ( 1 ) ] ,
Figure FDA00004730650000000310
其余为测试样本的语音样本规整化语音情感特征向量。
4.根据权利要求3所述的一种基于说话人惩罚的独立于说话人语音情感识别方法,其特征在于:步骤二中所述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量
Figure FDA00004730650000000311
中属于特征j的FDR值的计算公式为:
J ( j ) = Σ l , k = 1 l > k N c ( μ c l j - μ c k j ) 2 δ c l j 2 + δ c k j 2
其中,
Figure FDA00004730650000000313
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,
Figure FDA00004730650000000314
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
Figure FDA00004730650000000315
5.根据权利要求1所述的一种基于说话人惩罚的独立于说话人语音情感识别方法,其特征在于:
维数约简时,LSPGL算法的图嵌入的优化形式为:
arg min a a T XLX T a a T XL p X T a , s . t . a T a = 1
其中,
L为本征图的拉普拉斯矩阵且为N×N矩阵,
Figure FDA0000473065000000042
Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,
Figure FDA0000473065000000043
这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且
Figure FDA0000473065000000044
其中N×N对角阵DLDA中第i行j列的元素的形式为 ( D LDA ) ij = Σ k = 1 N ( W LDA ) ik , i = j 0 , i ≠ j , WLDA为线性判别分析的本征图邻接阵,且
Figure FDA0000473065000000046
H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的拉普拉斯矩阵,且
Figure FDA0000473065000000047
其中e为N维列向量,I为N×N的单位阵;
Figure FDA0000473065000000048
为规范化的说话人本征图的拉普拉斯矩阵:
L ~ is = ( D is ) - 1 2 L is ( D is ) - 1 2 = I - ( D is ) - 1 2 W is ( D is ) - 1 2 ;
这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点度对角阵,且Dis中第i行j列的元素的形式为 D ij is = Σ k = 1 N W ik is , i = j 0 , i ≠ j ; Wis为说话人本征图的邻接阵,且
Figure FDA00004730650000000411
其中表示两个矩阵的对应位置元素相乘的运算符;对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;对于N维列向量的任一元素,其对应的训练样本属于说话人cs时该元素为1,否则该元素为0;
Figure FDA0000473065000000052
为规范化的说话人的惩罚图的拉普拉斯矩阵:
L ~ ps = ( D ps ) - 1 2 L ps ( D ps ) - 1 2 = I - ( D ps ) - 1 2 W ps ( D ps ) - 1 2 ;
这里Lps为说话人惩罚图的拉普拉斯矩阵,且
Figure FDA0000473065000000054
其中Dps为Lps的节点度对角阵,且Dps中第i行j列的元素的形式为 D ij ps = Σ k = 1 N W ik ps , i = j 0 , i ≠ j ; Wps为说话人惩罚图的邻接阵,且其中
Figure FDA0000473065000000059
表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的k近邻图的邻接阵,其对应的第i行、第j列元素为: ( W kNN ) ij = 1 , i ∈ N k ( j ) or j ∈ N k ( i ) 0 , otherwise , NK(i)、NK(j)分别表示样本点i、j的k近邻点集,其中k=1,2,3,...;
参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;
n维列向量a为线性投影映射向量,aT为a的转置;
维数约简时,KSPGL算法的图嵌入的优化形式为:
arg min a α T KLKα α T KL p Kα , s . t . α T α = 1
其中,
N维列向量α为核投影映射向量,αT为α的转置;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
L和Lp的含义与LSPGL的图嵌入的优化形式中相同;
利用广义特征值问题GEP对LSPGL或KSPGL的优化形式进行求解:首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然后求解优化形式:
求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数;
求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α12,...,αm,所述各个求解α12,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射阵
Figure FDA0000473065000000061
m为维数约简后的特征维数。
CN201410078383.4A 2014-03-05 2014-03-05 一种基于说话人惩罚的独立于说话人语音情感识别方法 Active CN103854645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410078383.4A CN103854645B (zh) 2014-03-05 2014-03-05 一种基于说话人惩罚的独立于说话人语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410078383.4A CN103854645B (zh) 2014-03-05 2014-03-05 一种基于说话人惩罚的独立于说话人语音情感识别方法

Publications (2)

Publication Number Publication Date
CN103854645A true CN103854645A (zh) 2014-06-11
CN103854645B CN103854645B (zh) 2016-08-24

Family

ID=50862216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410078383.4A Active CN103854645B (zh) 2014-03-05 2014-03-05 一种基于说话人惩罚的独立于说话人语音情感识别方法

Country Status (1)

Country Link
CN (1) CN103854645B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156628A (zh) * 2014-08-29 2014-11-19 东南大学 一种基于多核学习判别分析的舰船辐射信号识别方法
CN105070300A (zh) * 2015-08-12 2015-11-18 东南大学 一种基于说话人标准化变换的语音情感特征选择方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法
CN105609116A (zh) * 2015-12-23 2016-05-25 东南大学 一种语音情感维度区域的自动识别方法
CN106920558A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 关键词识别方法及装置
CN107341474A (zh) * 2017-07-06 2017-11-10 淮海工学院 一种基于扩散映射的侧扫声呐图像目标非监督探测方法
CN107886942A (zh) * 2017-10-31 2018-04-06 东南大学 一种基于局部惩罚随机谱回归的语音信号情感识别方法
CN108010516A (zh) * 2017-12-04 2018-05-08 广州势必可赢网络科技有限公司 一种语义独立的语音情绪特征识别方法及装置
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN110120231A (zh) * 2019-05-15 2019-08-13 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110929801A (zh) * 2019-12-02 2020-03-27 武汉大学 一种基于改进的Euclid距离KNN分类方法和系统
CN111027609A (zh) * 2019-12-02 2020-04-17 武汉大学 一种图像数据加权分类方法和系统
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN111833887A (zh) * 2020-07-14 2020-10-27 山东理工大学 一种基于局部保持判别投影的说话人确认方法
CN112861984A (zh) * 2021-02-25 2021-05-28 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN113409821A (zh) * 2021-05-27 2021-09-17 南京邮电大学 一种语音信号未知情绪状态识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154076A1 (en) * 2002-02-13 2003-08-14 Thomas Kemp Method for recognizing speech/speaker using emotional change to govern unsupervised adaptation
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
CN102663432A (zh) * 2012-04-18 2012-09-12 电子科技大学 结合支持向量机二次识别的模糊核聚类语音情感识别方法
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154076A1 (en) * 2002-02-13 2003-08-14 Thomas Kemp Method for recognizing speech/speaker using emotional change to govern unsupervised adaptation
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
CN102663432A (zh) * 2012-04-18 2012-09-12 电子科技大学 结合支持向量机二次识别的模糊核聚类语音情感识别方法
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
夏淑兰 等: "基于模糊核判别分析的语音情感识别", 《科学技术与工程》 *
黄程韦 等: "基于特征空间分解与融合的语音情感识别", 《信号处理》 *
黄程韦 等: "实用语音情感的特征分析与识别的研究", 《电子与信息学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156628B (zh) * 2014-08-29 2017-05-31 东南大学 一种基于多核学习判别分析的舰船辐射信号识别方法
CN104156628A (zh) * 2014-08-29 2014-11-19 东南大学 一种基于多核学习判别分析的舰船辐射信号识别方法
CN105070300A (zh) * 2015-08-12 2015-11-18 东南大学 一种基于说话人标准化变换的语音情感特征选择方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法
CN105609116B (zh) * 2015-12-23 2019-03-05 东南大学 一种语音情感维度区域的自动识别方法
CN105609116A (zh) * 2015-12-23 2016-05-25 东南大学 一种语音情感维度区域的自动识别方法
CN106920558A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 关键词识别方法及装置
CN107341474A (zh) * 2017-07-06 2017-11-10 淮海工学院 一种基于扩散映射的侧扫声呐图像目标非监督探测方法
CN107886942B (zh) * 2017-10-31 2021-09-28 东南大学 一种基于局部惩罚随机谱回归的语音信号情感识别方法
CN107886942A (zh) * 2017-10-31 2018-04-06 东南大学 一种基于局部惩罚随机谱回归的语音信号情感识别方法
CN108010516A (zh) * 2017-12-04 2018-05-08 广州势必可赢网络科技有限公司 一种语义独立的语音情绪特征识别方法及装置
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN110120231B (zh) * 2019-05-15 2021-04-02 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110120231A (zh) * 2019-05-15 2019-08-13 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN111027609A (zh) * 2019-12-02 2020-04-17 武汉大学 一种图像数据加权分类方法和系统
CN110929801A (zh) * 2019-12-02 2020-03-27 武汉大学 一种基于改进的Euclid距离KNN分类方法和系统
CN111027609B (zh) * 2019-12-02 2022-06-03 武汉大学 一种图像数据加权分类方法和系统
CN111833887A (zh) * 2020-07-14 2020-10-27 山东理工大学 一种基于局部保持判别投影的说话人确认方法
CN112861984A (zh) * 2021-02-25 2021-05-28 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN112861984B (zh) * 2021-02-25 2022-07-01 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN113409821A (zh) * 2021-05-27 2021-09-17 南京邮电大学 一种语音信号未知情绪状态识别方法

Also Published As

Publication number Publication date
CN103854645B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN103854645B (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN103544963B (zh) 一种基于核半监督判别分析的语音情感识别方法
CN106503805B (zh) 一种基于机器学习的双模态人人对话情感分析方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN112562741B (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN111210846B (zh) 基于集成流形降维的帕金森语音识别系统
CN103531198B (zh) 一种基于伪说话人聚类的语音情感特征规整化方法
CN105261367B (zh) 一种说话人识别方法
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN102156885A (zh) 基于级联式码本生成的图像分类方法
Sarkar et al. Time-contrastive learning based deep bottleneck features for text-dependent speaker verification
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN110289002A (zh) 一种端到端的说话人聚类方法及系统
CN110211595A (zh) 一种基于深度学习的说话人聚类系统
CN109448756A (zh) 一种语音年龄识别方法及系统
CN104077598A (zh) 一种基于语音模糊聚类的情感识别方法
CN111584069B (zh) 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN109271513A (zh) 一种文本分类方法、计算机可读储存介质及系统
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN103258536B (zh) 一种大规模说话人辨认方法
Iqbal et al. Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets
CN111462755A (zh) 信息提示方法、装置、电子设备及介质
US7263486B1 (en) Active learning for spoken language understanding
Li et al. Speech emotion recognition based on residual neural network with different classifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant