CN101894550A - 基于情感对特征优化的语音情感分类方法 - Google Patents

基于情感对特征优化的语音情感分类方法 Download PDF

Info

Publication number
CN101894550A
CN101894550A CN2010102305148A CN201010230514A CN101894550A CN 101894550 A CN101894550 A CN 101894550A CN 2010102305148 A CN2010102305148 A CN 2010102305148A CN 201010230514 A CN201010230514 A CN 201010230514A CN 101894550 A CN101894550 A CN 101894550A
Authority
CN
China
Prior art keywords
mrow
emotion
msub
lambda
classifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102305148A
Other languages
English (en)
Inventor
赵力
黄程韦
邹采荣
余华
王开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN2010102305148A priority Critical patent/CN101894550A/zh
Publication of CN101894550A publication Critical patent/CN101894550A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种基于情感对特征优化的语音情感分类方法,包括如下步骤:(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;(2)语音情感特征提取;(3)情感对的配对;(4)特征压缩与特征选择:(4-1)线性判别分析(LDA)降维;使用每个情感对各自的投影向量,分别进行各自的LDA变换;(4-2)基于fisher判别准则的特征选择方法;(5)基于两类分类器组的判决融合:(5-1)记输入的情感语音数据(5-2)两类分类器的判决输出Ci,j;(5-3)每个两类分类器的置信度wi,j,用式(3)来得到:(5-4)用相关译码的方法来进行判决:最大的相关值对应的情感类别,即为识别结果。

Description

基于情感对特征优化的语音情感分类方法
技术领域
本发明涉及一种语音识别方法,特别涉及一种基于情感对特征优化的自动语音情感识别方法。
背景技术
语音情感识别是从语音信号中识别出说话人的情感状态。一般的语音情感分类器,可以在一定程度上区分喜悦、愤怒、惊讶、悲伤、恐惧等基本情感类别。建立一个语音情感分类器,首先需要确定待识别的情感类别,建立相应的情感语料库,然后根据情感语料库中的语音数据,寻找合适的语音情感特征,通常是依据基音、短时能量、共振峰等参数构造的声学特征,最后采用统计的方法建立语音情感模型。其中语音情感特征的优劣对分类器的性能具有关键的影响。
语音情感分类器的性能,一般包括以下几个方面,所识别的情感类别范围与识别率、适用的说话人群体、对文本内容的依赖程度以及跨语种性能等。其中,识别率是最常用的衡量分类器性能优劣的指标,通常,所能识别的情感类别越多,平均识别率就越低。
语音情感特征的优化是设计分类器的一个关键部分。目前,一般的做法是首先提取基本的声学参数,在基本声学参数的基础上构造大量的情感特征,然后通过特征选择算法得到维数较少的最佳特征组。
在语音情感的特征优化中存在的一个问题是,一般的语音情感分类器采用单一的一组最佳特征来进行全部情感类别的分类,使用这一组情感特征并不能达到对任意两个情感类别之间的最优区分。例如,选择一组特征最优的区分A、B、C、D、E五类语音情感,但是这一组特征往往不能使A与B之间的误识别率在最优化的意义上降到最低。
发明内容
本发明目的是针对现有技术存在的缺陷提供一种基于情感对特征优化的语音情感分类方法。
本发明为实现上述目的,采用如下技术方案:
本发明基于情感对特征优化的语音情感分类方法,包括如下步骤:
(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;
(2)语音情感特征提取;
(3)情感对的配对;
(4)特征压缩与特征选择:
(4-1)线性判别分析(LDA)降维,分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量;使用每个情感对各自的投影向量,分别进行各自的LDA变换;
(4-2)基于fisher判别准则的特征选择方法
Fisher判别准则如式(1)所示:
f ( d ) = ( μ 1 d - μ 2 d ) 2 σ 1 d 2 + σ 2 d 2 - - - ( 1 )
其中μ1d、μ2d为第d个维度两个类别的特征值的均值,
Figure BSA00000196124200022
Figure BSA00000196124200023
为第d个维度两个类别的特征值的方差;
(5)基于两类分类器组的判决融合:
(5-1)记输入的情感语音数据,经过步骤(4)特征选择后构成待识别的样本矢量为X,一个两类分类器识别的情感为第i个情感与第j个情感,则通过GMM模型得到的GMM似然度为,P(X|λi),P(X|λi),其中λi,λj为两种情感的GMM模型的参数;
(5-2)两类分类器的判决输出Ci,j为:
C i , j = i , P ( X | λ i ) ≥ P ( X | λ j ) j , P ( X | λ i ) ≤ P ( X | λ j ) - - - ( 2 )
(5-3)每个两类分类器的置信度wi,j,用式(3)来得到:
w i , j = 2 × | ln ( P ( X | λ i ) ) - ln ( P ( X | λ j ) ) | | ln ( P ( X | λ i ) ) + ln ( P ( X | λ j ) ) | - - - ( 3 )
(5-4)用相关译码的方法来进行判决,即:
每个两类分类器的输出值构成列向量C,设定的情感码字记为矩阵Im×n,m为分类器的个数,n为情感类别数。输出值与码字间的距离即为相关值ri,i=1,2,…n,通过式(4)得到,
RT=CT·Im×n         (4)
其中,R={r1,r2,…,rn},每个分量与一种情感对应。
最大的相关值对应的情感类别,即为识别结果,
i*=arg max{ri}       (5)
i*表示识别出的情感类别的标号。
本发明的优点和效果在于:
(1)能够将任意两个情感类别之间的识别错误率在最优化的意义上降到最低。
(2)能够获得每两个情感类别之间的最佳特征组。
(3)能够获得每两个情感类别之间的最佳特征空间。
(4)将两类分类器组的输出通过相关译码的方法进行融合判决以实现多类别的识别。
(5)识别系统整体的识别率显著高于传统方法。
附图说明
图1——语音情感识别系统框图。
图2——情感对分组的LDA降维优化效果图。
图3——分类器组的判决融合框图。
图4——LDA方法的错误率的下降幅度图。
图5——最佳特征组方法的错误率的下降幅度图。
具体实施方式
本发明中的语音情感识别系统框图如图1所示。
1.语音情感数据库
(1)在所分析的情感种类上,本发明选取分析了喜、怒、惊、悲,和平静五种基本的情感状态。
(2)本发明中使用的中文语音情感库,是通过表演语音(Acted Speech)的方法得到的。语句材料的录制是由具有表演或广播经验的人(三男三女,年龄在20-30岁之间,近期无感冒,普通话标准)来录音。录音时在安静的录音室内进行。录音时选用AKGWMS300的录音设备和话筒,Creative的声卡,Cool Edit录音软件来录音。录音时采用单声道,16bit量化,11.025kHz的采样率。语句存为WAV格式。
(3)语句资料的选取上,遵循两条原则:1、所选取的语句不包含某一方面的情感倾向;2、语句必须具有较高的情感自由度,对同一语句可以施加不同的情感。为了保证录制的情感语料的质量,进行了主观听辨评价,选取了置信度85%以上的语句,男性1410条,女性1429条。
2.语音情感特征提取
用于识别和建模的特征向量一般有两种构造方法,全局统计特征和短时动态特征。由于动态特征对音位信息的依赖性较强,而全局统计特征受到文本内容的影响较小,采用全局统计特征易于建立与文本无关的情感识别系统,在本发明中选用了84个全局统计特征,如下所示:
特征1-10:短时能量及其差分的均值、最大值、最小值、中值、方差;
特征11-25:基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差;特征26:基音范围;
特征27-36:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数;
特征37-66:第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差;
特征67-69:250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比。
特征70-84:0-400Hz、400-2000Hz、2000-5000Hz三个频段中的谐波噪声比的均值、最大值、最小值、中值、方差。
其中,在构造频谱能量的分频段特征时,未采用650Hz-4kHz内的能量百分比,虽然这个频段涉及第一共振峰和几乎全部的第二共振峰,但是此频段的能量受到文本内容变化的影响较大,主要随着音位信息的变化而变化。
采用了4kHz以上频谱能量特征,根据Pittam等人的研究结果显示,这一部分频段能量的增加能反映激励程度的提高,可用于区分悲伤与愤怒等。
谐波噪声比以往常用于诊断喉部疾病,是衡量说话人嗓音沙哑程度的一个特征。Biemans将谐波噪声比作为音质特征用于评价语音的音质,考虑基频与各个共振峰的分布,本发明中采用Biemans的三个频段的划分方法提取语音情感的谐波噪声比特征。
3.情感对的配对
在本发明中对五种情感类别(喜、怒、惊、悲、平静),分别两两进行特征降维优化和最佳特征组选择。将这五个类别两两组合可以分成为10个情感对,如表1所示。对每个情感对的特征压缩与特征选择,对应了一个两类分类器。
表1情感对的十种组合
Figure BSA00000196124200051
4.特征压缩与特征选择
可以采用两种方法对特征空间进行优化,一是线性判别分析(LDA)降维方法,二是基于fisher判别准则的特征选择方法。
(1)LDA变换通过一个投影变换来进行特征空间的优化,显然,这个投影向量的求解是关键的。识别五种情感类别,传统的做法是通过这五个类别的类内、类间离散度矩阵来求解投影向量。而本发明将通过对每个情感对分别设计各自的优化的特征空间来提高识别性能。因此,下面在求解LDA的投影向量时,将这五个类别分组成的10个情感对,分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量。
LDA变换将高维的特征空间投影变换为c-1维的特征空间,c为类别数,对于上文中的情感对,类别数c=2。使用每个情感对各自的投影向量,分别进行各自的LDA变换后,每个情感对的样本在各自的优化的特征空间中的分布密度如图2所示,横轴表示投影后的特征空间,纵轴表示样本分布密度。图中的实线与情感对中前一个情感对应,虚线与情感对中后一个情感对应。可以看到十个情感对各自都达到了较好的可分度。
(2)对提取的84个特征进行特征选择,本发明中选用特征的均值和方差两个方面来做为评价特征优劣的准则。对第d个维度,Fisher判别准则可以用式(1)来表示:
f ( d ) = ( μ 1 d - μ 2 d ) 2 σ 1 d 2 + σ 2 d 2 - - - ( 1 )
其中μ1d、μ2d为第d个维度两个类别的特征值的均值,
Figure BSA00000196124200062
Figure BSA00000196124200063
为第d个维度两个类别的特征值的方差。Fisher判别准则越大,表明该特征对区分这两种类别效果越好。对于多类的情况,式(1)可以改写为:
f ( d ) = 1 C m 2 &Sigma; 0 < i < j < m ( &mu; id - &mu; jd ) 2 &sigma; id 2 + &sigma; jd 2 - - - ( 2 )
其中m为类别的总数。根据Fisher判别准则,对十个情感对选择出的前十个最佳特征如表2所示。
表2
Figure BSA00000196124200065
Figure BSA00000196124200071
5.基于两类分类器组的判决融合
对上面的十个情感对及各自优化得到的十个特征空间,分别设计和使用十个两类分类器,对这组两类分类器进行输出融合,将各个部分重新组成一个整体,完成对五种语音情感的识别。因此,下面通过两类分类器组的输出判决融合来取代单个多类分类器进行语音情感识别。本发明中采用高斯混合模型(Gaussian Mixture Model,GMM)对每种情感的概率分布进行建模,采用贝叶斯分类器来实现上文中的每个两类分类器,来识别图2中的每对语音情感对。
记输入的情感语音样本,经过特征提取后构成待识别的样本矢量为X,一个两类分类器识别的情感为第i个情感与第j个情感,则通过GMM模型得到的GMM似然度为,P(X|λi),P(X|λi),其中λi,λj为通过EM(Expectation Maximization)算法训练得到的两种情感的GMM模型的参数。则两类分类器的判决输出Ci,j可表示为,
C i , j = i , P ( X | &lambda; i ) &GreaterEqual; P ( X | &lambda; j ) j , P ( X | &lambda; i ) &le; P ( X | &lambda; j ) - - - ( 3 )
在本发明多分类器的判决融合中,首先对每个子分类器的输出置信度进行评价,然后通过一定的融合算法进行判决融合,计算出最终的识别结果。贝叶斯分类器的错误概率(或正确率)有多种计算方法,通常是计算图3中相应的样本分布曲线的积分。这种方法是计算的平均意义上的错误概率,本发明中考虑采用一种样本自适应的方法,来计算对于每个样本的判决的置信度。贝叶斯分类器中,当样本处于后验概率密度分布曲线的重叠区域时,分类器可能发生错判,发生错判的可能性可以用当前样本的后验概率的差来度量,进入分类器的样本属于不同类别的后验概率相差越大,误判的可能性就越小。样本处于重叠区域的可能性的度量,作为每个两类分类器的置信度wi,j,可以用式(4)来得到。
w i , j = 2 &times; | ln ( P ( X | &lambda; i ) ) - ln ( P ( X | &lambda; j ) ) | | ln ( P ( X | &lambda; i ) ) + ln ( P ( X | &lambda; j ) ) | - - - ( 4 )
当分类器判决越可靠时,差值越大,wi,j越大,反之当wi,j越小时,说明样本距离重叠区域越近,分类可靠性越差。
得到了分类器的置信度wi,j,据此作为融合权值将分类器的输出定义为,
Ci,j *=wi,j·I,I=+1,-1    (5)
其中I是两类分类的判决,我们令I=+1表示判断为两类分类中的第一个类别,I=-1表示判断为另一图3个类别。
为了进行判决融合,下面将这组分类器的输出构成一个超矢量,用相关译码的方法来进行判决,如所示。
在理想的情况下,判决置信度wi,j为1,此时得到的输出值Ci,j *=I当待识别样本不属于两类分类器所能识别的两个类别时,输出值给出的信息不偏向于任何一个类别,置为零。以此理想情况得到的输出值作为当前类别的码字,如表3所示。
表3
  分类器   喜   怒   惊   悲   平静
  喜/怒   +1   -1   0   0   0
  喜/惊   +1   0   -1   0   0
  喜/悲   +1   0   0   -1   0
  喜/平静   +1   0   0   0   1
  怒/惊   0   +1   -1   0   0
  怒/悲   0   +1   0   -1   0
  怒/平静   0   +1   0   0   -1
  惊/悲   0   0   +1   -1   0
  惊/平静   0   0   +1   0   -1
  悲/平静   0   0   0   +1   -1
在实际情况下,输出值Ci,j *=wi,j·I,围绕在理想值(码字)的周围,可根据实际输出值与码字的距离进行译码。相关译码器的作用即是通过相关运算来衡量实际值与理想值之间的接近程度,最大的相关值对应的情感类别,即为识别结果,
i*=arg max{ri}          (6)
i*表示识别出的情感类别的标号,ri为相关值,通过式(7)得到,
RT=CT·Im×n            (7)
其中,
R={r1,r2,…,rn}      (8)
C是每个分类器输出值构成的列向量,Im×n是图6中码字构成的矩阵,m为分类器的个数,n为情感类别数。
6.系统识别率测试
为了验证本发明中分解优化的方法相对于单个多类分类器的性能的提高,进行了两组对比实验。第一组实验中,采用LDA降维的方法,用高斯混合模型(GMM)拟合情感类别的概率分布,分别用单个分类器和本发明中的两类分类器组,识别五种情感。第二组实验中,采用特征选择的方法进行降维,选出前十个最佳特征,仍然用GMM拟合情感类别的概率分布,分别用单个分类器和本发明中的两类分类器组识别五种情感。
用于训练的样本集,包括3名男性与3名女性的情感语料,针对15条不同的文本短句进行5种情感表演的朗读,包括了每条语句的3到4遍的重复录音,共243×5条,每种情感共243条,用于说话人无关、文本无关的情感识别训练。选用与训练样本不同的情感语料作为识别率测试的样本集,包括了同样的3名男性与3名女性对同样的15条文本短句的情感表演语料,共85×5条,每种情感85条。在对比实验中,每种识别方法的训练与测试,采用相同的训练样本集和相同的测试样本集。
(1)第一组对比实验
采用单个多类分类器,LDA降维后,特征空间维度为4(因为待识别样本为5),采用GMM建模与识别,经实验观察,GMM混合度为9时识别率最高,识别结果如表4所示。
表4
Figure BSA00000196124200101
采用本发明中的两类分类器组,对每个情感对进行LDA降维后,特征空间维度为1。实验中观察到每个两类分类器的最佳识别的GMM混合度如表5所示。
表5
Figure BSA00000196124200102
Figure BSA00000196124200111
进行两类分类器组的置信度相关译码融合后,对五种情感的识别测试结果如表6所示。
表6
Figure BSA00000196124200112
在第一组对比实验结果中我们可以观察到正确识别率有了明显的提升,“喜”、“怒”、“惊”、“悲”和“平静”的正确识别率分别提升了6.2个百分点、8.2个百分点、11.2个百分点、8.1个百分点和9.3个百分点。其中对“惊”的正确识别率的提升最高,达到了十个百分点以上,这反映出了在单个多类分类器中对“惊”的情感特征的优化选取的不足。由于特征空间的降维优化是以区分5种情感为准则的,因此在同一个特征空间中,就很难兼顾到所有5种情感类别的最佳情感特征,这也就造成了对“惊”的情感特征的优化的不理想,同时这也就说明了情感特征的优化还有一段提升的空间。因此在两类分类器组中,对每个情感对都进行各自的特征空间优化,将“惊”同其余4中类别分别进行特征的降维优化,以两两之间的最佳区分为准则进行,提升了优化的效果。具体的分析,在实验中“惊”与“喜”之间容易发生错误识别,采用了本发明中的方法后,“惊”误识为“喜”的误识率下降了7.1个百分点,“喜”误识为“惊”的误识率下降了1.7个百分点。在其余的情感类别之间,也观察到了类似的特征优化带来的效果。在图4中,显示了错误率的下降幅度,对每种情感类别的漏识率(第一类错误率)和误识率(第二类错误率)进行了总结。
(2)第二组对比实验
通过特征选择进行降维,根据fisher判别准则选择最佳的十个特征,如表7所示。
表7
Figure BSA00000196124200121
单个多类分类器在GMM混合度为7时识别率最高,识别结果如表8所示。
表8
Figure BSA00000196124200122
测试本发明中的两类分类器组识别效果,每个情感对的最佳特征选择组如表2所示,依据分类器的平均识别错误率,每个两类分类器各自的最佳GMM混合度如表9所示。使用各自最佳的GMM混合度,两类分类器组的置信度相关译码融合后的识别测试结果如表10所示。
表9
Figure BSA00000196124200123
Figure BSA00000196124200131
表10
Figure BSA00000196124200132
在第二组对比实验结果中我们观察到,与第一组对比实验一样,每个情感类别的识别率都得到了一定的提升。“喜”、“怒”、“惊”、“悲”和“平静”的正确识别率分别提升了8.7个百分点、9.9个百分点、9.0个百分点、7.7个百分点和10.6个百分点,其中“平静”的识别率提升最显著,到达了十个百分点以上。这表明了本发明中的方法选择出了更加合理的最佳特征组,达到了识别效果的明显提升。在传统的单个多类分类器中5种情感类别的最佳特征选取,只能在单个特征空间中进行,需要兼顾到5类不同的类别,因而不能达到类别两两最佳识别意义下的优化。而在两类分类器组的10个特征空间中,分别对每个情感对进行了最佳特征组的选择,获得了10组最佳特征(如表2所示)用于情感类别的两两最佳识别,从而达到了特征的更合理的优化,提高了识别效果。例如“平静”与“喜”容易发生混淆,在第二组实验结果中我们观察到,“平静”误判为“喜”的错误率下降了3.6个百分点,“喜”误判为“平静”的错误率下降了3.1个百分点,错误率的下降,是由于在“喜”和“平静”的两类分类器中优化选取了最适合区分“平静”与“喜”的最佳特征组。根据实验数据,在其它的情感类别之间,也同样观察到了类似的错误率的下降。图5中总结和显示了5种情感类别的第一类错误率和第二类错误率的下降幅度。
总的来说本发明的对多类分类器分解并优化的方法,能够明显提高识别率,第一组实验中平均识别率提高了8.6个百分点,第二组实验中平均识别率提高了9.2个百分点。这是由于本发明中的两类分类器组能对于不同的情感对,进行各自最优的特征降维和特征选择,充分利用了适合各个情感对的不同的最优特征。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (1)

1.一种基于情感对特征优化的语音情感分类方法,包括如下步骤:
(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;
(2)语音情感特征提取;
(3)情感对的配对;
其特征在于还包括如下步骤:
(4)特征压缩与特征选择:
(4-1)线性判别分析(LDA)降维,分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量;使用每个情感对各自的投影向量,分别进行各自的LDA变换;
(4-2)基于fisher判别准则的特征选择方法
Fisher判别准则如式(1)所示:
f ( d ) = ( &mu; 1 d - &mu; 2 d ) 2 &sigma; 1 d 2 + &sigma; 2 d 2 - - - ( 1 )
其中μ1d、μ2d为第d个维度两个类别的特征值的均值,
Figure FSA00000196124100012
Figure FSA00000196124100013
为第d个维度两个类别的特征值的方差;
(5)基于两类分类器组的判决融合:
(5-1)记输入的情感语音数据,经过步骤(4)特征选择后构成待识别的样本矢量为X,一个两类分类器识别的情感为第i个情感与第j个情感,则通过GMM模型得到的GMM似然度为,P(X|λi),P(X|λi),其中λi,λj为两种情感的GMM模型的参数;
(5-2)两类分类器的判决输出Ci,j为:
C i , j = i P ( X | &lambda; i ) &GreaterEqual; P ( X | &lambda; j ) j , P ( X | &lambda; i ) &le; P ( X | &lambda; j ) - - - ( 2 )
(5-3)每个两类分类器的置信度wi,j,用式(3)来得到:
w i , j = 2 &times; | ln ( P ( X | &lambda; i ) ) - ln ( P ( X | &lambda; j ) ) ln ( P ( X | &lambda; i ) ) + ln ( P ( X | &lambda; j ) ) - - - ( 3 )
(5-4)用相关译码的方法来进行判决:即:
每个两类分类器的输出值构成列向量C,设定的情感码字记为矩阵Im×n,m为分类器的个数,n为情感类别数。输出值与码字间的距离即为相关值ri,i=1,2,…n,通过式(4)得到,
RT=CT·Im×n         (4)
其中,R={r1,r2,…,rn},每个分量与一种情感对应。
最大的相关值对应的情感类别,即为识别结果,
i*=arg max{ri}       (5)
i*表示识别出的情感类别的标号。
CN2010102305148A 2010-07-19 2010-07-19 基于情感对特征优化的语音情感分类方法 Pending CN101894550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102305148A CN101894550A (zh) 2010-07-19 2010-07-19 基于情感对特征优化的语音情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102305148A CN101894550A (zh) 2010-07-19 2010-07-19 基于情感对特征优化的语音情感分类方法

Publications (1)

Publication Number Publication Date
CN101894550A true CN101894550A (zh) 2010-11-24

Family

ID=43103721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102305148A Pending CN101894550A (zh) 2010-07-19 2010-07-19 基于情感对特征优化的语音情感分类方法

Country Status (1)

Country Link
CN (1) CN101894550A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332263A (zh) * 2011-09-23 2012-01-25 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103366760A (zh) * 2012-03-26 2013-10-23 联想(北京)有限公司 一种数据处理方法、装置及系统
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
CN103531208A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于短时记忆权重融合的航天应激情感识别方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104700829A (zh) * 2015-03-30 2015-06-10 中南民族大学 动物声音情绪识别系统及其方法
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
CN105810199A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种说话人的身份确认方法和装置
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN107305773A (zh) * 2016-04-15 2017-10-31 美特科技(苏州)有限公司 语音情绪辨识方法
CN107945790A (zh) * 2018-01-03 2018-04-20 京东方科技集团股份有限公司 一种情感识别方法和情感识别系统
CN108460630A (zh) * 2018-02-12 2018-08-28 广州虎牙信息科技有限公司 基于用户数据进行分类分析的方法和装置
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109726745A (zh) * 2018-12-19 2019-05-07 北京理工大学 一种融入描述知识的基于目标的情感分类方法
CN110110653A (zh) * 2019-04-30 2019-08-09 上海迥灵信息技术有限公司 多特征融合的情绪识别方法、装置和存储介质
CN110600015A (zh) * 2019-09-18 2019-12-20 北京声智科技有限公司 一种语音的密集分类方法及相关装置
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《信号处理》 20100630 黄程韦等 基于特征空间分解与融合的语音情感识别 835-842 1 第26卷, 第6期 2 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637433B (zh) * 2011-02-09 2015-11-25 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN102332263A (zh) * 2011-09-23 2012-01-25 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103186527B (zh) * 2011-12-27 2017-04-26 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103366760A (zh) * 2012-03-26 2013-10-23 联想(北京)有限公司 一种数据处理方法、装置及系统
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
US10803879B2 (en) 2013-03-26 2020-10-13 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103236258B (zh) * 2013-05-06 2015-09-16 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
CN103440863B (zh) * 2013-08-28 2016-01-06 华南理工大学 一种基于流形的语音情感识别方法
CN103531206B (zh) * 2013-09-30 2017-09-29 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN103531208A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于短时记忆权重融合的航天应激情感识别方法
CN103531208B (zh) * 2013-11-01 2016-08-03 东南大学 一种基于短时记忆权重融合的航天应激情感识别方法
CN104008754B (zh) * 2014-05-21 2017-01-18 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN105810199A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种说话人的身份确认方法和装置
CN104700829A (zh) * 2015-03-30 2015-06-10 中南民族大学 动物声音情绪识别系统及其方法
CN104700829B (zh) * 2015-03-30 2018-05-01 中南民族大学 动物声音情绪识别系统及其方法
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
CN107305773A (zh) * 2016-04-15 2017-10-31 美特科技(苏州)有限公司 语音情绪辨识方法
CN107945790A (zh) * 2018-01-03 2018-04-20 京东方科技集团股份有限公司 一种情感识别方法和情感识别系统
CN108460630A (zh) * 2018-02-12 2018-08-28 广州虎牙信息科技有限公司 基于用户数据进行分类分析的方法和装置
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109473106B (zh) * 2018-11-12 2023-04-28 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109726745A (zh) * 2018-12-19 2019-05-07 北京理工大学 一种融入描述知识的基于目标的情感分类方法
CN110110653A (zh) * 2019-04-30 2019-08-09 上海迥灵信息技术有限公司 多特征融合的情绪识别方法、装置和存储介质
CN110600015A (zh) * 2019-09-18 2019-12-20 北京声智科技有限公司 一种语音的密集分类方法及相关装置
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统

Similar Documents

Publication Publication Date Title
CN101894550A (zh) 基于情感对特征优化的语音情感分类方法
Shahin et al. Emotion recognition using hybrid Gaussian mixture model and deep neural network
US7957959B2 (en) Method and apparatus for processing speech data with classification models
Hansen et al. Speaker recognition by machines and humans: A tutorial review
CN102893326A (zh) 结合情感点的汉语语音情感提取及建模方法
Singh Forensic and Automatic Speaker Recognition System.
Yücesoy et al. Gender identification of a speaker using MFCC and GMM
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
Bhukya Effect of gender on improving speech recognition system
Jin et al. Overview of front-end features for robust speaker recognition
Jothi et al. AI based speech language therapy using speech quality parameters for aphasia person: a comprehensive review
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
Ranjan et al. Text-dependent multilingual speaker identification for indian languages using artificial neural network
Boubakeur et al. Prosodic modelling based speaker identification
De Wet et al. Evaluation of formant-like features on an automatic vowel classification task
Ser et al. A hybrid PNN-GMM classification scheme for speech emotion recognition
Pao et al. Comparison of several classifiers for emotion recognition from noisy mandarin speech
Fu et al. A study on influence of gender on speech emotion classification
Lee et al. Speech emotion recognition using spectral entropy
Dumpala et al. Analysis of the Effect of Speech-Laugh on Speaker Recognition System.
Roberts et al. Speaker classification using composite hypothesis testing and list decoding
Harrag et al. GA-based feature subset selection: Application to Arabic speaker recognition system
Vergin et al. On the use of some divergence measures in speaker recognition
Ahmad et al. Client-wise cohort set selection by combining speaker-and phoneme-specific I-vectors for speaker verification
Roh et al. Novel acoustic features for speech emotion recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20101124