CN103578481B - 一种跨语言的语音情感识别方法 - Google Patents
一种跨语言的语音情感识别方法 Download PDFInfo
- Publication number
- CN103578481B CN103578481B CN201210256381.0A CN201210256381A CN103578481B CN 103578481 B CN103578481 B CN 103578481B CN 201210256381 A CN201210256381 A CN 201210256381A CN 103578481 B CN103578481 B CN 103578481B
- Authority
- CN
- China
- Prior art keywords
- emotion
- speech
- feature
- features
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000008451 emotion Effects 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000008909 emotion recognition Effects 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 26
- 239000000203 mixture Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007500 overflow downdraw method Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 125000004432 carbon atom Chemical group C* 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。
Description
技术领域
本发明涉及一种跨语言的语音情感识别方法,属于语音信号处理领域。
背景技术
语音作为最自然的交流手段之一,在人机交互应用中得到了越来越广泛的应用。语音中的情感信息,与语义信息不同,通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制,因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关,如年龄、性别、语境和文化背景等。因此语音情感识别与其它的模式识别问题相比有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入,人们提出了很多颇具前景的实际应用。如,在车载电子中,通过对驾驶员的情感状态(如愉快、惊讶、愤怒和悲伤等)进行跟踪,监测与识别,从而做出相应的响应以保证驾驶的安全。又例如,通过对恐惧类别的极端情感的识别,在一个基于音频的监控系统中,可以对可能发生的危险情感进行探测。
在现有的语音情感识别的研究和应用中,主要针对的还是单一的语言,如汉语语音情感识别系统,英语语音情感识别系统,德语语音情感识别系统等。虽然来自不同语系的人群在文化上有所差异,但是其情感的表达,特别是语音情感的表达上具有一定的普遍性。而目前,还未出现可以跨越两种不同语言的语音情感识别系统和方法。
发明内容
本发明提出了一种跨语言的语音情感识别方法,可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,在汉语和德语这两种语言上都获得了较高的识别率。
本发明为解决其技术问题采用如下技术方案:
一种跨语言的语音情感识别方法,包括以下步骤:
(1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括了愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含了五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤;
(2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择;
(2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共375个特征,即,特征向量的维素为375;
(2-2)对各个维度上的特征进行归一化处理,设和别为归一化前和归一化后第p维的特征的数值,则其归一化公式为
其中和分别为两个语音库中的所有数据的第p维特征的最小值和最大值,即 ;
(2-3)对德语语音库中的第p维特征,,基于所有用于训练并且已经分好情感类别的样本,计算其Fisher判别系数(FDR),的计算公式如下:
其中,为情感的类别数(此处为5),i、j为类别编号,为类别中心,即为该类别对应的所有训练数据的特征向量的均值,为该类别对应的所有训练数据的特征向量的样本方差;那么,对应于德语语音库的所有特征,其FDR集合为
(2-4)对于汉语语音库,采用与步骤(2-3)相同的计算方法求得所有特征的FDR集合;
(2-5)采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
,
上式中,是融合权重,取值范围为[0,1];最终所有特征的FDR集合为;
(2-6)根据进行从大到小排序,选出前10个最大的值所对应的特征作为最能区分不同情感类别的特征矢量;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,训练出对于每一类情感所对应的高斯混合模型,即,……,,其中为情感类别数,这里为5;
(4)识别:在识别过程中,将汉语语音库和德语语音库中待识别一段语音,直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量。对于该特征矢量,计算其关于每一类训练好的情感模型,……,的似然值。最终的识别结果为最大的所对应的情感,即:
。
所述的375维特征包括:基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差;短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差;十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。
本发明的有益效果如下:
1.本发明中所采用的Fisher判别系数结合加权特征融合的方法来进行跨语言的特征选择,兼顾并且考虑到了两种语言的语音库上的语音数据量的差异,选出的特征具有很好的情感区分度。
2.采用本发明的跨语言识别方法,可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性。在汉语和德语这两种语言上都获得了较高的识别率,并且在跨语言的愤怒情感的识别上获得的效果尤为突出。
附图说明
图1为本发明的方法流程图。
图2为平均识别率随特征选择融合权重的变化曲线。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1为本发明的方法流程图,本发明的方法共分为四步。
第一步:建立汉语和德语情感语音库
汉语情感语音库包含六名男性和六名女性的表演语音,包括六种基本的情感:愤怒、恐惧、喜悦、中性、悲伤和惊讶。对于德语语音库,使用的是著名的柏林情感语音库,该库中包含五名男性和五名女性的七种情感:愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶。选择出两个情感语音库中具有的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤。每一种情感所对应的语音样本数如表1所示。
表1
第二步:特征提取与特征选择
(1)特征提取
对于情感语音库中的每一条语音样本,提取基本的声学特征,包括:基音、短时能量、共振峰和美尔频率倒谱系数(MFCC)。在此基础上构造了二阶差分和三阶差分作为进一步的特征。构造了最大值、最小值、均值、方差、和范围等统计特征。一共采用了375个特征用来进行特征选择和识别,如表2所示。
表2
(2)特征选择
对于每一条语音样本,得到375维特征之后,首先,对各个维度上的特征进行归一化处理,设和分别为归一化前和归一化后第p维的特征的数值,则其归一化可通过式(1)完成:
(1)
其中,和分别为两个语音库中的所有数据的第p维特征的最小值和最大值,即 ;
对于每个特征(假设此处为第p个特征),基于所有用于训练并且已经分好情感类别的样本,计算其Fisher判别系数(FDR),的计算公式如下:
(2)
其中,为情感的类别数(此处为5),i、j为类别编号,为类别中心,即为该类别对应的所有训练数据的特征向量均值,为该类别对应的所有训练数据的样本方差。
用上述计算FDR的方法,分别得到对应于德语语音库的所有特征的FDR集合和对应于汉语语音库的所有特征的FDR集合。
由于两个语音库的数据量有很大的不同,德语语音库的数据量要比汉语语音库少很多,因此不能简单的将两个语音库合并进行最终特征的选择。这里采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
(3)
上式中,是融合权重,取值范围为[0,1]。因此,最终各特征的FDR集合为。最后,将各特征的FDR进行从大到小排序,选出前10个特征作为最能区分不同情感类别的特征矢量,在不同的下(),选出的10个特征的编号如表3所示。
表3
第三步:训练
提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布。高斯混合模型(GMM)是M个成员密度的加权和,其似然函数可以用如下形式表示:
(4)
这里是一D维(D=10)的特征矢量;是成员密度函数;是混合权值,M为混合成分数,为特征矢量的概率密度函数。每个成员密度函数是一D维变量的关于均值矢量和协方差矩阵的高斯函数,形式如下:
(5)
其中,混合权值满足条件:。因此,完整的GMM的参数集为:
,(6)
根据每一类情感所对应的所有训练数据所提取并选择出的特征矢量,采用期望最大(EM)算法来进行高斯混合模型的参数估计,也即是情感模型的训练。EM算法的基本思想是从一个初始化的模型开始,去估计一个新的模型,使得。这时新的模型对于下一次重复运算来说成为初始模型,该过程反复执行直到达到收敛门限。每一步的EM重复中,下列重估公式保证类模型的似然值单调增加,第i次运算中混合参数的重估为:
(7)
均值矢量的重估:
(8)
协方差矩阵的重估:
(9)
其中,为第t个的训练数据的特征矢量;m为成员序号;参变量为:
(10)
对于每一类情感,采用这种方式进行训练,从而得到其对应的高斯混合模型:,……,(为情感类别数,这里为5)。
第四步:识别
在识别过程中,将汉语语音库和德语语音库中待识别一段语音直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量。对于该特征矢量,计算其关于每一类训练好的情感模型,……,的似然值。最终的识别结果为最大的所对应的情感,即:
(11)
性能评价
为了验证采用了本发明所述的跨语言的语音情感识别方法的系统性能,训练集和测试集是不同的语种。用汉语训练,用德语进行识别的结果如表4所示(简称“汉语到德语”)。
表4
用德语训练,用汉语进行识别的结果如表5所示(简称“德语到汉语”)。
表5
从表4和表5上可以看出,除了中性情感之外,调节权重和GMM混合度,其它的情感识别率都能分别到达70%以上。例如,喜悦的识别率在融合权重0.9,GMM混合度20时达到71.83%。虽然在情感之间的误识率比较高,对一个或两个目标情感的高识别率,仍然显示了在这些声学模型在德语和汉语上具有相同的情感模式。
图2为在不同融合权重情况下,平均识别率的变化情况,可以看出随着融合权重的升高,平均识别率也随之变化。从平均识别率的角度来看,当特征选择的融合权重为0.7时,系统的性能最佳。
表6
表7
表8
表6—表8为跨语言识别中对于愤怒这种表情的识别,可以看出,同时在汉语和德语上,对愤怒的跨语言识别测试,获得了94%以上的识别率。
Claims (2)
1.一种跨语言的语音情感识别方法,其特征在于包括以下步骤:
(1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤;
(2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择;
(2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共375个特征,即特征向量的维度为375;
(2-2)对各个维度上的特征进行归一化处理,设和分别为归一化前和归一化后第p维的特征的数值,则其归一化公式为:
(1)
其中和分别为两个语音库中的所有数据的第p维特征的最小值和最大值,即 ;
(2-3)对德语语音库中的第p维特征,,基于所有用于训练并且已经分好情感类别的样本,计算其Fisher判别系数FDR,的计算公式如下:
(2)
其中,为情感的类别数,此处为5,i、j为类别编号,为类别中心,即为该类别对应的所有训练数据的特征向量的均值,为该类别对应的所有训练数据的特征向量的样本方差;那么,对应于德语语音库的所有特征,其FDR集合为;
(2-4)对于汉语语音库,采用与步骤(2-3)相同的计算方法求得所有特征的FDR集合;
(2-5)采用简单的加权融合的方法获得最终的双语言的特征评价分数,对于特征p,有
(3)
上式中,C表示该FDR是加权融合方法获得的结果,是融合权重,取值范围为[0,1];最终所有特征的FDR集合为;
(2-6)根据进行从大到小排序,选出前10个最大的值所对应的特征作为最能区分不同情感类别的特征矢量;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,训练出对于每一类情感所对应的高斯混合模型,即,……,,其中为情感类别数,这里为5;
(4)识别:在识别过程中,将汉语语音库和德语语音库中待识别一段语音,直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量;对于该特征矢量,计算其关于每一类训练好的情感模型,……,的似然值;最终的识别结果为最大的所对应的情感,即:
其中,g代表情感类别的编号,G代表情感类别数。
2.根据权利要求1所述的一种跨语言的语音情感识别方法,其特征在于,所述步骤(2)中的375维特征包括:基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差;短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差;十二阶美尔频率倒谱系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256381.0A CN103578481B (zh) | 2012-07-24 | 2012-07-24 | 一种跨语言的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256381.0A CN103578481B (zh) | 2012-07-24 | 2012-07-24 | 一种跨语言的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103578481A CN103578481A (zh) | 2014-02-12 |
CN103578481B true CN103578481B (zh) | 2016-04-27 |
Family
ID=50050134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210256381.0A Expired - Fee Related CN103578481B (zh) | 2012-07-24 | 2012-07-24 | 一种跨语言的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103578481B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538035B (zh) * | 2014-12-19 | 2018-05-01 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN104835508B (zh) * | 2015-04-01 | 2018-10-02 | 哈尔滨工业大学 | 一种用于混合语音情感识别的语音特征筛选方法 |
CN106898362B (zh) * | 2017-02-23 | 2019-11-12 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
CN110019962B (zh) * | 2017-10-27 | 2024-01-02 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
CN108766459B (zh) * | 2018-06-13 | 2020-07-17 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
CN110364186B (zh) * | 2019-08-08 | 2021-06-25 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN111048117B (zh) * | 2019-12-05 | 2022-06-17 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN112927714B (zh) * | 2021-01-25 | 2024-01-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN113628640B (zh) * | 2021-07-15 | 2024-09-20 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
KR20080086791A (ko) * | 2007-03-23 | 2008-09-26 | 엘지전자 주식회사 | 음성 기반 감정 인식 시스템 |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
-
2012
- 2012-07-24 CN CN201210256381.0A patent/CN103578481B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080086791A (ko) * | 2007-03-23 | 2008-09-26 | 엘지전자 주식회사 | 음성 기반 감정 인식 시스템 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN108597541B (zh) * | 2018-04-28 | 2020-10-02 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103578481A (zh) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103578481B (zh) | 一种跨语言的语音情感识别方法 | |
An et al. | Deep CNNs with self-attention for speaker identification | |
CN102779510B (zh) | 基于特征空间自适应投影的语音情感识别方法 | |
Ghahabi et al. | Deep learning backend for single and multisession i-vector speaker recognition | |
KR101014321B1 (ko) | 최소 분류 오차 기법을 이용한 감정 인식 방법 | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN108109613A (zh) | 用于智能对话语音平台的音频训练和识别方法及电子设备 | |
CN105280181B (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
Apsingekar et al. | Speaker model clustering for efficient speaker identification in large population applications | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN110110790B (zh) | 采用无监督聚类得分规整的说话人确认方法 | |
Ghalehjegh et al. | Deep bottleneck features for i-vector based text-independent speaker verification | |
Mehrabani et al. | Singing speaker clustering based on subspace learning in the GMM mean supervector space | |
Vydana et al. | Improved emotion recognition using GMM-UBMs | |
Li et al. | Oriental language recognition (OLR) 2020: Summary and analysis | |
Trabelsi et al. | Comparison between GMM-SVM sequence kernel and GMM: application to speech emotion recognition | |
Ghahabi et al. | Deep Neural Networks for i-Vector Language Identification of Short Utterances in Cars. | |
Răstoceanu et al. | Score fusion methods for text-independent speaker verification applications | |
Nemati et al. | RETRACTED CHAPTER: A Novel Text-Independent Speaker Verification System Using Ant Colony Optimization Algorithm | |
CN111081261B (zh) | 一种基于lda的文本无关声纹识别方法 | |
Lin | An improved GMM-based clustering algorithm for efficient speaker identification | |
Harrag et al. | GA-based feature subset selection: Application to Arabic speaker recognition system | |
Li et al. | An investigation of speaker clustering algorithms in adverse acoustic environments | |
CN113192493B (zh) | 一种结合GMM Token配比与聚类的核心训练语音选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160427 Termination date: 20160724 |