CN103578481A - 一种跨语言的语音情感识别方法 - Google Patents
一种跨语言的语音情感识别方法 Download PDFInfo
- Publication number
- CN103578481A CN103578481A CN201210256381.0A CN201210256381A CN103578481A CN 103578481 A CN103578481 A CN 103578481A CN 201210256381 A CN201210256381 A CN 201210256381A CN 103578481 A CN103578481 A CN 103578481A
- Authority
- CN
- China
- Prior art keywords
- emotion
- speech
- voice
- feature
- german
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。
Description
技术领域
本发明涉及一种跨语言的语音情感识别方法,属于语音信号处理领域。
背景技术
语音作为最自然的交流手段之一,在人机交互应用中得到了越来越广泛的应用。语音中的情感信息,与语义信息不同,通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制,因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关,如年龄、性别、语境和文化背景等。因此语音情感识别与其它的模式识别问题相比有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入,人们提出了很多颇具前景的实际应用。如,在车载电子中,通过对驾驶员的情感状态(如愉快、惊讶、愤怒和悲伤等)进行跟踪,监测与识别,从而做出相应的响应以保证驾驶的安全。又例如,通过对恐惧类别的极端情感的识别,在一个基于音频的监控系统中,可以对可能发生的危险情感进行探测。
在现有的语音情感识别的研究和应用中,主要针对的还是单一的语言,如汉语语音情感识别系统,英语语音情感识别系统,德语语音情感识别系统等。虽然来自不同语系的人群在文化上有所差异,但是其情感的表达,特别是语音情感的表达上具有一定的普遍性。而目前,还未出现可以跨越两种不同语言的语音情感识别系统和方法。
发明内容
本发明提出了一种跨语言的语音情感识别方法,可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,在汉语和德语这两种语言上都获得了较高的识别率。
本发明为解决其技术问题采用如下技术方案:
一种跨语言的语音情感识别方法,包括以下步骤:
(1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括了愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含了五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤;
(2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择;
(2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共 375个特征,即,特征向量的维素为375;
其中, 为情感的类别数(此处为5),i、j为类别编号,为类别中心,即为该类别对应的所有训练数据的特征向量的均值,为该类别对应的所有训练数据的特征向量的样本方差;那么,对应于德语语音库的所有特征,其FDR集合为
(2-5)采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,训练出对于每一类情感所对应的高斯混合模型,即, …… ,,其中为情感类别数,这里为5;
(4)识别:在识别过程中,将汉语语音库和德语语音库中待识别一段语音,直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量。对于该特征矢量,计算其关于每一类训练好的情感模型, …… ,的似然值。最终的识别结果为最大的所对应的情感,即:
所述的375维特征包括:基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差;短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差;十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。
本发明的有益效果如下:
1. 本发明中所采用的Fisher判别系数结合加权特征融合的方法来进行跨语言的特征选择,兼顾并且考虑到了两种语言的语音库上的语音数据量的差异,选出的特征具有很好的情感区分度。
2. 采用本发明的跨语言识别方法,可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性。在汉语和德语这两种语言上都获得了较高的识别率,并且在跨语言的愤怒情感的识别上获得的效果尤为突出。
附图说明
图1为本发明的方法流程图。
图2为平均识别率随特征选择融合权重的变化曲线。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1为本发明的方法流程图,本发明的方法共分为四步。
第一步:建立汉语和德语情感语音库
汉语情感语音库包含六名男性和六名女性的表演语音,包括六种基本的情感:愤怒、恐惧、喜悦、中性、悲伤和惊讶。对于德语语音库,使用的是著名的柏林情感语音库,该库中包含五名男性和五名女性的七种情感:愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶。选择出两个情感语音库中具有的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤。每一种情感所对应的语音样本数如表1所示。
表1
第二步:特征提取与特征选择
(1)特征提取
对于情感语音库中的每一条语音样本,提取基本的声学特征,包括:基音、短时能量、共振峰和美尔频率倒谱系数(MFCC)。在此基础上构造了二阶差分和三阶差分作为进一步的特征。构造了最大值、最小值、均值、方差、和范围等统计特征。一共采用了 375 个特征用来进行特征选择和识别,如表2所示。
表2
(2)特征选择
(1)
由于两个语音库的数据量有很大的不同,德语语音库的数据量要比汉语语音库少很多,因此不能简单的将两个语音库合并进行最终特征的选择。这里采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
上式中,是融合权重,取值范围为[0,1]。因此,最终各特征的FDR集合为。最后,将各特征的FDR进行从大到小排序,选出前10个特征作为最能区分不同情感类别的特征矢量,在不同的下(),选出的10个特征的编号如表3所示。
表3
第三步:训练
根据每一类情感所对应的所有训练数据所提取并选择出的特征矢量,采用期望最大(EM)算法来进行高斯混合模型的参数估计,也即是情感模型的训练。EM算法的基本思想是从一个初始化的模型开始,去估计一个新的模型,使得。这时新的模型对于下一次重复运算来说成为初始模型,该过程反复执行直到达到收敛门限。每一步的EM重复中,下列重估公式保证类模型的似然值单调增加,第i次运算中混合参数的重估为:
第四步:识别
在识别过程中,将汉语语音库和德语语音库中待识别一段语音直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量。对于该特征矢量,计算其关于每一类训练好的情感模型, …… ,的似然值。最终的识别结果为最大的所对应的情感,即:
性能评价
为了验证采用了本发明所述的跨语言的语音情感识别方法的系统性能,训练集和测试集是不同的语种。用汉语训练,用德语进行识别的结果如表4所示(简称“汉语到德语”)。
表4
用德语训练,用汉语进行识别的结果如表5所示(简称“德语到汉语”)。
表5
从表4和表5上可以看出,除了中性情感之外,调节权重和GMM混合度,其它的情感识别率都能分别到达70%以上。例如,喜悦的识别率在融合权重0.9,GMM混合度20时达到71.83%。虽然在情感之间的误识率比较高,对一个或两个目标情感的高识别率,仍然显示了在这些声学模型在德语和汉语上具有相同的情感模式。
图2为在不同融合权重情况下,平均识别率的变化情况,可以看出随着融合权重的升高,平均识别率也随之变化。从平均识别率的角度来看,当特征选择的融合权重为0.7时,系统的性能最佳。
表6
表7
表8
表6—表8为跨语言识别中对于愤怒这种表情的识别,可以看出,同时在汉语和德语上,对愤怒的跨语言识别测试,获得了94%以上的识别率。
Claims (2)
1.一种跨语言的语音情感识别方法,其特征在于包括以下步骤:
(1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤;
(2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择;
(2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共 375个特征,即特征向量的维素为375;
其中,为情感的类别数,此处为5,i、j为类别编号,为类别中心,即为该类别对应的所有训练数据的特征向量的均值,为该类别对应的所有训练数据的特征向量的样本方差;那么,对应于德语语音库的所有特征,其FDR集合为 ;
(2-5)采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,训练出对于每一类情感所对应的高斯混合模型,即, …… , ,其中为情感类别数,这里为5;
(4)识别:在识别过程中,将汉语语音库和德语语音库中待识别一段语音,直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量;对于该特征矢量,计算其关于每一类训练好的情感模型, …… ,的似然值;最终的识别结果为最大的所对应的情感,即:
2.根据权利要求1所述的一种跨语言的语音情感识别方法,其特征在于,所述步骤(2)中的375维特征包括:基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差;短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差;十二阶美尔频率倒谱系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256381.0A CN103578481B (zh) | 2012-07-24 | 2012-07-24 | 一种跨语言的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256381.0A CN103578481B (zh) | 2012-07-24 | 2012-07-24 | 一种跨语言的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103578481A true CN103578481A (zh) | 2014-02-12 |
CN103578481B CN103578481B (zh) | 2016-04-27 |
Family
ID=50050134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210256381.0A Expired - Fee Related CN103578481B (zh) | 2012-07-24 | 2012-07-24 | 一种跨语言的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103578481B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN104835508A (zh) * | 2015-04-01 | 2015-08-12 | 哈尔滨工业大学 | 一种用于混合语音情感识别的语音特征筛选方法 |
CN106898362A (zh) * | 2017-02-23 | 2017-06-27 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
CN110019962A (zh) * | 2017-10-27 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
CN110364186A (zh) * | 2019-08-08 | 2019-10-22 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN111048117A (zh) * | 2019-12-05 | 2020-04-21 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN112927714A (zh) * | 2021-01-25 | 2021-06-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN113628640A (zh) * | 2021-07-15 | 2021-11-09 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
KR20080086791A (ko) * | 2007-03-23 | 2008-09-26 | 엘지전자 주식회사 | 음성 기반 감정 인식 시스템 |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
-
2012
- 2012-07-24 CN CN201210256381.0A patent/CN103578481B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080086791A (ko) * | 2007-03-23 | 2008-09-26 | 엘지전자 주식회사 | 음성 기반 감정 인식 시스템 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN104538035B (zh) * | 2014-12-19 | 2018-05-01 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN104835508B (zh) * | 2015-04-01 | 2018-10-02 | 哈尔滨工业大学 | 一种用于混合语音情感识别的语音特征筛选方法 |
CN104835508A (zh) * | 2015-04-01 | 2015-08-12 | 哈尔滨工业大学 | 一种用于混合语音情感识别的语音特征筛选方法 |
CN106898362B (zh) * | 2017-02-23 | 2019-11-12 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
CN106898362A (zh) * | 2017-02-23 | 2017-06-27 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
CN110019962A (zh) * | 2017-10-27 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
CN110019962B (zh) * | 2017-10-27 | 2024-01-02 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN108597541B (zh) * | 2018-04-28 | 2020-10-02 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
CN108766459B (zh) * | 2018-06-13 | 2020-07-17 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
CN110364186A (zh) * | 2019-08-08 | 2019-10-22 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN110364186B (zh) * | 2019-08-08 | 2021-06-25 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN111048117A (zh) * | 2019-12-05 | 2020-04-21 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN111048117B (zh) * | 2019-12-05 | 2022-06-17 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN112927714A (zh) * | 2021-01-25 | 2021-06-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN112927714B (zh) * | 2021-01-25 | 2024-01-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN113628640A (zh) * | 2021-07-15 | 2021-11-09 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
CN113628640B (zh) * | 2021-07-15 | 2024-09-20 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103578481B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103578481A (zh) | 一种跨语言的语音情感识别方法 | |
CN104167208B (zh) | 一种说话人识别方法和装置 | |
Qian et al. | Deep features for automatic spoofing detection | |
Semwal et al. | Automatic speech emotion detection system using multi-domain acoustic feature selection and classification models | |
CN102779510B (zh) | 基于特征空间自适应投影的语音情感识别方法 | |
CN108648759A (zh) | 一种文本无关的声纹识别方法 | |
Gosztolya et al. | DNN-based feature extraction and classifier combination for child-directed speech, cold and snoring identification | |
CN105280181B (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
Shahzadi et al. | Speech emotion recognition using nonlinear dynamics features | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN103474061A (zh) | 基于分类器融合的汉语方言自动辨识方法 | |
Zhang et al. | Interaction and Transition Model for Speech Emotion Recognition in Dialogue. | |
Shon et al. | MCE 2018: The 1st multi-target speaker detection and identification challenge evaluation | |
Trabelsi et al. | Improved frame level features and SVM supervectors approach for the recogniton of emotional states from speech: Application to categorical and dimensional states | |
Widyowaty et al. | Accent recognition by native language using mel-frequency cepstral coefficient and K-Nearest neighbor | |
Wanare et al. | Human Emotion recognition from speech | |
Ladde et al. | Use of multiple classifier system for gender driven speech emotion recognition | |
Ananthakrishnan et al. | Model-based parametric features for emotion recognition from speech | |
Rebai et al. | Improving of open-set language identification by using deep svm and thresholding functions | |
CN108242239A (zh) | 一种声纹识别方法 | |
CN107492384B (zh) | 一种基于模糊最近邻算法的语音情感识别方法 | |
CN113257236B (zh) | 一种基于核心帧筛选的模型得分优化方法 | |
CN111081261A (zh) | 一种基于lda的文本无关声纹识别方法 | |
CN113223537B (zh) | 一种基于阶段测试反馈的语音训练数据迭代更新方法 | |
CN113192493B (zh) | 一种结合GMM Token配比与聚类的核心训练语音选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160427 Termination date: 20160724 |
|
CF01 | Termination of patent right due to non-payment of annual fee |