CN103578481A - 一种跨语言的语音情感识别方法 - Google Patents

一种跨语言的语音情感识别方法 Download PDF

Info

Publication number
CN103578481A
CN103578481A CN201210256381.0A CN201210256381A CN103578481A CN 103578481 A CN103578481 A CN 103578481A CN 201210256381 A CN201210256381 A CN 201210256381A CN 103578481 A CN103578481 A CN 103578481A
Authority
CN
China
Prior art keywords
emotion
speech
voice
feature
german
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210256381.0A
Other languages
English (en)
Other versions
CN103578481B (zh
Inventor
赵力
刘汝杰
黄程韦
魏昕
包永强
余华
阴法明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Fujitsu Ltd
Original Assignee
Southeast University
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Fujitsu Ltd filed Critical Southeast University
Priority to CN201210256381.0A priority Critical patent/CN103578481B/zh
Publication of CN103578481A publication Critical patent/CN103578481A/zh
Application granted granted Critical
Publication of CN103578481B publication Critical patent/CN103578481B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。

Description

一种跨语言的语音情感识别方法
技术领域
本发明涉及一种跨语言的语音情感识别方法,属于语音信号处理领域。
背景技术
语音作为最自然的交流手段之一,在人机交互应用中得到了越来越广泛的应用。语音中的情感信息,与语义信息不同,通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制,因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关,如年龄、性别、语境和文化背景等。因此语音情感识别与其它的模式识别问题相比有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入,人们提出了很多颇具前景的实际应用。如,在车载电子中,通过对驾驶员的情感状态(如愉快、惊讶、愤怒和悲伤等)进行跟踪,监测与识别,从而做出相应的响应以保证驾驶的安全。又例如,通过对恐惧类别的极端情感的识别,在一个基于音频的监控系统中,可以对可能发生的危险情感进行探测。
在现有的语音情感识别的研究和应用中,主要针对的还是单一的语言,如汉语语音情感识别系统,英语语音情感识别系统,德语语音情感识别系统等。虽然来自不同语系的人群在文化上有所差异,但是其情感的表达,特别是语音情感的表达上具有一定的普遍性。而目前,还未出现可以跨越两种不同语言的语音情感识别系统和方法。
发明内容
本发明提出了一种跨语言的语音情感识别方法,可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,在汉语和德语这两种语言上都获得了较高的识别率。
本发明为解决其技术问题采用如下技术方案:
一种跨语言的语音情感识别方法,包括以下步骤:
(1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括了愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含了五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤;
(2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择;
(2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共 375个特征,即,特征向量的维素为375;
(2-2)对各个维度上的特征进行归一化处理,设                                                
Figure 2012102563810100002DEST_PATH_IMAGE001
Figure 2012102563810100002DEST_PATH_IMAGE002
别为归一化前和归一化后第p维的特征的数值,则其归一化公式为
Figure 2012102563810100002DEST_PATH_IMAGE003
其中
Figure 2012102563810100002DEST_PATH_IMAGE005
分别为两个语音库中的所有数据的第p维特征的最小值和最大值,即
Figure 2012102563810100002DEST_PATH_IMAGE006
Figure 2012102563810100002DEST_PATH_IMAGE007
(2-3)对德语语音库中的第p维特征,,基于所有用于训练并且已经分好情感类别的样本,计算其Fisher判别系数(FDR),
Figure 2012102563810100002DEST_PATH_IMAGE009
的计算公式如下:
Figure 2012102563810100002DEST_PATH_IMAGE010
      
其中, 
Figure 2012102563810100002DEST_PATH_IMAGE011
为情感的类别数(此处为5),i、j为类别编号,
Figure 2012102563810100002DEST_PATH_IMAGE012
为类别中心,即为该类别对应的所有训练数据的特征向量的均值,
Figure 2012102563810100002DEST_PATH_IMAGE013
为该类别对应的所有训练数据的特征向量的样本方差;那么,对应于德语语音库的所有特征,其FDR集合为 
(2-4)对于汉语语音库,采用与步骤(2-3)相同的计算方法求得所有特征的FDR集合
Figure 2012102563810100002DEST_PATH_IMAGE015
(2-5)采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
Figure 2012102563810100002DEST_PATH_IMAGE016
 ,                  
上式中,
Figure 2012102563810100002DEST_PATH_IMAGE017
是融合权重,取值范围为[0,1];最终所有特征的FDR集合为
Figure 2012102563810100002DEST_PATH_IMAGE018
(2-6)根据
Figure 2012102563810100002DEST_PATH_IMAGE019
进行从大到小排序,选出前10个最大的值所对应的特征作为最能区分不同情感类别的特征矢量;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,训练出对于每一类情感所对应的高斯混合模型,即
Figure 2012102563810100002DEST_PATH_IMAGE020
, …… ,
Figure 2012102563810100002DEST_PATH_IMAGE021
,其中为情感类别数,这里为5;
(4)识别:在识别过程中,将汉语语音库和德语语音库中待识别一段语音,直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量。对于该特征矢量,计算其关于每一类训练好的情感模型
Figure 729437DEST_PATH_IMAGE020
, …… ,
Figure 934153DEST_PATH_IMAGE021
的似然值。最终的识别结果为最大的
Figure 821469DEST_PATH_IMAGE022
所对应的情感,即:
Figure 2012102563810100002DEST_PATH_IMAGE023
。    
所述的375维特征包括:基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差;短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差;十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。
本发明的有益效果如下:
1. 本发明中所采用的Fisher判别系数结合加权特征融合的方法来进行跨语言的特征选择,兼顾并且考虑到了两种语言的语音库上的语音数据量的差异,选出的特征具有很好的情感区分度。
2. 采用本发明的跨语言识别方法,可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性。在汉语和德语这两种语言上都获得了较高的识别率,并且在跨语言的愤怒情感的识别上获得的效果尤为突出。
附图说明
图1为本发明的方法流程图。
图2为平均识别率随特征选择融合权重的变化曲线。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1为本发明的方法流程图,本发明的方法共分为四步。
第一步:建立汉语和德语情感语音库
汉语情感语音库包含六名男性和六名女性的表演语音,包括六种基本的情感:愤怒、恐惧、喜悦、中性、悲伤和惊讶。对于德语语音库,使用的是著名的柏林情感语音库,该库中包含五名男性和五名女性的七种情感:愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶。选择出两个情感语音库中具有的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤。每一种情感所对应的语音样本数如表1所示。
表1
Figure 2012102563810100002DEST_PATH_IMAGE024
第二步:特征提取与特征选择
(1)特征提取
对于情感语音库中的每一条语音样本,提取基本的声学特征,包括:基音、短时能量、共振峰和美尔频率倒谱系数(MFCC)。在此基础上构造了二阶差分和三阶差分作为进一步的特征。构造了最大值、最小值、均值、方差、和范围等统计特征。一共采用了 375 个特征用来进行特征选择和识别,如表2所示。
表2
 
Figure DEST_PATH_IMAGE025
(2)特征选择
对于每一条语音样本,得到375维特征之后,首先,对各个维度上的特征进行归一化处理,设
Figure 2012102563810100002DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
分别为归一化前和归一化后第p维的特征的数值,则其归一化可通过式(1)完成:
                 (1)
其中,
Figure DEST_PATH_IMAGE029
Figure 2012102563810100002DEST_PATH_IMAGE030
分别为两个语音库中的所有数据的第p维特征的最小值和最大值,即
Figure DEST_PATH_IMAGE031
对于每个特征(假设此处为第p个特征),基于所有用于训练并且已经分好情感类别的样本,计算其Fisher判别系数(FDR),
Figure DEST_PATH_IMAGE033
的计算公式如下:
Figure 2012102563810100002DEST_PATH_IMAGE034
       (2)
其中,
Figure 113517DEST_PATH_IMAGE011
为情感的类别数(此处为5),i、j为类别编号,为类别中心,即为该类别对应的所有训练数据的特征向量均值,
Figure 798893DEST_PATH_IMAGE013
为该类别对应的所有训练数据的样本方差。
用上述计算FDR的方法,分别得到对应于德语语音库的所有特征的FDR集合 和对应于汉语语音库的所有特征的FDR集合
Figure 2012102563810100002DEST_PATH_IMAGE036
由于两个语音库的数据量有很大的不同,德语语音库的数据量要比汉语语音库少很多,因此不能简单的将两个语音库合并进行最终特征的选择。这里采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
Figure DEST_PATH_IMAGE037
          (3)               
上式中,
Figure 283707DEST_PATH_IMAGE017
是融合权重,取值范围为[0,1]。因此,最终各特征的FDR集合为
Figure 2012102563810100002DEST_PATH_IMAGE038
。最后,将各特征的FDR进行从大到小排序,选出前10个特征作为最能区分不同情感类别的特征矢量,在不同的
Figure 495508DEST_PATH_IMAGE017
下(),选出的10个特征的编号如表3所示。
表3
 
Figure 2012102563810100002DEST_PATH_IMAGE040
第三步:训练
提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布。高斯混合模型(GMM)是M个成员密度的加权和,其似然函数
Figure DEST_PATH_IMAGE041
可以用如下形式表示:
Figure 2012102563810100002DEST_PATH_IMAGE042
    (4)
这里
Figure DEST_PATH_IMAGE043
是一D维(D=10)的特征矢量;
Figure 2012102563810100002DEST_PATH_IMAGE044
是成员密度函数;
Figure DEST_PATH_IMAGE045
是混合权值,M为混合成分数,
Figure 2012102563810100002DEST_PATH_IMAGE046
为特征矢量的概率密度函数。每个成员密度函数是一D维变量的关于均值矢量和协方差矩阵
Figure 2012102563810100002DEST_PATH_IMAGE048
的高斯函数,形式如下:
Figure DEST_PATH_IMAGE049
    (5)
其中,混合权值满足条件:
Figure 2012102563810100002DEST_PATH_IMAGE050
。因此,完整的GMM的参数集为:
Figure DEST_PATH_IMAGE051
Figure 2012102563810100002DEST_PATH_IMAGE052
           (6)
根据每一类情感所对应的所有训练数据所提取并选择出的特征矢量,采用期望最大(EM)算法来进行高斯混合模型的参数估计,也即是情感模型的训练。EM算法的基本思想是从一个初始化的模型
Figure DEST_PATH_IMAGE053
开始,去估计一个新的模型
Figure 2012102563810100002DEST_PATH_IMAGE054
,使得
Figure DEST_PATH_IMAGE055
。这时新的模型对于下一次重复运算来说成为初始模型,该过程反复执行直到达到收敛门限。每一步的EM重复中,下列重估公式保证类模型的似然值单调增加,第i次运算中混合参数
Figure 2012102563810100002DEST_PATH_IMAGE056
的重估为:
Figure DEST_PATH_IMAGE057
                     (7)
均值矢量
Figure 2012102563810100002DEST_PATH_IMAGE058
的重估:
Figure DEST_PATH_IMAGE059
                 (8)                                       
协方差矩阵
Figure 2012102563810100002DEST_PATH_IMAGE060
的重估:
Figure DEST_PATH_IMAGE061
     (9)
其中, 为第t个的训练数据的特征矢量;m为成员序号;参变量
Figure DEST_PATH_IMAGE063
为:
Figure 2012102563810100002DEST_PATH_IMAGE064
       (10)
对于每一类情感,采用这种方式进行训练,从而得到其对应的高斯混合模型:
Figure DEST_PATH_IMAGE065
, …… , 
Figure 2012102563810100002DEST_PATH_IMAGE066
Figure 755980DEST_PATH_IMAGE011
为情感类别数,这里为5)。
第四步:识别
在识别过程中,将汉语语音库和德语语音库中待识别一段语音直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量。对于该特征矢量,计算其关于每一类训练好的情感模型
Figure 686021DEST_PATH_IMAGE065
, …… ,
Figure 898828DEST_PATH_IMAGE066
的似然值
Figure DEST_PATH_IMAGE067
。最终的识别结果为最大的
Figure 729249DEST_PATH_IMAGE067
所对应的情感,即:
Figure 2012102563810100002DEST_PATH_IMAGE068
           (11)                                   
性能评价
为了验证采用了本发明所述的跨语言的语音情感识别方法的系统性能,训练集和测试集是不同的语种。用汉语训练,用德语进行识别的结果如表4所示(简称“汉语到德语”)。
表4
 
Figure DEST_PATH_IMAGE069
用德语训练,用汉语进行识别的结果如表5所示(简称“德语到汉语”)。
表5
 
Figure 2012102563810100002DEST_PATH_IMAGE070
从表4和表5上可以看出,除了中性情感之外,调节权重和GMM混合度,其它的情感识别率都能分别到达70%以上。例如,喜悦的识别率在融合权重0.9,GMM混合度20时达到71.83%。虽然在情感之间的误识率比较高,对一个或两个目标情感的高识别率,仍然显示了在这些声学模型在德语和汉语上具有相同的情感模式。
图2为在不同融合权重情况下,平均识别率的变化情况,可以看出随着融合权重的升高,平均识别率也随之变化。从平均识别率的角度来看,当特征选择的融合权重为0.7时,系统的性能最佳。
表6
Figure DEST_PATH_IMAGE071
表7
Figure 2012102563810100002DEST_PATH_IMAGE072
表8
Figure DEST_PATH_IMAGE073
表6—表8为跨语言识别中对于愤怒这种表情的识别,可以看出,同时在汉语和德语上,对愤怒的跨语言识别测试,获得了94%以上的识别率。

Claims (2)

1.一种跨语言的语音情感识别方法,其特征在于包括以下步骤:
(1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤;
(2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择;
(2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共 375个特征,即特征向量的维素为375;
(2-2)对各个维度上的特征进行归一化处理,设                                                
Figure 2012102563810100001DEST_PATH_IMAGE002
分别为归一化前和归一化后第p维的特征的数值,则其归一化公式为:
Figure 2012102563810100001DEST_PATH_IMAGE003
                    (1)
其中
Figure 2012102563810100001DEST_PATH_IMAGE004
Figure 2012102563810100001DEST_PATH_IMAGE005
分别为两个语音库中的所有数据的第p维特征的最小值和最大值,即
Figure 2012102563810100001DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
(2-3)对德语语音库中的第p维特征,
Figure 2012102563810100001DEST_PATH_IMAGE008
,基于所有用于训练并且已经分好情感类别的样本,计算其Fisher判别系数FDR,
Figure DEST_PATH_IMAGE009
的计算公式如下:
Figure 2012102563810100001DEST_PATH_IMAGE010
              (2)
其中,
Figure DEST_PATH_IMAGE011
为情感的类别数,此处为5,i、j为类别编号,
Figure 2012102563810100001DEST_PATH_IMAGE012
为类别中心,即为该类别对应的所有训练数据的特征向量的均值,
Figure DEST_PATH_IMAGE013
为该类别对应的所有训练数据的特征向量的样本方差;那么,对应于德语语音库的所有特征,其FDR集合为 
Figure 2012102563810100001DEST_PATH_IMAGE014
(2-4)对于汉语语音库,采用与步骤(2-3)相同的计算方法求得所有特征的FDR集合
Figure DEST_PATH_IMAGE015
(2-5)采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有
Figure 2012102563810100001DEST_PATH_IMAGE016
         (3)        
上式中,
Figure DEST_PATH_IMAGE017
是融合权重,取值范围为[0,1];最终所有特征的FDR集合为
Figure 2012102563810100001DEST_PATH_IMAGE018
(2-6)根据
Figure DEST_PATH_IMAGE019
进行从大到小排序,选出前10个最大的值所对应的特征作为最能区分不同情感类别的特征矢量;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,训练出对于每一类情感所对应的高斯混合模型,即
Figure 2012102563810100001DEST_PATH_IMAGE020
, …… ,
Figure DEST_PATH_IMAGE021
 ,其中
Figure 965115DEST_PATH_IMAGE011
为情感类别数,这里为5;
(4)识别:在识别过程中,将汉语语音库和德语语音库中待识别一段语音,直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量;对于该特征矢量,计算其关于每一类训练好的情感模型
Figure 819938DEST_PATH_IMAGE020
, …… ,
Figure 599675DEST_PATH_IMAGE021
的似然值
Figure 2012102563810100001DEST_PATH_IMAGE022
;最终的识别结果为最大的
Figure 680371DEST_PATH_IMAGE022
所对应的情感,即:
Figure DEST_PATH_IMAGE023
2.根据权利要求1所述的一种跨语言的语音情感识别方法,其特征在于,所述步骤(2)中的375维特征包括:基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差;第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差;短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差;十二阶美尔频率倒谱系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。
CN201210256381.0A 2012-07-24 2012-07-24 一种跨语言的语音情感识别方法 Expired - Fee Related CN103578481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210256381.0A CN103578481B (zh) 2012-07-24 2012-07-24 一种跨语言的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210256381.0A CN103578481B (zh) 2012-07-24 2012-07-24 一种跨语言的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN103578481A true CN103578481A (zh) 2014-02-12
CN103578481B CN103578481B (zh) 2016-04-27

Family

ID=50050134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210256381.0A Expired - Fee Related CN103578481B (zh) 2012-07-24 2012-07-24 一种跨语言的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN103578481B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538035A (zh) * 2014-12-19 2015-04-22 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及系统
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
CN106898362A (zh) * 2017-02-23 2017-06-27 重庆邮电大学 基于核主成分分析改进Mel滤波器的语音特征提取方法
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN110019962A (zh) * 2017-10-27 2019-07-16 优酷网络技术(北京)有限公司 一种视频文案信息的生成方法及装置
CN110364186A (zh) * 2019-08-08 2019-10-22 清华大学深圳研究生院 一种基于对抗学习的端到端的跨语言语音情感识别方法
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN112927714A (zh) * 2021-01-25 2021-06-08 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
CN113628640A (zh) * 2021-07-15 2021-11-09 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
KR20080086791A (ko) * 2007-03-23 2008-09-26 엘지전자 주식회사 음성 기반 감정 인식 시스템
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080086791A (ko) * 2007-03-23 2008-09-26 엘지전자 주식회사 음성 기반 감정 인식 시스템
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538035A (zh) * 2014-12-19 2015-04-22 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及系统
CN104538035B (zh) * 2014-12-19 2018-05-01 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及系统
CN104835508B (zh) * 2015-04-01 2018-10-02 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
CN106898362B (zh) * 2017-02-23 2019-11-12 重庆邮电大学 基于核主成分分析改进Mel滤波器的语音特征提取方法
CN106898362A (zh) * 2017-02-23 2017-06-27 重庆邮电大学 基于核主成分分析改进Mel滤波器的语音特征提取方法
CN110019962A (zh) * 2017-10-27 2019-07-16 优酷网络技术(北京)有限公司 一种视频文案信息的生成方法及装置
CN110019962B (zh) * 2017-10-27 2024-01-02 优酷网络技术(北京)有限公司 一种视频文案信息的生成方法及装置
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108597541B (zh) * 2018-04-28 2020-10-02 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN108766459B (zh) * 2018-06-13 2020-07-17 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN110364186A (zh) * 2019-08-08 2019-10-22 清华大学深圳研究生院 一种基于对抗学习的端到端的跨语言语音情感识别方法
CN110364186B (zh) * 2019-08-08 2021-06-25 清华大学深圳研究生院 一种基于对抗学习的端到端的跨语言语音情感识别方法
CN111048117A (zh) * 2019-12-05 2020-04-21 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN111048117B (zh) * 2019-12-05 2022-06-17 南京信息工程大学 一种基于目标适应子空间学习的跨库语音情感识别方法
CN112927714A (zh) * 2021-01-25 2021-06-08 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
CN112927714B (zh) * 2021-01-25 2024-01-12 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
CN113628640A (zh) * 2021-07-15 2021-11-09 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
CN113628640B (zh) * 2021-07-15 2024-09-20 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法

Also Published As

Publication number Publication date
CN103578481B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN104167208B (zh) 一种说话人识别方法和装置
Qian et al. Deep features for automatic spoofing detection
Semwal et al. Automatic speech emotion detection system using multi-domain acoustic feature selection and classification models
CN102779510B (zh) 基于特征空间自适应投影的语音情感识别方法
CN108648759A (zh) 一种文本无关的声纹识别方法
Gosztolya et al. DNN-based feature extraction and classifier combination for child-directed speech, cold and snoring identification
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
Shahzadi et al. Speech emotion recognition using nonlinear dynamics features
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
Zhang et al. Interaction and Transition Model for Speech Emotion Recognition in Dialogue.
Shon et al. MCE 2018: The 1st multi-target speaker detection and identification challenge evaluation
Trabelsi et al. Improved frame level features and SVM supervectors approach for the recogniton of emotional states from speech: Application to categorical and dimensional states
Widyowaty et al. Accent recognition by native language using mel-frequency cepstral coefficient and K-Nearest neighbor
Wanare et al. Human Emotion recognition from speech
Ladde et al. Use of multiple classifier system for gender driven speech emotion recognition
Ananthakrishnan et al. Model-based parametric features for emotion recognition from speech
Rebai et al. Improving of open-set language identification by using deep svm and thresholding functions
CN108242239A (zh) 一种声纹识别方法
CN107492384B (zh) 一种基于模糊最近邻算法的语音情感识别方法
CN113257236B (zh) 一种基于核心帧筛选的模型得分优化方法
CN111081261A (zh) 一种基于lda的文本无关声纹识别方法
CN113223537B (zh) 一种基于阶段测试反馈的语音训练数据迭代更新方法
CN113192493B (zh) 一种结合GMM Token配比与聚类的核心训练语音选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160427

Termination date: 20160724

CF01 Termination of patent right due to non-payment of annual fee