CN102779510A - 基于特征空间自适应投影的语音情感识别方法 - Google Patents

基于特征空间自适应投影的语音情感识别方法 Download PDF

Info

Publication number
CN102779510A
CN102779510A CN2012102505711A CN201210250571A CN102779510A CN 102779510 A CN102779510 A CN 102779510A CN 2012102505711 A CN2012102505711 A CN 2012102505711A CN 201210250571 A CN201210250571 A CN 201210250571A CN 102779510 A CN102779510 A CN 102779510A
Authority
CN
China
Prior art keywords
emotion
feature
individual
characteristic
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102505711A
Other languages
English (en)
Other versions
CN102779510B (zh
Inventor
赵力
黄程韦
魏昕
包永强
余华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen sound network technology Co., Ltd.
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN 201210250571 priority Critical patent/CN102779510B/zh
Publication of CN102779510A publication Critical patent/CN102779510A/zh
Application granted granted Critical
Publication of CN102779510B publication Critical patent/CN102779510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征空间自适应投影的语音情感识别方法,属于语音信号处理领域。本发明首先对语音进行特征提取,并且计算每个特征的模糊熵,当该特征的模糊熵小于预先设定好的阈值时,则认为该特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征。在训练的参数迭代估计中对权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型;最后采用计算高斯混合模型似然值的方式进行识别。采用本发明的方法可以有效地去除对识别效果不佳的特征,从而提高语音情感识别率。

Description

基于特征空间自适应投影的语音情感识别方法
技术领域
本发明涉及一种基于特征空间自适应投影的语音情感识别方法,属于语音信号处理领域。
背景技术
语音作为最自然的交流手段之一,在人机交互应用中得到了越来越广泛的应用。语音中的情感信息,与语义信息不同,通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制,因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关,如年龄、性别、语境和文化背景等。因此语音情感识别比起其它的模式识别问题有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入,研究者们提出了很多颇具前景的实际应用。如,在车载电子中,通过对驾驶员的情感状态(如愉快、惊讶、愤怒和悲伤等)进行跟踪,监测与识别,从而做出相应的响应以保证驾驶的安全。又例如,通过对恐惧类别的极端情感的识别,在一个基于音频的监控系统中,可以对可能发生的危险情感进行探测。
由于语音中的特征众多,当提取出特征之后,需要面临的一个重要问题是如何在如此众多的特征中选择情感区分度最大的特征。特别是每个特定的说话人与一般模型之间都存在着差异,而语音情感识别中是与说话人无关的,因此如何来保留特定说话人与一般模型之间共同的特征,压缩特定说话人与一般模型之间差异大的特征,从而达到说话人自适应,对于语音情感识别来说十分重要。而目前,还未出现合适的技术来对特征进行有效地选择,从而降低特定说话人对整体语音情感识别的影响。
发明内容
本发明为解决现有技术的缺陷,提出了一种基于特征空间自适应投影的语音情感识别方法。
本发明为解决其技术问题采用如下技术方案:
一种基于特征空间自适应投影的语音情感识别方法,包括以下步骤:
(1)特征提取:对于情感语音库中的每一条语音样本,提取基本的声学特征,对于第                                                
Figure 61999DEST_PATH_IMAGE001
个语音样本,
Figure 950321DEST_PATH_IMAGE002
(2)特征选择: 
(2-1)对于特定说话人的某一个情感特征,此处设为第
Figure 22707DEST_PATH_IMAGE003
个特征,分别通过
Figure 312874DEST_PATH_IMAGE004
种情感的高斯混合模型,
Figure 255422DEST_PATH_IMAGE004
为待识别的情感类别数,得到
Figure 880307DEST_PATH_IMAGE004
个高斯混合模型似然概率密度值,以高斯混合模型似然概率密度值映射到0到1之间作为第
Figure 504186DEST_PATH_IMAGE003
个样本归属于第
Figure 711177DEST_PATH_IMAGE005
个情感类别的隶属度
Figure 874491DEST_PATH_IMAGE007
其中,
Figure 285749DEST_PATH_IMAGE008
表示第i个样本的特征矢量在第j个情感类别模型参数下的似然值;
(2-2)获得特定说话人的第
Figure 550509DEST_PATH_IMAGE009
个特征归属于第个情感类别的模糊熵
Figure 109371DEST_PATH_IMAGE011
,其计算公式为:
Figure 324320DEST_PATH_IMAGE012
      
其中,常数
Figure 505903DEST_PATH_IMAGE013
Figure 898838DEST_PATH_IMAGE014
,那么,对特定说话人的第
Figure 720032DEST_PATH_IMAGE015
个特征的平均模糊熵为:
Figure 223826DEST_PATH_IMAGE016
     其中:
Figure 525494DEST_PATH_IMAGE017
为情感类别数;
(2-3)对特定说话人的第
Figure 338598DEST_PATH_IMAGE003
个特征,当模糊熵
Figure 397821DEST_PATH_IMAGE018
超过一定阈值
Figure 781722DEST_PATH_IMAGE019
时,则认为此特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征,保留下来的特征组成最终选出的特征矢量,其中阈值
Figure 937897DEST_PATH_IMAGE020
的取值范围为0.1~0.5;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,并且基于情感数据的置信度,通过值控制修正比例对待估计的参数进行修正,
Figure 468421DEST_PATH_IMAGE022
,对于情感置信度高的训练样本,在参数迭代估计中的权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型,即,
Figure 376334DEST_PATH_IMAGE023
, …… , 
Figure 324699DEST_PATH_IMAGE024
,其中
Figure 479605DEST_PATH_IMAGE017
为情感类别数;
(4)识别:在识别过程中,首先直接计算选出的特征矢量,计算其关于每一类训练好的情感模型
Figure 513420DEST_PATH_IMAGE023
, …… , 
Figure 225024DEST_PATH_IMAGE024
的似然值
Figure 277163DEST_PATH_IMAGE025
,… ,
Figure 353703DEST_PATH_IMAGE026
,最终的识别结果为最大的似然值
Figure 127012DEST_PATH_IMAGE027
所对应的情感,即:
Figure 642307DEST_PATH_IMAGE028
其中,
Figure 299684DEST_PATH_IMAGE029
表示第
Figure 796394DEST_PATH_IMAGE017
个情感所对应的似然值。  
本发明的有益效果如下:
本方法对高维空间的后验概率进行了特征空间的投影压缩,保留了特定说话人与一般模型之间共同的特征,压缩了特定说话人与一般模型之间差异大的特征,从而达到说话人自适应的识别效果,选出的特征具有很好的情感区分度。
附图说明
图1为本发明的方法流程图。
图2为本方法的识别结果示意图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1为本发明的方法流程图,本发明的方法共分为四步。
(1)特征提取
对于情感语音库中的每一条语音样本,提取基本的声学特征。对于第
Figure 867118DEST_PATH_IMAGE001
个语音样本,
Figure 858207DEST_PATH_IMAGE030
。在实际中常提取375个特征,这些特征为:基音、短时能量、共振峰,和美尔频率倒谱系数(MFCC)等。在此基础上构造了二阶差分和三阶差分作为进一步的特征。构造了最大值、最小值、均值、方差、和范围等统计特征,如表1所示。
表1
特征编号 特征提取
1-15: 基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差
16-90: 第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差
91-165: 第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差
166-180: 短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差
181-375: 十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差
(2)特征选择
(2-1)对于特定说话人的某一个情感特征(此处设为第
Figure 884938DEST_PATH_IMAGE031
个特征),分别通过
Figure 303281DEST_PATH_IMAGE004
种情感的GMM模型(
Figure 861301DEST_PATH_IMAGE004
为待识别的情感类别数),得到
Figure 639771DEST_PATH_IMAGE004
个GMM似然概率密度值,以GMM似然概率密度值映射到0到1之间作为第个样本归属于第
Figure 188881DEST_PATH_IMAGE032
个情感类别的隶属度
Figure 158498DEST_PATH_IMAGE033
Figure 491390DEST_PATH_IMAGE034
      (式1)
(2-2)获得特定说话人的第
Figure 492713DEST_PATH_IMAGE035
个特征归属于第
Figure 252859DEST_PATH_IMAGE036
个情感类别的模糊熵
Figure 519892DEST_PATH_IMAGE037
,其计算公式为,
Figure 905743DEST_PATH_IMAGE038
    (式2)
其中,常数
Figure 512305DEST_PATH_IMAGE013
Figure 505669DEST_PATH_IMAGE039
。那么,对特定说话人的第
Figure 446949DEST_PATH_IMAGE040
个特征的平均模糊熵为,
Figure 121644DEST_PATH_IMAGE041
   (式3)                    
(2-3)对特定说话人的第
Figure 834909DEST_PATH_IMAGE035
个特征,当模糊熵
Figure 264754DEST_PATH_IMAGE042
超过一定阈值
Figure 444062DEST_PATH_IMAGE043
时,则认为此特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征。因此,保留下来的特征组成了最终选出的特征矢量。阈值
Figure 906137DEST_PATH_IMAGE043
的取值范围为0.1~0.5。
(3)训练
提取并选择出特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布。高斯混合模型(GMM)是
Figure 549607DEST_PATH_IMAGE044
成员密度的加权和,其似然函数可以用如下形式表示:
Figure 822457DEST_PATH_IMAGE045
    (式4)
这里
Figure 738329DEST_PATH_IMAGE046
是一维的特征矢量;
Figure 252804DEST_PATH_IMAGE048
是成员密度函数;
Figure 211402DEST_PATH_IMAGE049
是混合权值,
Figure 99723DEST_PATH_IMAGE044
为混合成分数。每个成员密度函数是一
Figure 160390DEST_PATH_IMAGE047
维变量的关于均值矢量
Figure 512874DEST_PATH_IMAGE050
和协方差矩阵
Figure 393106DEST_PATH_IMAGE051
的高斯函数,形式如下:
Figure 17991DEST_PATH_IMAGE052
    (式5)
其中,混合权值满足条件:
Figure 376291DEST_PATH_IMAGE053
。因此,完整的GMM的参数集为:
Figure 35811DEST_PATH_IMAGE054
Figure 86944DEST_PATH_IMAGE055
           (式6)
根据每一类情感所对应的所有训练数据所提取并选择出的特征矢量,采用期望最大(EM)算法来进行高斯混合模型的参数估计,也即是情感模型的训练。EM算法的基本思想是从一个初始化的模型
Figure 12175DEST_PATH_IMAGE056
开始,去估计一个新的模型
Figure 423433DEST_PATH_IMAGE057
,使得
Figure 422613DEST_PATH_IMAGE058
。这时新的模型对于下一次重复运算来说成为初始模型,该过程反复执行直到达到收敛门限。每一步的EM迭代中,基于情感数据的置信度,通过
Figure 896845DEST_PATH_IMAGE021
值控制修正比例对待估计的参数进行修正,对于情感置信度高的训练样本,在参数迭代估计中的权重进行强化。 那么,第
Figure 247054DEST_PATH_IMAGE035
次运算中混合参数
Figure 462004DEST_PATH_IMAGE059
的重估为:
Figure 643587DEST_PATH_IMAGE060
                     (式7)
均值矢量的重估:
                 (式8)                                       
协方差矩阵
Figure 361510DEST_PATH_IMAGE063
的重估:
Figure 850129DEST_PATH_IMAGE064
     (式9)
其中, 
Figure 148386DEST_PATH_IMAGE065
为第t个的训练数据的特征矢量;m为成员序号;参变量
Figure 725385DEST_PATH_IMAGE066
为,
Figure 32870DEST_PATH_IMAGE067
       (式10)
对于每一类情感,采用这种方式进行训练,从而得到其对应的高斯混合模型: 
Figure 923466DEST_PATH_IMAGE068
, …… , 
Figure 907471DEST_PATH_IMAGE069
Figure 453990DEST_PATH_IMAGE017
为情感类别数)。
(4)识别
在识别过程中,首先直接计算选出的特征矢量,计算其关于每一类训练好的情感模型
Figure 627482DEST_PATH_IMAGE068
, …… , 
Figure 825114DEST_PATH_IMAGE069
的似然值
Figure 730754DEST_PATH_IMAGE070
。最终的识别结果为最大的
Figure 13836DEST_PATH_IMAGE071
所对应的情感,即:
Figure 725440DEST_PATH_IMAGE072
              (式11)                                   
为了验证采用了本发明所述的基于特征空间自适应投影的语音情感识别方法的系统性能,对采集的非特定说话人语音情感数据,进行了大量的人工标注和情感的听辨筛选。对置信度较高的情感数据,进行了基于自适应GMM的识别测试,如图2所示。说话人从2个增加到26个,平均识别率从91.7%下降到85.7%,其中烦躁的识别率较低,愤怒的识别率较高。在各组实验中GMM混合度设置为:[12,16,32,64,64,128,132],根据说话人数的增加而提高高斯分量的数量。在实验中说话人自适应的模糊熵阈值设为0.015时识别效果最佳。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (1)

1.一种基于特征空间自适应投影的语音情感识别方法,其特征在于,包括以下步骤:
(1)特征提取:对于情感语音库中的每一条语音样本,提取基本的声学特征,对于第                                                
Figure 277889DEST_PATH_IMAGE001
个语音样本,
Figure 969902DEST_PATH_IMAGE002
(2)特征选择: 
(2-1)对于特定说话人的某一个情感特征,此处设为第
Figure 706914DEST_PATH_IMAGE003
个特征,分别通过
Figure 417250DEST_PATH_IMAGE004
种情感的高斯混合模型,
Figure 784777DEST_PATH_IMAGE004
为待识别的情感类别数,得到
Figure 760823DEST_PATH_IMAGE004
个高斯混合模型似然概率密度值,以高斯混合模型似然概率密度值映射到0到1之间作为第
Figure 989942DEST_PATH_IMAGE003
个样本归属于第
Figure 571096DEST_PATH_IMAGE005
个情感类别的隶属度
Figure 906262DEST_PATH_IMAGE006
Figure 822134DEST_PATH_IMAGE007
其中,
Figure 838632DEST_PATH_IMAGE008
表示第i个样本的特征矢量在第j个情感类别模型参数下的似然值;
(2-2)获得特定说话人的第
Figure 336609DEST_PATH_IMAGE009
个特征归属于第
Figure 534022DEST_PATH_IMAGE010
个情感类别的模糊熵
Figure 750240DEST_PATH_IMAGE011
,其计算公式为:
Figure 570428DEST_PATH_IMAGE012
      
其中,常数
Figure 109863DEST_PATH_IMAGE013
Figure 52411DEST_PATH_IMAGE014
,那么,对特定说话人的第个特征的平均模糊熵为:
Figure 848646DEST_PATH_IMAGE016
     其中:
Figure 9631DEST_PATH_IMAGE017
为情感类别数;
(2-3)对特定说话人的第
Figure 795184DEST_PATH_IMAGE003
个特征,当模糊熵超过一定阈值
Figure 131674DEST_PATH_IMAGE019
时,则认为此特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征,保留下来的特征组成最终选出的特征矢量,其中阈值
Figure 396433DEST_PATH_IMAGE020
的取值范围为0.1~0.5;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,并且基于情感数据的置信度,通过值控制修正比例对待估计的参数进行修正,
Figure 778796DEST_PATH_IMAGE022
,对于情感置信度高的训练样本,在参数迭代估计中的权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型,即,
Figure 541216DEST_PATH_IMAGE023
, …… , 
Figure 660482DEST_PATH_IMAGE024
,其中
Figure 302685DEST_PATH_IMAGE017
为情感类别数;
(4)识别:在识别过程中,首先直接计算选出的特征矢量,计算其关于每一类训练好的情感模型, …… , 
Figure 706301DEST_PATH_IMAGE024
的似然值
Figure 430806DEST_PATH_IMAGE025
,… ,
Figure 56959DEST_PATH_IMAGE026
,最终的识别结果为最大的似然值
Figure 381761DEST_PATH_IMAGE027
所对应的情感,即:
Figure 485984DEST_PATH_IMAGE028
其中, 
Figure 829109DEST_PATH_IMAGE029
表示第
Figure 563847DEST_PATH_IMAGE017
个情感所对应的似然值。
CN 201210250571 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法 Active CN102779510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210250571 CN102779510B (zh) 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210250571 CN102779510B (zh) 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN102779510A true CN102779510A (zh) 2012-11-14
CN102779510B CN102779510B (zh) 2013-12-18

Family

ID=47124410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210250571 Active CN102779510B (zh) 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN102779510B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103258537A (zh) * 2013-05-24 2013-08-21 安宁 利用特征结合对语音情感进行识别的方法及其装置
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法
CN104537386A (zh) * 2014-11-21 2015-04-22 东南大学 一种基于级联混合高斯形状模型的多姿态图像特征点配准方法
CN105070300A (zh) * 2015-08-12 2015-11-18 东南大学 一种基于说话人标准化变换的语音情感特征选择方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法
CN106096805A (zh) * 2016-05-10 2016-11-09 华北电力大学 一种基于熵权法特征选择的居民用电负荷分类方法
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
WO2018192186A1 (zh) * 2017-04-18 2018-10-25 广州视源电子科技股份有限公司 语音识别方法及装置
CN110910904A (zh) * 2019-12-25 2020-03-24 浙江百应科技有限公司 一种建立语音情感识别模型的方法及语音情感识别方法
CN111081279A (zh) * 2019-12-24 2020-04-28 深圳壹账通智能科技有限公司 语音情绪波动分析方法及装置
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112363099A (zh) * 2020-10-30 2021-02-12 天津大学 一种tmr电流传感器温漂与地磁场校正装置及方法
CN114288500A (zh) * 2021-12-02 2022-04-08 中国科学院深圳先进技术研究院 一种基于模糊熵特征提取的人机通气异步检测模型及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0146434A1 (en) * 1983-11-08 1985-06-26 TEXAS INSTRUMENTS FRANCE Société dite: A speaker independent speech recognition process
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0146434A1 (en) * 1983-11-08 1985-06-26 TEXAS INSTRUMENTS FRANCE Société dite: A speaker independent speech recognition process
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
金赟等: "耳语音情感数据库的设计与建立", 《声学技术》 *
黄程韦等: "基于特征空间分解与融合的语音情感识别", 《信号处理》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236258B (zh) * 2013-05-06 2015-09-16 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103258537A (zh) * 2013-05-24 2013-08-21 安宁 利用特征结合对语音情感进行识别的方法及其装置
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN103531198B (zh) * 2013-11-01 2016-03-23 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN104050963B (zh) * 2014-06-23 2017-02-15 东南大学 一种基于情感数据场的连续语音情感预测方法
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法
CN104537386A (zh) * 2014-11-21 2015-04-22 东南大学 一种基于级联混合高斯形状模型的多姿态图像特征点配准方法
CN104537386B (zh) * 2014-11-21 2019-04-19 东南大学 一种基于级联混合高斯形状模型的多姿态图像特征点配准方法
CN105070300A (zh) * 2015-08-12 2015-11-18 东南大学 一种基于说话人标准化变换的语音情感特征选择方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法
CN106096805A (zh) * 2016-05-10 2016-11-09 华北电力大学 一种基于熵权法特征选择的居民用电负荷分类方法
WO2018192186A1 (zh) * 2017-04-18 2018-10-25 广州视源电子科技股份有限公司 语音识别方法及装置
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN111081279A (zh) * 2019-12-24 2020-04-28 深圳壹账通智能科技有限公司 语音情绪波动分析方法及装置
CN110910904A (zh) * 2019-12-25 2020-03-24 浙江百应科技有限公司 一种建立语音情感识别模型的方法及语音情感识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112363099A (zh) * 2020-10-30 2021-02-12 天津大学 一种tmr电流传感器温漂与地磁场校正装置及方法
CN114288500A (zh) * 2021-12-02 2022-04-08 中国科学院深圳先进技术研究院 一种基于模糊熵特征提取的人机通气异步检测模型及装置
CN114288500B (zh) * 2021-12-02 2024-03-19 中国科学院深圳先进技术研究院 一种基于模糊熵特征提取的人机通气异步检测模型及装置

Also Published As

Publication number Publication date
CN102779510B (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN102779510B (zh) 基于特征空间自适应投影的语音情感识别方法
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN104167208B (zh) 一种说话人识别方法和装置
CN103578481B (zh) 一种跨语言的语音情感识别方法
CN109493874A (zh) 一种基于卷积神经网络的生猪咳嗽声音识别方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN109599109A (zh) 针对白盒场景的对抗音频生成方法及系统
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN103886323A (zh) 基于移动终端的行为识别方法及移动终端
CN109887496A (zh) 一种黑盒场景下的定向对抗音频生成方法及系统
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN110047517A (zh) 语音情感识别方法、问答方法及计算机设备
CN101620853A (zh) 一种基于改进模糊矢量量化的语音情感识别方法
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN105261367A (zh) 一种说话人识别方法
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN106971180A (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法
CN110334243A (zh) 基于多层时序池化的音频表示学习方法
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN108461085A (zh) 一种短时语音条件下的说话人识别方法
CN109767789A (zh) 一种用于语音情感识别的新特征提取方法
CN108831450A (zh) 一种基于用户情绪识别的虚拟机器人人机交互方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Huang Chengwei

Inventor after: Zhao Li

Inventor after: Wei Cuan

Inventor after: Bao Yongqiang

Inventor after: Yu Hua

Inventor before: Zhao Li

Inventor before: Huang Chengwei

Inventor before: Wei Cuan

Inventor before: Bao Yongqiang

Inventor before: Yu Hua

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: ZHAO LI HUANG CHENGWEI WEI XIN BAO YONGQIANG YU HUA TO: HUANG CHENGWEI ZHAO LI WEI XIN BAO YONGQIANG YU HUA

C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Huang Chengwei

Inventor after: Zhao Li

Inventor after: Wei Cuan

Inventor after: Bao Yongqiang

Inventor after: Yu Hua

Inventor after: He Yuxin

Inventor before: Huang Chengwei

Inventor before: Zhao Li

Inventor before: Wei Cuan

Inventor before: Bao Yongqiang

Inventor before: Yu Hua

CB03 Change of inventor or designer information
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170324

Address after: 518000 Guangdong city of Shenzhen province Qianhai Shenzhen Hong Kong cooperation zone before Bay Road No. 1 building 201 room A

Patentee after: Shenzhen sound network technology Co., Ltd.

Address before: 210096 Jiangsu city Nanjing Province four pailou No. 2

Patentee before: Southeast University