CN102779510B - 基于特征空间自适应投影的语音情感识别方法 - Google Patents

基于特征空间自适应投影的语音情感识别方法 Download PDF

Info

Publication number
CN102779510B
CN102779510B CN 201210250571 CN201210250571A CN102779510B CN 102779510 B CN102779510 B CN 102779510B CN 201210250571 CN201210250571 CN 201210250571 CN 201210250571 A CN201210250571 A CN 201210250571A CN 102779510 B CN102779510 B CN 102779510B
Authority
CN
China
Prior art keywords
feature
emotion
value
individual
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201210250571
Other languages
English (en)
Other versions
CN102779510A (zh
Inventor
黄程韦
赵力
魏昕
包永强
余华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen sound network technology Co., Ltd.
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN 201210250571 priority Critical patent/CN102779510B/zh
Publication of CN102779510A publication Critical patent/CN102779510A/zh
Application granted granted Critical
Publication of CN102779510B publication Critical patent/CN102779510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于特征空间自适应投影的语音情感识别方法,属于语音信号处理领域。本发明首先对语音进行特征提取,并且计算每个特征的模糊熵,当该特征的模糊熵小于预先设定好的阈值时,则认为该特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征。在训练的参数迭代估计中对权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型;最后采用计算高斯混合模型似然值的方式进行识别。采用本发明的方法可以有效地去除对识别效果不佳的特征,从而提高语音情感识别率。

Description

基于特征空间自适应投影的语音情感识别方法
技术领域
本发明涉及一种基于特征空间自适应投影的语音情感识别方法,属于语音信号处理领域。
背景技术
语音作为最自然的交流手段之一,在人机交互应用中得到了越来越广泛的应用。语音中的情感信息,与语义信息不同,通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制,因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关,如年龄、性别、语境和文化背景等。因此语音情感识别比起其它的模式识别问题有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入,研究者们提出了很多颇具前景的实际应用。如,在车载电子中,通过对驾驶员的情感状态(如愉快、惊讶、愤怒和悲伤等)进行跟踪,监测与识别,从而做出相应的响应以保证驾驶的安全。又例如,通过对恐惧类别的极端情感的识别,在一个基于音频的监控系统中,可以对可能发生的危险情感进行探测。
由于语音中的特征众多,当提取出特征之后,需要面临的一个重要问题是如何在如此众多的特征中选择情感区分度最大的特征。特别是每个特定的说话人与一般模型之间都存在着差异,而语音情感识别中是与说话人无关的,因此如何来保留特定说话人与一般模型之间共同的特征,压缩特定说话人与一般模型之间差异大的特征,从而达到说话人自适应,对于语音情感识别来说十分重要。而目前,还未出现合适的技术来对特征进行有效地选择,从而降低特定说话人对整体语音情感识别的影响。
发明内容
本发明为解决现有技术的缺陷,提出了一种基于特征空间自适应投影的语音情感识别方法。
本发明为解决其技术问题采用如下技术方案:
一种基于特征空间自适应投影的语音情感识别方法,包括以下步骤:
(1)特征提取:对于情感语音库中的每一条语音样本,提取基本的声学特征,对于第                                                个语音样本,
Figure 950321DEST_PATH_IMAGE002
(2)特征选择: 
(2-1)对于特定说话人的某一个情感特征,此处设为第个特征,分别通过
Figure 312874DEST_PATH_IMAGE004
种情感的高斯混合模型,
Figure 255422DEST_PATH_IMAGE004
为待识别的情感类别数,得到
Figure 880307DEST_PATH_IMAGE004
个高斯混合模型似然概率密度值,以高斯混合模型似然概率密度值映射到0到1之间作为第
Figure 504186DEST_PATH_IMAGE003
个样本归属于第
Figure 711177DEST_PATH_IMAGE005
个情感类别的隶属度
Figure 11577DEST_PATH_IMAGE006
Figure 874491DEST_PATH_IMAGE007
其中,
Figure 285749DEST_PATH_IMAGE008
表示第i个样本的特征矢量在第j个情感类别模型参数下的似然值;
(2-2)获得特定说话人的第个特征归属于第个情感类别的模糊熵
Figure 109371DEST_PATH_IMAGE011
,其计算公式为:
      
其中,常数
Figure 505903DEST_PATH_IMAGE013
Figure 898838DEST_PATH_IMAGE014
,那么,对特定说话人的第
Figure 720032DEST_PATH_IMAGE015
个特征的平均模糊熵为:
Figure 223826DEST_PATH_IMAGE016
     其中:
Figure 525494DEST_PATH_IMAGE017
为情感类别数;
(2-3)对特定说话人的第
Figure 338598DEST_PATH_IMAGE003
个特征,当模糊熵
Figure 397821DEST_PATH_IMAGE018
超过一定阈值时,则认为此特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征,保留下来的特征组成最终选出的特征矢量,其中阈值
Figure 937897DEST_PATH_IMAGE020
的取值范围为0.1~0.5;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,并且基于情感数据的置信度,通过
Figure 672634DEST_PATH_IMAGE021
值控制修正比例对待估计的参数进行修正,
Figure 468421DEST_PATH_IMAGE022
,对于情感置信度高的训练样本,在参数迭代估计中的权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型,即,, …… , 
Figure 324699DEST_PATH_IMAGE024
,其中
Figure 479605DEST_PATH_IMAGE017
为情感类别数;
(4)识别:在识别过程中,首先直接计算选出的特征矢量,计算其关于每一类训练好的情感模型, …… , 
Figure 225024DEST_PATH_IMAGE024
的似然值
Figure 277163DEST_PATH_IMAGE025
,… ,
Figure 353703DEST_PATH_IMAGE026
,最终的识别结果为最大的似然值所对应的情感,即:
Figure 642307DEST_PATH_IMAGE028
其中,
Figure 299684DEST_PATH_IMAGE029
表示第
Figure 796394DEST_PATH_IMAGE017
个情感所对应的似然值。  
本发明的有益效果如下:
本方法对高维空间的后验概率进行了特征空间的投影压缩,保留了特定说话人与一般模型之间共同的特征,压缩了特定说话人与一般模型之间差异大的特征,从而达到说话人自适应的识别效果,选出的特征具有很好的情感区分度。
附图说明
图1为本发明的方法流程图。
图2为本方法的识别结果示意图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1为本发明的方法流程图,本发明的方法共分为四步。
(1)特征提取
对于情感语音库中的每一条语音样本,提取基本的声学特征。对于第个语音样本,
Figure 858207DEST_PATH_IMAGE030
。在实际中常提取375个特征,这些特征为:基音、短时能量、共振峰,和美尔频率倒谱系数(MFCC)等。在此基础上构造了二阶差分和三阶差分作为进一步的特征。构造了最大值、最小值、均值、方差、和范围等统计特征,如表1所示。
表1
特征编号 特征提取
1-15: 基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差
16-90: 第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差
91-165: 第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差
166-180: 短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差
181-375: 十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差
(2)特征选择
(2-1)对于特定说话人的某一个情感特征(此处设为第
Figure 884938DEST_PATH_IMAGE031
个特征),分别通过
Figure 303281DEST_PATH_IMAGE004
种情感的GMM模型(
Figure 861301DEST_PATH_IMAGE004
为待识别的情感类别数),得到
Figure 639771DEST_PATH_IMAGE004
个GMM似然概率密度值,以GMM似然概率密度值映射到0到1之间作为第
Figure 271740DEST_PATH_IMAGE031
个样本归属于第
Figure 188881DEST_PATH_IMAGE032
个情感类别的隶属度
Figure 158498DEST_PATH_IMAGE033
Figure 491390DEST_PATH_IMAGE034
      (式1)
(2-2)获得特定说话人的第
Figure 492713DEST_PATH_IMAGE035
个特征归属于第个情感类别的模糊熵,其计算公式为,
    (式2)
其中,常数
Figure 512305DEST_PATH_IMAGE013
。那么,对特定说话人的第
Figure 446949DEST_PATH_IMAGE040
个特征的平均模糊熵为,
   (式3)                    
(2-3)对特定说话人的第
Figure 834909DEST_PATH_IMAGE035
个特征,当模糊熵
Figure 264754DEST_PATH_IMAGE042
超过一定阈值
Figure 444062DEST_PATH_IMAGE043
时,则认为此特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征。因此,保留下来的特征组成了最终选出的特征矢量。阈值的取值范围为0.1~0.5。
(3)训练
提取并选择出特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布。高斯混合模型(GMM)是
Figure 549607DEST_PATH_IMAGE044
成员密度的加权和,其似然函数可以用如下形式表示:
Figure 822457DEST_PATH_IMAGE045
    (式4)
这里
Figure 738329DEST_PATH_IMAGE046
是一
Figure 754827DEST_PATH_IMAGE047
维的特征矢量;
Figure 252804DEST_PATH_IMAGE048
是成员密度函数;是混合权值,
Figure 99723DEST_PATH_IMAGE044
为混合成分数。每个成员密度函数是一
Figure 160390DEST_PATH_IMAGE047
维变量的关于均值矢量
Figure 512874DEST_PATH_IMAGE050
和协方差矩阵
Figure 393106DEST_PATH_IMAGE051
的高斯函数,形式如下:
Figure 17991DEST_PATH_IMAGE052
    (式5)
其中,混合权值满足条件:
Figure 376291DEST_PATH_IMAGE053
。因此,完整的GMM的参数集为:
Figure 35811DEST_PATH_IMAGE054
           (式6)
根据每一类情感所对应的所有训练数据所提取并选择出的特征矢量,采用期望最大(EM)算法来进行高斯混合模型的参数估计,也即是情感模型的训练。EM算法的基本思想是从一个初始化的模型
Figure 12175DEST_PATH_IMAGE056
开始,去估计一个新的模型
Figure 423433DEST_PATH_IMAGE057
,使得
Figure 422613DEST_PATH_IMAGE058
。这时新的模型对于下一次重复运算来说成为初始模型,该过程反复执行直到达到收敛门限。每一步的EM迭代中,基于情感数据的置信度,通过值控制修正比例对待估计的参数进行修正,对于情感置信度高的训练样本,在参数迭代估计中的权重进行强化。 那么,第
Figure 247054DEST_PATH_IMAGE035
次运算中混合参数
Figure 462004DEST_PATH_IMAGE059
的重估为:
Figure 643587DEST_PATH_IMAGE060
                     (式7)
均值矢量
Figure 770943DEST_PATH_IMAGE061
的重估:
Figure 857716DEST_PATH_IMAGE062
                 (式8)                                       
协方差矩阵的重估:
     (式9)
其中, 
Figure 148386DEST_PATH_IMAGE065
为第t个的训练数据的特征矢量;m为成员序号;参变量
Figure 725385DEST_PATH_IMAGE066
为,
Figure 32870DEST_PATH_IMAGE067
       (式10)
对于每一类情感,采用这种方式进行训练,从而得到其对应的高斯混合模型: 
Figure 923466DEST_PATH_IMAGE068
, …… , 
Figure 907471DEST_PATH_IMAGE069
为情感类别数)。
(4)识别
在识别过程中,首先直接计算选出的特征矢量,计算其关于每一类训练好的情感模型
Figure 627482DEST_PATH_IMAGE068
, …… , 
Figure 825114DEST_PATH_IMAGE069
的似然值
Figure 730754DEST_PATH_IMAGE070
。最终的识别结果为最大的
Figure 13836DEST_PATH_IMAGE071
所对应的情感,即:
Figure 725440DEST_PATH_IMAGE072
              (式11)                                   
为了验证采用了本发明所述的基于特征空间自适应投影的语音情感识别方法的系统性能,对采集的非特定说话人语音情感数据,进行了大量的人工标注和情感的听辨筛选。对置信度较高的情感数据,进行了基于自适应GMM的识别测试,如图2所示。说话人从2个增加到26个,平均识别率从91.7%下降到85.7%,其中烦躁的识别率较低,愤怒的识别率较高。在各组实验中GMM混合度设置为:[12,16,32,64,64,128,132],根据说话人数的增加而提高高斯分量的数量。在实验中说话人自适应的模糊熵阈值设为0.015时识别效果最佳。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (1)

1.一种基于特征空间自适应投影的语音情感识别方法,其特征在于,包括以下步骤:
(1)特征提取:对于情感语音库中的每一条语音样本,提取基本的声学特征,对于第                                                
Figure 2012102505711100001DEST_PATH_IMAGE001
个语音样本,
Figure 724527DEST_PATH_IMAGE002
;所述基本的声学特征为375个特征:
特征1-15: 基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差;
特征16-90:    第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差;
特征91-165:   第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差;
特征166-180:  短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差;
特征181-375:  十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差;
(2)特征选择: 
(2-1)对于特定说话人的某一个情感特征,此处设为第
Figure 2012102505711100001DEST_PATH_IMAGE003
个特征,分别通过种情感的高斯混合模型,
Figure 271363DEST_PATH_IMAGE004
为待识别的情感类别数,得到
Figure 359536DEST_PATH_IMAGE004
个高斯混合模型似然概率密度值,以高斯混合模型似然概率密度值映射到0到1之间作为第
Figure 3007DEST_PATH_IMAGE003
个样本归属于第
Figure 2012102505711100001DEST_PATH_IMAGE005
个情感类别的隶属度
Figure 213540DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
其中,
Figure 4778DEST_PATH_IMAGE008
表示第i个样本的特征矢量在第j个情感类别模型参数下的似然值;
(2-2)获得特定说话人的第
Figure DEST_PATH_IMAGE009
个特征归属于第个情感类别的模糊熵
Figure DEST_PATH_IMAGE011
,其计算公式为:
Figure 267056DEST_PATH_IMAGE012
      
其中,常数
Figure DEST_PATH_IMAGE013
Figure 101020DEST_PATH_IMAGE014
,那么,对特定说话人的第
Figure DEST_PATH_IMAGE015
个特征的平均模糊熵为:
Figure 927024DEST_PATH_IMAGE016
     其中:
Figure DEST_PATH_IMAGE017
为情感类别数;
(2-3)对特定说话人的第
Figure 622579DEST_PATH_IMAGE003
个特征,当平均模糊熵
Figure 975063DEST_PATH_IMAGE018
超过一定阈值时,则认为此特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征,保留下来的特征组成最终选出的特征矢量,其中阈值
Figure 790048DEST_PATH_IMAGE020
的取值范围为0.1~0.5;
(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,并且基于情感数据的置信度,通过值控制修正比例对待估计的参数进行修正,
Figure 290299DEST_PATH_IMAGE022
,对于情感置信度高的训练样本,在参数迭代估计中的权重进行强化,第次运算中混合参数的重估为:
Figure DEST_PATH_IMAGE025
                (式7)     
均值矢量
Figure 871901DEST_PATH_IMAGE026
的重估为:
Figure DEST_PATH_IMAGE027
                  (式8)                                                 
协方差矩阵
Figure 47668DEST_PATH_IMAGE028
的重估为:
Figure DEST_PATH_IMAGE029
     (式9)
其中, 
Figure 785948DEST_PATH_IMAGE030
为第t个的训练数据的特征矢量;m为成员序号;参变量
Figure DEST_PATH_IMAGE031
为,
Figure 882692DEST_PATH_IMAGE032
       (式10)
从而训练出对于每一类情感所对应的高斯混合模型,即,
Figure DEST_PATH_IMAGE033
, …… , ,其中为情感类别数;
(4)识别:在识别过程中,首先直接计算选出的特征矢量,计算其关于每一类训练好的情感模型
Figure 516433DEST_PATH_IMAGE033
, …… , 
Figure 606749DEST_PATH_IMAGE034
的似然值
Figure DEST_PATH_IMAGE035
,… ,,最终的识别结果为最大的似然值
Figure DEST_PATH_IMAGE037
所对应的情感,即:
Figure 853371DEST_PATH_IMAGE038
其中, 
Figure DEST_PATH_IMAGE039
表示第
Figure 628560DEST_PATH_IMAGE017
个情感所对应的似然值。
CN 201210250571 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法 Active CN102779510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210250571 CN102779510B (zh) 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210250571 CN102779510B (zh) 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN102779510A CN102779510A (zh) 2012-11-14
CN102779510B true CN102779510B (zh) 2013-12-18

Family

ID=47124410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210250571 Active CN102779510B (zh) 2012-07-19 2012-07-19 基于特征空间自适应投影的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN102779510B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236258B (zh) * 2013-05-06 2015-09-16 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103258537A (zh) * 2013-05-24 2013-08-21 安宁 利用特征结合对语音情感进行识别的方法及其装置
CN103531198B (zh) * 2013-11-01 2016-03-23 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN104050963B (zh) * 2014-06-23 2017-02-15 东南大学 一种基于情感数据场的连续语音情感预测方法
CN104537386B (zh) * 2014-11-21 2019-04-19 东南大学 一种基于级联混合高斯形状模型的多姿态图像特征点配准方法
CN105070300A (zh) * 2015-08-12 2015-11-18 东南大学 一种基于说话人标准化变换的语音情感特征选择方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法
CN106096805A (zh) * 2016-05-10 2016-11-09 华北电力大学 一种基于熵权法特征选择的居民用电负荷分类方法
CN106875936B (zh) * 2017-04-18 2021-06-22 广州视源电子科技股份有限公司 语音识别方法及装置
CN108417207B (zh) * 2018-01-19 2020-06-30 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN111081279A (zh) * 2019-12-24 2020-04-28 深圳壹账通智能科技有限公司 语音情绪波动分析方法及装置
CN110910904A (zh) * 2019-12-25 2020-03-24 浙江百应科技有限公司 一种建立语音情感识别模型的方法及语音情感识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112363099B (zh) * 2020-10-30 2023-05-09 天津大学 一种tmr电流传感器温漂与地磁场校正装置及方法
CN114288500B (zh) * 2021-12-02 2024-03-19 中国科学院深圳先进技术研究院 一种基于模糊熵特征提取的人机通气异步检测模型及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0146434A1 (en) * 1983-11-08 1985-06-26 TEXAS INSTRUMENTS FRANCE Société dite: A speaker independent speech recognition process

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
JP4861912B2 (ja) * 2007-06-20 2012-01-25 独立行政法人情報通信研究機構 知識源を組込むための確率計算装置及びコンピュータプログラム
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102201237B (zh) * 2011-05-12 2013-03-13 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0146434A1 (en) * 1983-11-08 1985-06-26 TEXAS INSTRUMENTS FRANCE Société dite: A speaker independent speech recognition process

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2003-99084A 2003.04.04
JP特开2009-3110A 2009.01.08

Also Published As

Publication number Publication date
CN102779510A (zh) 2012-11-14

Similar Documents

Publication Publication Date Title
CN102779510B (zh) 基于特征空间自适应投影的语音情感识别方法
CN103578481B (zh) 一种跨语言的语音情感识别方法
CN104751228B (zh) 用于语音识别的深度神经网络的构建方法及系统
CN109493874A (zh) 一种基于卷积神经网络的生猪咳嗽声音识别方法
CN102890930B (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN109599109A (zh) 针对白盒场景的对抗音频生成方法及系统
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN109887496A (zh) 一种黑盒场景下的定向对抗音频生成方法及系统
CN107564513A (zh) 语音识别方法及装置
CN105654944B (zh) 一种融合了短时与长时特征建模的环境声识别方法及装置
CN101620853A (zh) 一种基于改进模糊矢量量化的语音情感识别方法
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN110047517A (zh) 语音情感识别方法、问答方法及计算机设备
Han et al. Speech emotion recognition with a ResNet-CNN-Transformer parallel neural network
CN105261367A (zh) 一种说话人识别方法
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN110534133A (zh) 一种语音情感识别系统及语音情感识别方法
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN108831450A (zh) 一种基于用户情绪识别的虚拟机器人人机交互方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Shu et al. Time-frequency performance study on urban sound classification with convolutional neural network
CN110148417B (zh) 基于总变化空间与分类器联合优化的说话人身份识别方法
Ladde et al. Use of multiple classifier system for gender driven speech emotion recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Huang Chengwei

Inventor after: Zhao Li

Inventor after: Wei Cuan

Inventor after: Bao Yongqiang

Inventor after: Yu Hua

Inventor before: Zhao Li

Inventor before: Huang Chengwei

Inventor before: Wei Cuan

Inventor before: Bao Yongqiang

Inventor before: Yu Hua

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: ZHAO LI HUANG CHENGWEI WEI XIN BAO YONGQIANG YU HUA TO: HUANG CHENGWEI ZHAO LI WEI XIN BAO YONGQIANG YU HUA

C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Huang Chengwei

Inventor after: Zhao Li

Inventor after: Wei Cuan

Inventor after: Bao Yongqiang

Inventor after: Yu Hua

Inventor after: He Yuxin

Inventor before: Huang Chengwei

Inventor before: Zhao Li

Inventor before: Wei Cuan

Inventor before: Bao Yongqiang

Inventor before: Yu Hua

TR01 Transfer of patent right

Effective date of registration: 20170324

Address after: 518000 Guangdong city of Shenzhen province Qianhai Shenzhen Hong Kong cooperation zone before Bay Road No. 1 building 201 room A

Patentee after: Shenzhen sound network technology Co., Ltd.

Address before: 210096 Jiangsu city Nanjing Province four pailou No. 2

Patentee before: Southeast University

TR01 Transfer of patent right