CN101930733A - 一种用于语音情感识别的语音情感特征提取方法 - Google Patents

一种用于语音情感识别的语音情感特征提取方法 Download PDF

Info

Publication number
CN101930733A
CN101930733A CN 201010272971 CN201010272971A CN101930733A CN 101930733 A CN101930733 A CN 101930733A CN 201010272971 CN201010272971 CN 201010272971 CN 201010272971 A CN201010272971 A CN 201010272971A CN 101930733 A CN101930733 A CN 101930733A
Authority
CN
China
Prior art keywords
speech
speech emotional
passband
voice signal
extraction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010272971
Other languages
English (en)
Other versions
CN101930733B (zh
Inventor
颜永红
周瑜
孙艳庆
李军锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN2010102729713A priority Critical patent/CN101930733B/zh
Publication of CN101930733A publication Critical patent/CN101930733A/zh
Application granted granted Critical
Publication of CN101930733B publication Critical patent/CN101930733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种用于语音情感识别的语音情感特征提取方法,包括下列步骤:1)对语音信号进行FFT计算得到均匀的通带能量;2)以通带能量为特征,计算各频点处的语音情感信息的F-Ratio值,得出语音情感信息的F-Ratio值在各个频带上的分布图;3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器,所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系;4)用所述非均匀美尔子带滤波器得到待识别语音信号各子带的能量输出,进而得出待识别语音信号的语音情感特征。本发明能够加大各类情感之间的鉴别性,相比于传统的MFCC特征,提高了情感识别的性能。

Description

一种用于语音情感识别的语音情感特征提取方法
技术领域
本发明涉及语音情感识别技术领域,具体地说,本发明涉及一种应用于语音情感识别系统的特征提取方法。
背景技术
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互技术已成为当前计算机科学领域一个十分活跃的研究课题。语音情感识别的研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动心理学等学科的发展,有着重要的现实意义,并最终产生很大经济效益和社会效益。语音情感识别,对于语音识别整体技术的提高也是很有好处的。一般说来,语音中包含了说话内容、说话人、情感、语气、语义等丰富信息。其中对于说话内容的识别,也就是常规的语音识别,以及说话人识别等,业界进行了长期的持续的研究,也取得了不错的成果。近来,以NIST(美国标准技术研究所)主导的丰富标注评测项目,引起来越来越多的人的关注。语音识别不再是单独对内容的识别,而是更加注重对含义、情感等信息的提取。另一方面,情感信息的提取,还能为语音识别提供信息和补偿作用,推动语音识别稳健性的提升。
关于语音情感识别的研究,可以采用的分类器都已近很成熟了,如混合高斯模型分类器(参见黄锋,尹俊勋,“一种基于GMM模型的语音情感识别方法”,《微计算机信息》,2009 25(10))。而如何从语音信号中提取出更加适合于语音情感识别的特征成为了提高识别率的最关键问题。之前的很多研究,大多数采用了基于韵律的特征,不过单独使用韵律特征的系统,其识别率是不理想的,原因之一就是很多情感的韵律特征有相同的特性,导致分类器不能很好的将它们分开。而传统的应用于说话人识别和语音识别里面的基于频谱的特征MFCC(美尔频率倒谱系数),也经常被拿来用于语音情感识别中,其性能相比单独使用韵律特征要好些。然而,基于频谱的特征MFCC,是从人听觉感知的角度,更多的强调语音、以及说话人的信息特性。而在语音情感识别中,应该强调其情感信息,而消减语音和说话人的信息。这一点和语音识别和说话人识别是不同的。对于语音识别来说,特征应该强调语音的信息,而说话人的特征应该强调说话人的信息。这个差异表明:目前常用的基于均匀美尔域的特征MFCC不能满足情感识别的要求,迫切需要一种能够更加适合于语音情感识别的特征提取方法。
发明内容
本发明要解决的技术问题是提供一种对语音情感识别更有效的特征提取方法,通过该特征提取方法,一方面可以提高各语音情感之间的区分性,对语音情感的分类提供更有效的特征,另一方面可以降低语音情感内部的差异性,减少语音情感识别的错误率。
为达到上述发明目的,本发明提供了一种用于语音情感识别的语音情感特征提取方法,包括下列步骤:
1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均匀的三角型带通滤波器得到均匀的通带能量;
2)以步骤1)所得到的通带能量为特征,计算各频点处的语音情感信息的F-Ratio值,得出语音情感信息的F-Ratio值在各个频带上的分布图;
3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器,所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系;
4)用非均匀美尔子带滤波器得到所述待识别语音信号各非均匀美尔子带的能量输出,进而得出所述待识别语音信号的语音情感特征。
本发明还提供了相应的语音情感识别方法,包括:
按上述1)至4)步骤得出待识别语音信号的语音情感特征;
5)将待识别语音信号的语音情感特征输入分类器(如混合高斯模型分类器),得出语音情感识别结果。
本发明具有下述技术效果:
本发明的语音情感识别特征提取方法,从模式分类的角度,评估了语音情感信息在频率域上的分布情感,从理论上更有利于语音情感的分类。利用该信息,采用非均匀子带滤波器反映这种关系,从而更好的挖掘对语音情感有益的信息。在所作的统计实验中,使用本发明特征计算方法的语音情感识别系统的结果,提取的特征加大了各类情感之间的鉴别性,相比于传统的MFCC特征,提高了情感识别的性能。
附图说明
图1是语音情感信息在频率域的分布图;
图2是本发明的特征提取流程图;
图3是非均匀子带滤波器的计算框图;
图4是在情感语料库上识别率改进对比图。
具体实施方式
本发明提供了一种基于非均匀子带的处理方法,如图2所示,其框架是基于传统的MFCC特征改进的,通过在频谱通带能量阶段引入F-Ratio分析得到非均匀的区分度信息,并引入滤波器的通带设计重新计算特征,具体包括以下步骤:
1)对已知情感的标准预料库中的语音信号的预处理和加窗;这是基于语音信号的短时平稳性进行的,对于语音情感识别来说,加窗与否和加窗参数不一定要和语音识别一致。因为语音识别是为了区分短时的音素信息,而语音情感识别是为了区分情绪状态,通常来说,其窗长应该长些。另一方面,预处理应该尽可能的去掉静音和噪声,这些对于语音情感识别也都是干扰作用的,对性能影响很大。
2)对已知情感的标准预料库中的语音信号进行FFT计算得到均匀的通带能量;受到语速、能量等影响,时域的信息是变化万千不易规整的;把时域的采样点作为特征,以16千赫兹采样、25毫秒窗长为例,特征的维数将多达400,对于分类很不利。因此,类似语音识别,时域的采样点被转到频域,得到各个频率处的频谱分量。
3)在步骤2)得到的通带能量的基础上,引入F-Ratio度量语音情感信息在各个频带上的分布图。人分辨情感,是基于某些模式进行的,例如舌位的运动等,它在频率域上会有不同的反映,受人体发音器官的限制,频率域上有些地方敏感些,有些地方受影响很小。基于这个思想,本发明以通带能量为特征,引入模式识别领域的F-Ratio分析,对各个频率点对情感语音识别的区分度进行量化分析,得到语音情感信息在频率域的分布图,图1给出了一个语音情感信息在频率域的分布图的例子,其纵坐标代表F-Ratio值的大小,单位为1。
4)基于在步骤3)得到的语音情感信息在频率域的分布图,根据图3中的算法,通过加强信息多的频谱(例如3000赫兹附近)的分辨率,抑制对信息偏少区域(例如1000赫兹附近)的分辨率,得到每个非均匀美尔子带的带宽,即可完成通带滤波器的重新设计。
5)利用重新设计的非均匀美尔子带滤波器得到待识别语音信号各子带的能量输出,并对各子带能量进行取对数、进行DCT(离散余弦变换)得到倒谱系数,最后对倒谱系数进行均值方差规整。这些处理可以控制特征的动态范围、对特征进行进一步的去冗余操作、以及去除信道噪声的影响,会更加稳健、更加实用(可参考文献Xuedong Huang,Alex Acero,Hsiao-Wuen Hon.Spoken Language Processing[M].NewJersey:Prentice Hall PTR,2001)。
下面结合具体实施例和附图对本发明进行详细描述。
实施例
本发明提供的情感识别特征计算方法,包括以下步骤:
1)语音信号的预处理和加窗;这里采用各帧有重叠的方法,为了和传统MFCC相比,帧长帧移分别都是25ms、10ms。引入了基于能量的语音端点检测技术,对静音、噪音等进行判断并丢弃。
2)FFT计算并得到均匀的通带能量。FFT计算后,得到nbin个频率分量(对于16k采样语音,大概需要512个样点、256个有效值),即使相邻帧各个对应点之间的差异性很大,本实施例采用均匀分布的滤波器,求取其通带能量;通带能量的个数不是越少越好,要尽量保证其分辨率。为了便于计算和后续使用,本实施例用了64个通带,每个通带大概包含8个频率点。通带能量的计算主要有两种方法(其中FB1(j)、FB2(j)分别是用两种方法计算出的通带能量,本实施例可任选其中一种):
M = N fft N fb + 1 - - - ( 1 )
FB 1 ( j ) = Σ i = M ( j - 1 ) M ( j + 1 ) | w ( i ) x ( i ) | - - - ( 2 )
FB 2 ( j ) = Σ i = M ( j - 1 ) M ( j + 1 ) w ( i ) x ( i ) 2 - - - ( 3 )
其中w(i)是通带滤波器的形状,一般采用三角滤波器组,通带能量之间有重合。
3)用F-Ratio度量情感信息在各个频带上的分布;有了上述通带能量(指已知情感的标准预料库中的语音信号经步骤1)和2)的处理后所得的通带能量),可利用所有的情感数据,在各个通带能量上进行F-Ratio的计算。对于每个频点,该频点的F-Ratio值按公式(4)得出。
F - Ratio = Σ i = 1 P ( e i - e ) 2 1 Q Σ i = 1 P Σ j = 1 Q ( x i j - e i ) 2 - - - ( 4 )
其中
Figure BSA00000257723500052
Figure BSA00000257723500053
Figure BSA00000257723500054
是第i种情感的第j帧的通带能量,i和j的值分别是j=1,2,...,Q,i=1,2,...,P。其中Q、P均为自然数。
4)基于在步骤3)得到的F-Ratio度量的语音情感信息在频率域的分布图,重新设计通带滤波器。非均匀子带滤波器的设计具体包括以下步骤:
(1)用F-Ratio度量情感信息在各个频带上的分布;可由步骤3)得到的一些样点信息,通过插值映射到整个频率域上,例如16k采样,其整个频率范围是0~8k。
(2)计算F-Ratio的累积求和,即求得其累积分布函数(即CDF)。本实施例中做了以下假设,即通带的带宽和其F-Ratio值成反比关系,其F-Ratio值越大,带宽越小。但是由于通带的边界受到通带带宽影响,是变化的,所以这种映射不好直接做。所以,本实施例提出了用通带的个数和F-Ratio的正比关系,用F-Ratio的累积分布函数代替通带个数的累积分布函数,在整个频率域上映射,来解决这个问题。
(3)得到通带个数在整个频率范围上的分布,每个非均匀美尔子带的带宽就能通过上述分布直接计算得到。实际过程是在量化的频率域即FFT域进行的,所以要把通带数对FFT域的累积分布函数,乘以所需要的最终通带个数(通常取24),在整个通道数上量化,就得到了各个频率所属的通带编号。对所有的通带编号求差分,不为零处就是通带的频率点边界。频率点边界的编号差分,既是非均匀美尔子带的通带带宽。
5)对待识别语音信号,先按照所述步骤1)进行预处理和加窗,然后按照所述步骤2)进行FFT计算得到待识别语音信号的能量频谱,再利用步骤3)所述的重新设计的非均匀美尔子带滤波器得到所述待识别语音信号各非均匀美尔子带的的能量输出,并对各子带能量进行对数转换、DCT(离散余弦变换)得到倒谱系数,最后对所得倒谱系数进行均值方差规整。其中均值方差规整的公式如下:
E ( x ) = Σ i = 1 N x ( i ) - - - ( 5 )
D ( x ) = Σ i = 1 N ( x ( i ) - E ( x ) ) 2 - - - ( 6 )
y ( i ) = x ( i ) - E ( x ) D ( x ) - - - ( 7 )
其中,x(i)是规整前的特征,E(x)是其均值,D(x)是其方差,y(i)是均值方法规整后的特征。
在按照上述方法提取出语音信号中的情感特征后,可以将这些情感特征输入分类器(如混合高斯模型分类器),经过所述分类器的处理后,最终得出语音情感识别结果。
在CASIA汉语情感语料库上进行试验,共包括四个专业发音人,六种情绪,共9,600句不同发音,采用的分类器是混合高斯模型(GMM)分类器,各系统采用相同的512高斯数建模。如图4所示,相比基线MFCC特征,本发明的非均匀美尔子带频率倒谱系数(NUFCC)特征显著提高了情感的识别准确率,在有些情感上绝对提高5%左右,例如生气和惊讶。在平均意义上,绝对提高2%。

Claims (7)

1.一种用于语音情感识别的语音情感特征提取方法,包括下列步骤:
1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均匀带通滤波器得到均匀的通带能量;
2)以步骤1)所得到的通带能量为特征,计算各频点处的语音情感信息的F-Ratio值,得出语音情感信息的F-Ratio值在各个频带上的分布图;
3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器,所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系;
4)对待识别语音信号,进行FFT计算得到能量频谱,然后用所述非均匀美尔子带滤波器进行滤波,得到所述待识别语音信号各非均匀美尔子带的能量输出,进而得出所述待识别语音信号的语音情感特征。
2.根据权利要求1所述的语音情感特征提取方法,其特征在于,所述步骤1)还包括:在进行FFT计算前,首先对语音信号进行预处理和加窗;所述预处理包括去掉所述语音信号中的静音和噪声。
3.根据权利要求1所述的语音情感特征提取方法,其特征在于,所述步骤2)中,
F - Ratio = Σ i = 1 P ( e i - e ) 2 1 Q Σ i = 1 P Σ j = 1 Q ( x i j - e i ) 2
其中,
Figure FSA00000257723400012
Figure FSA00000257723400013
Figure FSA00000257723400014
是第i种情感的第j帧的通带能量,
Q、P均为自然数。
4.根据权利要求1所述的语音情感特征提取方法,其特征在于,所述步骤3)包括下列子步骤:
31)通过插值将所述语音情感信息的F-Ratio值在各个频带上的分布图映射到整个频率域上;
32)计算F-Ratio的累积分布函数,用F-Ratio的累积分布函数代替通带个数的累积分布函数,得到通带个数在整个频率范围上的分布;
33)根据通带个数在整个频率范围上的分布,得出每个非均匀美尔子带的带宽,从而得出所述非均匀美尔子带滤波器。
5.根据权利要求1所述的语音情感特征提取方法,其特征在于,所述步骤4)还包括:得到待识别语音信号各子带的能量输出后,对各子带能量进行对数转换、离散余弦变换得到倒谱系数,并对所得倒谱系数进行均值方差规整,从而得出所述语音情感特征。
6.一种利用权利要求1至5中任一项所述的语音情感特征提取方法的语音情感识别方法,包括:
1)利用权利要求1至5中任一项所述的语音情感特征提取方法,得出待识别语音信号的语音情感特征;
2)将待识别语音信号的语音情感特征输入分类器,得出语音情感识别结果。
7.根据权利要求6所述的语音情感识别方法,其特征在于,所述步骤2)中,所述分类器是混合高斯模型分类器。
CN2010102729713A 2010-09-03 2010-09-03 一种用于语音情感识别的语音情感特征提取方法 Active CN101930733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102729713A CN101930733B (zh) 2010-09-03 2010-09-03 一种用于语音情感识别的语音情感特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102729713A CN101930733B (zh) 2010-09-03 2010-09-03 一种用于语音情感识别的语音情感特征提取方法

Publications (2)

Publication Number Publication Date
CN101930733A true CN101930733A (zh) 2010-12-29
CN101930733B CN101930733B (zh) 2012-05-30

Family

ID=43369869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102729713A Active CN101930733B (zh) 2010-09-03 2010-09-03 一种用于语音情感识别的语音情感特征提取方法

Country Status (1)

Country Link
CN (1) CN101930733B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
WO2018023517A1 (zh) * 2016-08-04 2018-02-08 易晓阳 一种语音交互识别控制系统
WO2018023518A1 (zh) * 2016-08-04 2018-02-08 易晓阳 一种语音交互识别智能终端
CN109976513A (zh) * 2019-02-20 2019-07-05 方科峰 一种系统界面设计方法
CN111261189A (zh) * 2020-04-02 2020-06-09 中国科学院上海微系统与信息技术研究所 一种车辆声音信号特征提取方法
CN111816203A (zh) * 2020-06-22 2020-10-23 天津大学 基于音素级分析抑制音素影响的合成语音检测方法
CN112562738A (zh) * 2020-11-13 2021-03-26 江苏汉德天坤数字技术有限公司 一种语音情绪识别算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
US20070162283A1 (en) * 1999-08-31 2007-07-12 Accenture Llp: Detecting emotions using voice signal analysis
WO2008092473A1 (en) * 2007-01-31 2008-08-07 Telecom Italia S.P.A. Customizable method and system for emotional recognition
US20100217595A1 (en) * 2009-02-24 2010-08-26 Korea Institute Of Science And Technology Method For Emotion Recognition Based On Minimum Classification Error

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162283A1 (en) * 1999-08-31 2007-07-12 Accenture Llp: Detecting emotions using voice signal analysis
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
WO2008092473A1 (en) * 2007-01-31 2008-08-07 Telecom Italia S.P.A. Customizable method and system for emotional recognition
US20100217595A1 (en) * 2009-02-24 2010-08-26 Korea Institute Of Science And Technology Method For Emotion Recognition Based On Minimum Classification Error

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery》 20090816 Yu Zhou et al. Emotion Recognition and Conversion for Mandarin Speech 179-183 3,6,7 , 2 *
《International Conference on Information Engineering and Computer Science, 2009. ICIECS 2009》 20091220 Yanqing Sun et al. Acoustic Feature Optimization for Emotion Affected Speech Recognition 1-4 1-7 , 2 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN103531206B (zh) * 2013-09-30 2017-09-29 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
WO2018023517A1 (zh) * 2016-08-04 2018-02-08 易晓阳 一种语音交互识别控制系统
WO2018023518A1 (zh) * 2016-08-04 2018-02-08 易晓阳 一种语音交互识别智能终端
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN109976513A (zh) * 2019-02-20 2019-07-05 方科峰 一种系统界面设计方法
CN111261189A (zh) * 2020-04-02 2020-06-09 中国科学院上海微系统与信息技术研究所 一种车辆声音信号特征提取方法
CN111261189B (zh) * 2020-04-02 2023-01-31 中国科学院上海微系统与信息技术研究所 一种车辆声音信号特征提取方法
CN111816203A (zh) * 2020-06-22 2020-10-23 天津大学 基于音素级分析抑制音素影响的合成语音检测方法
CN112562738A (zh) * 2020-11-13 2021-03-26 江苏汉德天坤数字技术有限公司 一种语音情绪识别算法

Also Published As

Publication number Publication date
CN101930733B (zh) 2012-05-30

Similar Documents

Publication Publication Date Title
CN101930733B (zh) 一种用于语音情感识别的语音情感特征提取方法
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN102543073B (zh) 一种沪语语音识别信息处理方法
CN103646649A (zh) 一种高效的语音检测方法
CN102968990B (zh) 说话人识别方法和系统
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN103117059A (zh) 一种基于张量分解的语音信号特征提取方法
CN102723081B (zh) 语音信号处理方法、语音和声纹识别方法及其装置
Nwe et al. Detection of stress and emotion in speech using traditional and FFT based log energy features
CN108564965B (zh) 一种抗噪语音识别系统
CN109036437A (zh) 口音识别方法、装置、计算机装置及计算机可读存储介质
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN108198545A (zh) 一种基于小波变换的语音识别方法
CN112599148A (zh) 一种语音识别方法及装置
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Riazati Seresht et al. Spectro-temporal power spectrum features for noise robust ASR
Hsu et al. Voice activity detection based on frequency modulation of harmonics
CN110379438B (zh) 一种语音信号基频检测与提取方法及系统
Fachrie et al. Robust Indonesian digit speech recognition using Elman recurrent neural network
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Yue et al. Speaker age recognition based on isolated words by using SVM
Gan et al. Savitzky-Golay filtering and improved energy entropy for speech endpoint detection under low SNR
Zhen et al. On the use of bandpass liftering in speaker recognition
CN110930534A (zh) 一种基于特殊语音识别技术的乘务员自助出退勤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant